Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/42f43466-afd0-45be-8d77-636b8966f2f7/7db961f392ade35fa10a0e0e6513cf50.png)
概要
- Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation
- Yusong Wu, Ke Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, Shlomo Dubnov
- ICASSP 2023
- ‣
- 音声とテキストの対照学習モデルCLAPの論文
- CLIPを画像ではなく音声に応用したもの
- そもそも十分なサイズのデータセットが存在しなかった。
- → 巨大な(既存のものの10x以上)データセットを作成して公開
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/67c3d0d3-f3ea-495d-afbe-2ba14c583a13/e4115a696bd16651a751da1efe5e84f8.png)
- モデルアーキテクチャ
- 可変長の音声データに対して、これまではフレーム・チャンクごとにembを得て平均(スライス・投票)を利用していたが計算効率が悪い。性能も悪そう。
- → 荒く帯域的な情報(ダウンサンプリング)とランダムにサンプリングした情報を組み合わせることで解決。
- 対応する音声のキーワードとしてラベルやタグが入っている。T5を用いてkeyword-to-captionしてデータを拡張している。要するに、そのキーワードを含む自然な(?)文章に変換している。
- あとは通常の対照学習
- 音声とテキストそれぞれについていくつかのエンコーダーを用いた比較実験
- テキストはRoBERTaが強い
- 音声はHTSAT(Transformersベースのモデル)が強い
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/ec12f2c1-e577-41e1-b224-e4b74e2201c3/28db0d1e06248166ea205360c3a83bdb.png)
- 音声→テキスト検索、テキスト→音声検索にてSOTA
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/39ecce45-b0c7-498a-8d1f-370d5d9f1bdc/f7a19e5f4f783160f7cb66147c497071.png)
- 音声分類にてだいたいSOTA
- keyword-to-captionが想像より効いている。
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/fce63947-1856-4eb3-92da-c16af4082d76/e64bc0454016e53663c6b63c8b90bc5e.png)