Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation

概要
- Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation
- Yusong Wu, Ke Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, Shlomo Dubnov
- ICASSP 2023
- ‣
- 音声とテキストの対照学習モデルCLAPの論文
- CLIPを画像ではなく音声に応用したもの
- そもそも十分なサイズのデータセットが存在しなかった。
- → 巨大な(既存のものの10x以上)データセットを作成して公開

- モデルアーキテクチャ
- 可変長の音声データに対して、これまではフレーム・チャンクごとにembを得て平均(スライス・投票)を利用していたが計算効率が悪い。性能も悪そう。
- → 荒く帯域的な情報(ダウンサンプリング)とランダムにサンプリングした情報を組み合わせることで解決。
- 対応する音声のキーワードとしてラベルやタグが入っている。T5を用いてkeyword-to-captionしてデータを拡張している。要するに、そのキーワードを含む自然な(?)文章に変換している。
- あとは通常の対照学習
- 音声とテキストそれぞれについていくつかのエンコーダーを用いた比較実験
- テキストはRoBERTaが強い
- 音声はHTSAT(Transformersベースのモデル)が強い

- 音声→テキスト検索、テキスト→音声検索にてSOTA

- 音声分類にてだいたいSOTA
- keyword-to-captionが想像より効いている。
