Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation

概要

  • Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation
    • Yusong Wu, Ke Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, Shlomo Dubnov
    • ICASSP 2023
  • 音声とテキストの対照学習モデルCLAPの論文
    • CLIPを画像ではなく音声に応用したもの
  • そもそも十分なサイズのデータセットが存在しなかった。
    • → 巨大な(既存のものの10x以上)データセットを作成して公開
  • モデルアーキテクチャ
    • 可変長の音声データに対して、これまではフレーム・チャンクごとにembを得て平均(スライス・投票)を利用していたが計算効率が悪い。性能も悪そう。
      • → 荒く帯域的な情報(ダウンサンプリング)とランダムにサンプリングした情報を組み合わせることで解決。
    • 対応する音声のキーワードとしてラベルやタグが入っている。T5を用いてkeyword-to-captionしてデータを拡張している。要するに、そのキーワードを含む自然な(?)文章に変換している。
    • あとは通常の対照学習
  • 音声とテキストそれぞれについていくつかのエンコーダーを用いた比較実験
    • テキストはRoBERTaが強い
    • 音声はHTSAT(Transformersベースのモデル)が強い
  • 音声→テキスト検索、テキスト→音声検索にてSOTA
  • 音声分類にてだいたいSOTA
    • keyword-to-captionが想像より効いている。