Synth2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings

概要

  • 2024/03/12 by Google DeepMind
  • Vision Language Model の学習に image + text のペアが必要
  • 人手によるアノテーションデータセット作成はコストがかかる
  • LLM + image generationで合成データセットを作成し、VLMを学習させるフレームワークを提案

手法

  • VLM学習
    • 入力: image, text
      • 人手によるアノテーションデータ
      • 合成データ
    • 出力: next token prediction
  • 人手によるアノテーションデータを使った学習
    • imageを事前学習済みVQ-GANのencoder (tokenizer) で VQ tokenに変換
    • VQ token(を整形したもの)と maskされたtextとを、LLMに入力
      • LLM: cross-attention + self-attention
      • cross-attentionのみ学習可能、self-attentionは固定
    • cross-entropy
  • 合成データセットを使った学習
    • 既存のLLM (Gemini Pro) にpromptを与えて、入力となるtextを生成
      • ImageNet21kからランダムに選んだクラスについて、30-40words程度で画像を説明しているような文章を作成させる
    • 事前に学習させたtext2imageモデルを使って画像情報を生成する
      • 人手によるアノテーションデータを使って事前学習
      • textのencodingがVQ-GANのVQ tokenに近づくように学習させる
      • これによってencoderの出力がそのままVQ tokenとなるので、encoder → decoder → image → VQ-GAN → VQ token のようにimageを経由させる必要がなくなる
    • 画像情報 (VQ token) とmaskされたtextとを使って、アノテーションデータと同じくcross-entropyで学習
    •