Synth2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings
概要
- 2024/03/12 by Google DeepMind
- Vision Language Model の学習に image + text のペアが必要
- 人手によるアノテーションデータセット作成はコストがかかる
- LLM + image generationで合成データセットを作成し、VLMを学習させるフレームワークを提案
手法
- VLM学習
- 入力: image, text
- 人手によるアノテーションデータ
- 合成データ
- 出力: next token prediction
- 人手によるアノテーションデータを使った学習
- imageを事前学習済みVQ-GANのencoder (tokenizer) で VQ tokenに変換
- VQ token(を整形したもの)と maskされたtextとを、LLMに入力
- LLM: cross-attention + self-attention
- cross-attentionのみ学習可能、self-attentionは固定
- cross-entropy
- 合成データセットを使った学習
- 既存のLLM (Gemini Pro) にpromptを与えて、入力となるtextを生成
- ImageNet21kからランダムに選んだクラスについて、30-40words程度で画像を説明しているような文章を作成させる
- 事前に学習させたtext2imageモデルを使って画像情報を生成する
- 人手によるアノテーションデータを使って事前学習
- textのencodingがVQ-GANのVQ tokenに近づくように学習させる
- これによってencoderの出力がそのままVQ tokenとなるので、encoder → decoder → image → VQ-GAN → VQ token のようにimageを経由させる必要がなくなる
- 画像情報 (VQ token) とmaskされたtextとを使って、アノテーションデータと同じくcross-entropyで学習