2023-10-19 ML勉強会
PALI-3 VISION LANGUAGE MODELS:SMALLER, FASTER, STRONGER
ABSTRACT
- 10倍以上のパラメーターを持つ類似モデルと比較し、より小型、高速、強力なバージョンのビジョン言語モデル(VLM)
- 分類目的で事前学習されたビジョントランスフォーマー(ViT)モデルと比較し、標準的な画像分類ベンチマークでは若干劣るが、位置特定やテキスト理解において、様々なマルチモーダルベンチマークで優れた性能を発揮
- SigLIPエンコーダーは、20億のパラメータを使用したスケールアップバージョンであり、多言語クロスモーダル検索においてSOTA達成
- わずか5Bのパラメータしか持たないため、複雑なVLMの基本的な部分についての研究を再燃させ、よりスケールアップされたモデルの新しい世代を推進する可能性がある
1 INTRODUCTION
- モデルサイズについて
- 従来のvision languageモデルのパラメータ数は数十から数百億にスケールすることで徐々に性能が向上してきた
- 一方で、より小規模なモデルも重要
- トレーニングやサービスが実用的
- 環境に配慮した手法
- モデル設計の高速な研究サイクルをサポート
- PaLI-3
- 小規模なモデリングに重点を置いている
- PaLI-3という第三世代のPaLIモデルファミリー
- 事前学習されたバックボーンを使用することで、わずか5B(50億)パラメーターで訓練
- さまざまなVLMベンチマークで競争力のある新しい最先端の結果を達成
- 3つの主要コンポーネント
- Webスケールの画像テキストデータ(WebLIデータセット)を使った事前対照学習
- PaLIマルチモーダルトレーニングのための改良された混合データセット
- より高い解像度でのトレーニング
- SOTA達成
- 画像から文字や情報を認識して処理するタスクや多言語タスク
- 8つのビジュアルに配置されたテキスト理解タスクやRefCOCOの参照表現セグメンテーションタスク
- 広範な古典的なビジョンタスク
2 RELATED WORK
- 最近の大規模ビジョン言語モデル(VLM)
- 事前学習された画像エンコーダを大型モデルの一部として使用
- 分類タスクで事前学習
- PaLI、PaLI-X、Flamingo、PaLM-E
- 事前学習されたCLIPエンコーダを使用
- BLIPv2、CrossTVR、ChatBridge
- カスタムマルチモーダル事前学習
- BEiT3、CoCa、SimVLM
- PaLI
- ViT-G(2B)からViT-e(4B)の画像エンコーダをスケーリングすることで、VLタスクの改善がImageNetよりも顕著に良くなった
- PaLI-X
- 画像および言語コンポーネントの両方をスケーリングし、これらの大規模な画像エンコーダが大型VLMに組み込まれた場合にもメリットをもたらすことを示した
- PaLI-3
- 画像エンコーダーの事前学習を対照学習で行う
- 特にローカリゼーションや視覚に基づくテキスト理解などの様々なタスクにおいて圧倒的に優れていることを明らかにした
3 MODEL
3.1 ARCHITECTURE
- 大枠は従来のPaLIモデルと同じ
- ViTで画像をトークンにエンコード
- 問い合わせやプロンプト、指示と一緒にトランスフォーマエンコーダ・デコーダに渡され、テキスト出力が生成
PaLIモデル(1) https://arxiv.org/abs/2209.06794
ビジュアルコンポーネント部分(緑の枠)
- VisionEncoderの事前学習
- SigLIP: Sigmoid Loss for Language Image Pre-Training
- https://arxiv.org/abs/2303.15343?s=09
- ソフトマックス損失(list-wise)をシグモイド(pair-wise)に置き換えた損失
- 低バッチサイズ(精度が頭打ちになる32k程度まで)で精度が向上し、メモリ効率が改善する
- 事前に対照学習されたViT-G/モデル(約2Bのパラメータ)を使用して初期化
- https://arxiv.org/abs/2106.04560
- 対照学習: 画像とテキストのペアから、正しいペア間の類似度が最⼤, 正しくないペア間の類似度は最⼩になるようにエンコーダを学習するやり方
- CLIPおよびALIGNに類似しているが、SigLIPを使うことでより効率的・スケーラブル・堅牢になった
コンポーネント全体
- Vision Encoderから画像トークンを形成
- 画像トークンと質問文テキストをconcat
- タスクによってはここでタスクの説明や出力指示を変える
- 言語モデル部分 Text Encoder, Decoderに接続
- UL2モデルを使用
- テキストが出力される
3.2 STAGES OF TRAINING
トレーニング手順はPaLIおよびPaLI-Xと類似しており、複数のステージで構成されています。
ステージ0: 事前学習
- Vision Encoder
- Webからの画像テキストペアに対してSigLIPトレーニングプロトコルに従って対照学習
- ※ PaLI, PaLI-XではJFT分類事前トレーニング済みエンコーダを使用していた
- 参考: https://huggingface.co/timm/ViT-B-16-SigLIP
- モデルベースのフィルタリング手法を使用し、ペアの約40%を残す
- 解像度 224×224でトレーニング
- Text Encoder, Decoder (Transformer)
- denoisersの混合手順に従ってトレーニングされた3B UL2モデル
- https://huggingface.co/google/ul2
- UL2の論文より
ステージ1:マルチモーダルトレーニング
- Vision EncoderとText Encoder, Decoderを組み合わせる
- この時点でVision Encoderは凍結
- 解像度 224×224(変更なし)
- マルチモーダルタスクと混合データでトレーニング
- WebLIデータセットから派生
- CC3M-35LとWebLI OCRの多言語字幕付け
- クロスリンガルVQAおよびVQG(VQ2A-CC3M-35Lを使用)
- オブジェクトアウェアVQA
- オブジェクト検出
- (PaLI-Xでは含まれていた)映像から派生したタスクやデータは含まないが、優れたパフォーマンスを発揮している
- ポスターやドキュメントとして説明されるウェブ画像とともに、WebLIをPDFドキュメントも豊富に含まれている
- 文書とテキスト理解機能をさらに向上
ステージ2:解像度の向上
入力を高解像度にすることで、イメージの詳細さを認識できるようになる
モデル全体をファインチューニングすることでPaLI-3の解像度を増やした
812×812と1064×1064の解像度でチェックポイントを保持している
タスク特化のファインチューニング
各個別のタスク(ベンチマーク)について、相当するセクションで説明されているように、タスクのトレーニングデータに対してViT画像エンコーダーを凍結させたPaLI-3モデルをファインチューニングしている
ほとんどのタスクについては、812×812の解像度のチェックポイントでファインチューニングしたが、文書理解に関する2つのタスクでは、1064×1064の解像度を使った
4 EXPERIMENTS
4.1 PaLIフレームワーク内の異なるViTモデルの比較
- JFTデータセットで分類事前学習されたViTモデル(「Classif」)
- WebLIデータセットで対照的に事前学習されたViTモデル(「SigLIP」)。
計算時間を節約するために、固定された224×224の解像度(すなわち、Stage 1のみを含む)を使用してこれらの実験を実施
さらに、Stage 1フェーズを本論文の残りの部分で使用されるPaLI-3スケジュールの20%に短縮
- few-shot線形分類(Probe)は後退
- キャプショニングや質問応答などの「簡単な」タスクでは中程度の改善
- TextVQAやRefCOCOなどのより「複雑な」シーンテキストや空間理解タスクでは大幅な改善
4.2 画像から文字や情報を認識して処理するタスク
- タスク
- TextCaps(テキストが記載してある画像からキャプション作成)
- TextVQA(テキストが記載してある画像からQA)
- OCRVQA
- Screen2Words
- WidgetCap(UIのキャプション)
- STVQA(シーンテキスト 状況説明)
- InfographicVQA
- DocVQA
- ChartQA(グラフ)
- AI2D(小学校の理科教科書の図)
- 外部OCR入力あり/なしの両方で、ほとんどのキャプショニングおよびVQAベンチマークでSOTAの性能を発揮
- 外部OCRシステムを必要とせずに、OCRの強力な固有能力を学習している
- 図表に関する強力な推論能力が必要なAI2DとChartQAはSOTAを達成しなかった
- AI2DとChartQAのSOTAはPaLI-Xが保持しており、これに及ばなかった
- PaLI-XはPaLI-3に比べてより大型の言語モデル(PaLI-3は3BのUB2, PaLI-Xは32BのUB2を使用しているので、およそ10倍)を使っている
- 図表に関する複雑なタスクに関しては、言語モデルが大きい方がより優れた推論能力を持っていると考えられる
他にも様々なタスクでSOTA達成・優れた結果
セグメンテーション予測
自然な画像理解
ビデオキャプションと質問応答
画像エンコーダの直接評価
- ImageNet を使用した画像分類タスク
- 多言語画像テキスト検索
- 線形Probeタスク