2023-10-19 ML勉強会

2023/10/14 18:422024/6/11 9:31

PALI-3 VISION LANGUAGE MODELS:SMALLER, FASTER, STRONGER

https://arxiv.org/pdf/2310.09199.pdf

ABSTRACT

10倍以上のパラメーターを持つ類似モデルと比較し、より小型、高速、強力なバージョンのビジョン言語モデル（VLM）

分類目的で事前学習されたビジョントランスフォーマー（ViT）モデルと比較し、標準的な画像分類ベンチマークでは若干劣るが、位置特定やテキスト理解において、様々なマルチモーダルベンチマークで優れた性能を発揮

SigLIPエンコーダーは、20億のパラメータを使用したスケールアップバージョンであり、多言語クロスモーダル検索においてSOTA達成

わずか5Bのパラメータしか持たないため、複雑なVLMの基本的な部分についての研究を再燃させ、よりスケールアップされたモデルの新しい世代を推進する可能性がある

1 INTRODUCTION

モデルサイズについて

従来のvision languageモデルのパラメータ数は数十から数百億にスケールすることで徐々に性能が向上してきた
一方で、より小規模なモデルも重要

トレーニングやサービスが実用的
環境に配慮した手法
モデル設計の高速な研究サイクルをサポート

PaLI-3

小規模なモデリングに重点を置いている
PaLI-3という第三世代のPaLIモデルファミリー
事前学習されたバックボーンを使用することで、わずか5B(50億)パラメーターで訓練
さまざまなVLMベンチマークで競争力のある新しい最先端の結果を達成

3つの主要コンポーネント

Webスケールの画像テキストデータ(WebLIデータセット)を使った事前対照学習
PaLIマルチモーダルトレーニングのための改良された混合データセット
より高い解像度でのトレーニング

SOTA達成

画像から文字や情報を認識して処理するタスクや多言語タスク
8つのビジュアルに配置されたテキスト理解タスクやRefCOCOの参照表現セグメンテーションタスク
広範な古典的なビジョンタスク

2 RELATED WORK

最近の大規模ビジョン言語モデル（VLM）

事前学習された画像エンコーダを大型モデルの一部として使用
分類タスクで事前学習

PaLI、PaLI-X、Flamingo、PaLM-E

事前学習されたCLIPエンコーダを使用

BLIPv2、CrossTVR、ChatBridge

カスタムマルチモーダル事前学習

BEiT3、CoCa、SimVLM

PaLI

ViT-G（2B）からViT-e（4B）の画像エンコーダをスケーリングすることで、VLタスクの改善がImageNetよりも顕著に良くなった

PaLI-X

画像および言語コンポーネントの両方をスケーリングし、これらの大規模な画像エンコーダが大型VLMに組み込まれた場合にもメリットをもたらすことを示した

PaLI-3

画像エンコーダーの事前学習を対照学習で行う

特にローカリゼーションや視覚に基づくテキスト理解などの様々なタスクにおいて圧倒的に優れていることを明らかにした

3 MODEL

3.1 ARCHITECTURE

大枠は従来のPaLIモデルと同じ

ViTで画像をトークンにエンコード
問い合わせやプロンプト、指示と一緒にトランスフォーマエンコーダ・デコーダに渡され、テキスト出力が生成

PaLIモデル(1) https://arxiv.org/abs/2209.06794

ビジュアルコンポーネント部分（緑の枠）

VisionEncoderの事前学習

SigLIP: Sigmoid Loss for Language Image Pre-Training

https://arxiv.org/abs/2303.15343?s=09
ソフトマックス損失（list-wise）をシグモイド（pair-wise）に置き換えた損失
低バッチサイズ（精度が頭打ちになる32k程度まで）で精度が向上し、メモリ効率が改善する

事前に対照学習されたViT-G/モデル（約2Bのパラメータ）を使用して初期化

https://arxiv.org/abs/2106.04560
対照学習: 画像とテキストのペアから、正しいペア間の類似度が最⼤, 正しくないペア間の類似度は最⼩になるようにエンコーダを学習するやり方

参考: https://speakerdeck.com/sgnm/vision-and-languagenoji-chu?slide=84

CLIPおよびALIGNに類似しているが、SigLIPを使うことでより効率的・スケーラブル・堅牢になった

コンポーネント全体

Vision Encoderから画像トークンを形成

画像トークンと質問文テキストをconcat

タスクによってはここでタスクの説明や出力指示を変える

言語モデル部分 Text Encoder, Decoderに接続

UL2モデルを使用

テキストが出力される

3.2 STAGES OF TRAINING

トレーニング手順はPaLIおよびPaLI-Xと類似しており、複数のステージで構成されています。

ステージ0: 事前学習

Vision Encoder

Webからの画像テキストペアに対してSigLIPトレーニングプロトコルに従って対照学習

※ PaLI, PaLI-XではJFT分類事前トレーニング済みエンコーダを使用していた
参考: https://huggingface.co/timm/ViT-B-16-SigLIP

モデルベースのフィルタリング手法を使用し、ペアの約40％を残す

LAION-400M: Open Dataset of CLIP-Filtered 400Million Image-Text Pairs

解像度 224×224でトレーニング

Text Encoder, Decoder (Transformer)

denoisersの混合手順に従ってトレーニングされた3B UL2モデル
https://huggingface.co/google/ul2
UL2の論文より

ステージ1：マルチモーダルトレーニング

Vision EncoderとText Encoder, Decoderを組み合わせる

この時点でVision Encoderは凍結

解像度 224×224（変更なし）

マルチモーダルタスクと混合データでトレーニング

WebLIデータセットから派生
CC3M-35LとWebLI OCRの多言語字幕付け
クロスリンガルVQAおよびVQG（VQ2A-CC3M-35Lを使用）
オブジェクトアウェアVQA
オブジェクト検出

（PaLI-Xでは含まれていた）映像から派生したタスクやデータは含まないが、優れたパフォーマンスを発揮している

ポスターやドキュメントとして説明されるウェブ画像とともに、WebLIをPDFドキュメントも豊富に含まれている

文書とテキスト理解機能をさらに向上

ステージ2：解像度の向上

入力を高解像度にすることで、イメージの詳細さを認識できるようになる

モデル全体をファインチューニングすることでPaLI-3の解像度を増やした

812×812と1064×1064の解像度でチェックポイントを保持している

タスク特化のファインチューニング

各個別のタスク（ベンチマーク）について、相当するセクションで説明されているように、タスクのトレーニングデータに対してViT画像エンコーダーを凍結させたPaLI-3モデルをファインチューニングしている

ほとんどのタスクについては、812×812の解像度のチェックポイントでファインチューニングしたが、文書理解に関する2つのタスクでは、1064×1064の解像度を使った

4 EXPERIMENTS

4.1 PaLIフレームワーク内の異なるViTモデルの比較

JFTデータセットで分類事前学習されたViTモデル（「Classif」）

WebLIデータセットで対照的に事前学習されたViTモデル（「SigLIP」）。

計算時間を節約するために、固定された224×224の解像度（すなわち、Stage 1のみを含む）を使用してこれらの実験を実施

さらに、Stage 1フェーズを本論文の残りの部分で使用されるPaLI-3スケジュールの20％に短縮

few-shot線形分類(Probe)は後退

キャプショニングや質問応答などの「簡単な」タスクでは中程度の改善

TextVQAやRefCOCOなどのより「複雑な」シーンテキストや空間理解タスクでは大幅な改善

4.2 画像から文字や情報を認識して処理するタスク

タスク

TextCaps(テキストが記載してある画像からキャプション作成)
TextVQA(テキストが記載してある画像からQA)
OCRVQA
Screen2Words
WidgetCap(UIのキャプション)
STVQA(シーンテキスト状況説明)
InfographicVQA
DocVQA
ChartQA(グラフ)
AI2D(小学校の理科教科書の図)

外部OCR入力あり/なしの両方で、ほとんどのキャプショニングおよびVQAベンチマークでSOTAの性能を発揮

外部OCRシステムを必要とせずに、OCRの強力な固有能力を学習している

図表に関する強力な推論能力が必要なAI2DとChartQAはSOTAを達成しなかった

AI2DとChartQAのSOTAはPaLI-Xが保持しており、これに及ばなかった
PaLI-XはPaLI-3に比べてより大型の言語モデル（PaLI-3は3BのUB2, PaLI-Xは32BのUB2を使用しているので、およそ10倍）を使っている

図表に関する複雑なタスクに関しては、言語モデルが大きい方がより優れた推論能力を持っていると考えられる

他にも様々なタスクでSOTA達成・優れた結果

セグメンテーション予測

自然な画像理解

ビデオキャプションと質問応答

画像エンコーダの直接評価

ImageNet を使用した画像分類タスク

多言語画像テキスト検索

線形Probeタスク

Xでポスト