2023-08-03 ML勉強会
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
ABSTRACT
- テキストと画像のマスキングを統一したマルチモーダルtransformerを事前学習するためのLayoutLMv3を提案
- テキストに対応する画像パッチがマスクされているかどうか予測(word patch alignment)することでcross modal alignmentも学習する
- 実験の結果LayoutLMv3はテキスト中心のタスクだけでなく、文書画像分類や文書レイアウト分析などの画像中心のタスクにおいてもSOTAを達成することが示された
Model Architecture
Input Layer
- テキストの前処理
- 既成のOCRツールで文書画像からテキストとbboxを取得
- テキストはBPE(最大長L=512)でトークナイズする
- 先頭に トークンを、末尾に トークンを追加
- テキスト列の長さがLより短い場合は トークンを追加
- テキスト埋め込み
- 単語埋め込み
- 事前学習されたRoBERTaで初期化された埋め込み層から取得する
- 位置埋め込み
- 1次元位置埋め込み
- テキスト列のトークンのインデックス
- 2次元位置埋め込み
- テキスト列のbbox
- すべての座標を画像サイズで正規化し、埋め込み層を用いてx軸, y軸, 幅, 高さの特徴を別々に埋め込む
- special tokenのbboxはすべて0
- 画像の前処理
- パッチ分割
- 画像を224 x 224にリサイズし、16 x 16のパッチに分割する
- 画像埋め込み
- それぞれのパッチを線形層を通して埋め込みを取得し1次元のベクトルに平坦化する
Encoder
テキスト埋め込みと画像埋め込みを連結し多層のTransformerエンコーダーに入力する
base
- 12 layer Transformer encoder
- 12 head self attention
- 768 hidden size
- 3072 intermediate size of feed-forward networks
large
- 24 layer Transformer encoder
- 16 head self attention
- 1024 hidden size
- 4096 intermediate size of feed-forward networks
事前学習
Masked Language Modeling (MLM)
- テキストトークンの30%をマスクする (スパンマスキング)
- マスクされたテキストトークンに対する正しいトークンを予測
Masked Image Modeling (MIM)
- 画像を画像トークンに変換する
- BEiTで使われている画像トークナイザーを使って離散的なトークンに変換
- 画像トークンの40%をマスクする (ブロックワイズマスキング)
- マスクされた画像トークンに対する正しいトークンを予測する
Word Patch Alignment (WPA)
- テキストに対応する画像パッチがマスクされているか予測
- テキストと画像のモダリティ間のアライメントを学習させる
実験
データセット
- IIT-CDIP Test Collection 1.0
- 約1100万枚の文書画像(4200万ページ)を含む大規模なスキャン文書画像データセット
- オーグメンテーションはしない
事前学習
- optimizer
- Adam
- weight decay 1e-2, (β1, β2) = (0.9, 0.98)
- batch size 2048
- 50万 step
- learning rate
- base
- 1e-4
- 最初の4.8%ステップで線形にwarm up
- large
- 5e-5
- 最初の10%ステップで線形にwarm up
- 画像トークナイザーはDiTの事前学習済み画像トークナイザーから初期化 (語彙は8192)
- Transformerエンコーダーと単語埋め込み層に関してはRoBERTaの事前学習された重みから初期化
- 残りのモデルパラメータはランダムに初期化
- 高速化とメモリの削減
- 分散学習
- mixed precision
- gradient checkpointing
ファインチューニング
Task I: Form and Receipt Understanding
- FUNSDデータセット
- largeでF1 scoreが92.08となり、StructualLMの85.14を大きく上回りSOTA
- LayoutLMv3とStructuralLMはセグメントレベルのレイアウト位置を使用しており、他のモデルはワードレベルのレイアウト位置を使用していることに注意
- CORDデータセット
- baseとlargeの両方でSOTA
Task II: Document Image Classification
- RVL-CDIPデータセット
- LayoutLMv2と比較してbase, largeともに上回った
- v3(線形層による画像埋め込み) > v2(ResNeXt101-FPNによる画像埋め込み)
Task III: Document Visual Question Answering
- DocVQAデータセット
- baseはLayoutLMv2を上回る