2023-08-03 ML勉強会

2023/7/27 15:482024/6/11 9:34

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and...

Self-supervised pre-training techniques have achieved remarkable progress in Document AI. Most multimodal pre-trained models use a masked language modeling objective to learn bidirectional...

https://arxiv.org/abs/2204.08387

ABSTRACT

テキストと画像のマスキングを統一したマルチモーダルtransformerを事前学習するためのLayoutLMv3を提案

テキストに対応する画像パッチがマスクされているかどうか予測(word patch alignment)することでcross modal alignmentも学習する

実験の結果LayoutLMv3はテキスト中心のタスクだけでなく、文書画像分類や文書レイアウト分析などの画像中心のタスクにおいてもSOTAを達成することが示された

Model Architecture

Input Layer

テキストの前処理

既成のOCRツールで文書画像からテキストとbboxを取得
テキストはBPE(最大長L=512)でトークナイズする

先頭にトークンを、末尾にトークンを追加
テキスト列の長さがLより短い場合はトークンを追加

テキスト埋め込み

単語埋め込み

事前学習されたRoBERTaで初期化された埋め込み層から取得する

位置埋め込み

1次元位置埋め込み

テキスト列のトークンのインデックス

2次元位置埋め込み

テキスト列のbbox
すべての座標を画像サイズで正規化し、埋め込み層を用いてx軸, y軸, 幅, 高さの特徴を別々に埋め込む
special tokenのbboxはすべて0

画像の前処理

パッチ分割

画像を224 x 224にリサイズし、16 x 16のパッチに分割する

画像埋め込み

それぞれのパッチを線形層を通して埋め込みを取得し1次元のベクトルに平坦化する

Encoder

テキスト埋め込みと画像埋め込みを連結し多層のTransformerエンコーダーに入力する

base

12 layer Transformer encoder

12 head self attention

768 hidden size

3072 intermediate size of feed-forward networks

large

24 layer Transformer encoder

16 head self attention

1024 hidden size

4096 intermediate size of feed-forward networks

事前学習

Masked Language Modeling (MLM)

テキストトークンの30%をマスクする (スパンマスキング)

マスクされたテキストトークンに対する正しいトークンを予測

Masked Image Modeling (MIM)

画像を画像トークンに変換する

BEiTで使われている画像トークナイザーを使って離散的なトークンに変換

BEiT: BERT Pre-Training of Image Transformers

We introduce a self-supervised vision representation model BEiT, which stands for Bidirectional Encoder representation from Image Transformers. Following BERT developed in the natural language...

https://arxiv.org/abs/2106.08254

画像トークンの40%をマスクする (ブロックワイズマスキング)

マスクされた画像トークンに対する正しいトークンを予測する

Word Patch Alignment (WPA)

テキストに対応する画像パッチがマスクされているか予測

テキストと画像のモダリティ間のアライメントを学習させる

実験

データセット

IIT-CDIP Test Collection 1.0

約1100万枚の文書画像(4200万ページ)を含む大規模なスキャン文書画像データセット

オーグメンテーションはしない

事前学習

optimizer

Adam
weight decay 1e-2, (β1, β2) = (0.9, 0.98)

batch size 2048

50万 step

learning rate

base

1e-4
最初の4.8%ステップで線形にwarm up

large

5e-5
最初の10%ステップで線形にwarm up

画像トークナイザーはDiTの事前学習済み画像トークナイザーから初期化 (語彙は8192)

Transformerエンコーダーと単語埋め込み層に関してはRoBERTaの事前学習された重みから初期化

残りのモデルパラメータはランダムに初期化

高速化とメモリの削減

分散学習
mixed precision
gradient checkpointing

ファインチューニング

Task I: Form and Receipt Understanding

FUNSDデータセット

largeでF1 scoreが92.08となり、StructualLMの85.14を大きく上回りSOTA
LayoutLMv3とStructuralLMはセグメントレベルのレイアウト位置を使用しており、他のモデルはワードレベルのレイアウト位置を使用していることに注意

CORDデータセット

baseとlargeの両方でSOTA

Task II: Document Image Classification

RVL-CDIPデータセット

LayoutLMv2と比較してbase, largeともに上回った
v3(線形層による画像埋め込み) > v2(ResNeXt101-FPNによる画像埋め込み)

Task III: Document Visual Question Answering

DocVQAデータセット

baseはLayoutLMv2を上回る