2023-12-08 ML勉強会
FormNet: Structural Encoding beyond Sequential Modeling in Form Document Information Extractionサマリーモチベーション提案手法Rich AttentionSuper-Tokens実験データセットモデルアーキテクチャ実験設定実験結果Ablation Study感想
FormNet: Structural Encoding beyond Sequential Modeling in Form Document Information Extraction
Chen-Yu Lee, Chun-Liang Li, Timothy Dozat, Vincent Perot, Guolong Su, Nan Hua, Joshua Ainslie, Renshen Wang, Yasuhisa Fujii, Tomas Pfister
Google Cloud AI Research, Google Research
ACL 2022
サマリー
- 文書理解タスクの領域においてもSequence modelは高い性能を示してきたが、表などを含む様々なレイアウトパターンを持つフォーム型の文書内のトークンを正しく一列に並べること(直列化すること)は難しい。
- FormNet: フォーム型文書の最適とは言えない直列化の問題を軽減するための構造認識(structured-aware) Sequence modelを提案
- Rich Attention: フォーム内のトークン間の空間的な関係性を活用した計算を行うAttentionの仕組み
- Super-Tokens: graph convolutionによって隣接トークンの情報を考慮した単語ごとの埋め込み表現の獲得
- 単純な直列化によって失われていた空間的な関係性によって表現される局所的な構文情報を獲得できることを期待
- 実験の結果、より小さなモデルサイズおよび事前学習データセットで画像特徴を利用せずとも既存手法を上回る
- CORD, FUNSD, Paymentのベンチマークを利用
アブストラクト
シーケンスモデリングは、自然言語や文書理解タスクにおいて最先端の性能を発揮してきた。しかし、フォーム型文書のトークンを正しく直列化することは、そのレイアウトパターンが多様であるため、実際には困難である。我々は、フォームの最適でない直列化を軽減するために、構造認識シーケンスモデルであるフォームネットを提案する。まず、より正確なアテンションスコア計算のために、フォーム内のトークン間の空間的関係を活用するリッチアテンションを設計する。第二に、各単語に対して、グラフ畳み込みによって隣接するトークンからの表現を埋め込むことで、スーパー・トークンを構築する。したがって、フォームネットは、直列化時に失われた可能性のある局所的な構文情報を明示的に復元することができる。を明示的に復元する。実験では、FormNetはよりコンパクトなモデルサイズとより少ない事前学習で、既存手法 よりコンパクトなモデルサイズと少ない事前学習データで、FormNetは既存の手法を凌駕し、CORD, FUNSD CORD、FUNSD、Paymentベンチマークにおいて ベンチマークにおいて新たな最新性能を確立した。
原文
Sequence modeling has demonstrated state-ofthe-art performance on natural language and document understanding tasks. However, it is challenging to correctly serialize tokens in form-like documents in practice due to their variety of layout patterns. We propose FormNet, a structure aware sequence model to mitigate the suboptimal serialization of forms. First, we design Rich Attention that leverages the spatial relationship between tokens in a form for more precise attention score calculation. Second, we construct Super Tokens for each word by embedding representations from their neighboring tokens through graph convolutions. FormNet therefore explicitly recovers local syntactic information that may have been lost during serialization. In experiments, FormNet outperforms existing methods with a more compact model size and less pretraining data, establishing new state-of-the-art performance on CORD, FUNSD and Payment benchmarks.
モチベーション
- 文書からの情報抽出タスクは大きな意義を持つ。
- 文書理解タスクの領域においてもSequence modelは高い性能を示してきたが、表などを含む様々なレイアウトパターンを持つフォーム型の文書内のトークンを正しく一列に並べること(直列化すること)は難しい。
- Sequence modelに食わせるために単純に文書内の情報を直列化すると、上図のように空間情報で表現されている構造が崩れてしまう。
提案手法
- FormNet: フォーム型文書の最適とは言えない直接化の問題を軽減するための構造認識(structured-aware) Sequence modelを提案
- Rich Attention: フォーム内のトークン間の空間的な関係性を活用した計算を行うAttentionの仕組み
- Super-Tokens: graph convolutionによって隣接トークンの情報を考慮した単語ごとの埋め込み表現の獲得
- ベースとして長い系列長を扱えるETC(Extended Transformer Construction)(Ainslie et al., 2020)を利用
- https://arxiv.org/abs/2004.08483
- 注目対象を近傍のtokenに限定しつつも、global token(段落や分ごとのdummy token)を導入することで広い文脈も考慮できるattention構造により、計算量を減らし長い系列長を可能にしたもの。
ETCのアテンションのイメージ
- FormNet全体間のイメージ(上図)
- ETCではあるtokenの注目先が近傍のtokenに限定される。
- Rich Attentionにより、空間的な関係性を考慮したスコアリング(重み計算)がなされる。
- “white” は同じエンティティに含まれる(左側)”tip-”や”KS”とのスコアは高いが、異なるエンティティの”9.1”とはスコアが低くなっている。
- Super-Tokensにより、”-tip”と同じエンティティに含まれるが単純な直列化では離れた位置となってしまう”ping”や”masked”の空間的な関係を、tokenに埋め込む。
- ※トークンの直列化における並び順を直接いじるわけではない。
Rich Attention
トークン間の位置関係(x軸ならどちらが左/右か、y軸ならどちらが上/下か: o)と距離(対数距離: d)に関する誤差を、QueryとKeyの内積に加えた上でSoftmaxに入れてattentionの重みを計算する。
- トークン間の位置関係(y軸で見た際にどちらが上か: o)と距離(対数距離: d)
- 位置関係と距離を推論
- 誤差を計算
- QueryとKeyの内積に加算(重みにペナルティを与える)
- イメージ(”crow”に注目)
- 距離が離れていたらペナルティ(”sly”)
- 間違った順番(形容詞であるのに右側にある)であればペナルティ(”lazy”)
- 今回取り扱った座標の位置関係と距離以外にも様々なトークン間の情報を利用しても構わない。
Super-Tokens
- トークンの直列化により失われる文書中のレイアウト情報を、トークンごとの埋め込み表現として獲得する。GCNを活用。
ノード
- one-hot Wordエンべディングとbboxの中心座標とbboxの高さと幅をconcat
エッジ
- βスケルトンアルゴリズムに基づいて近傍関係を表現
- まあ、ノードごとにそれぞれの方向に対して隣接するもの(間に他のノードのないもの)を繋いでいくイメージ。
- 2つのノードを通る円を描いて、その円の中に他のノードがなければエッジを張る。
- ドキュメント理解タスクに有用であることが先行研究から分かっている。
上記の定義で作成したグラフにGCNにかけてノードごとの埋め込み表現を獲得し、入力に用いる。
実験
データセット
- CORD
- いつものやつ。インドネシアの店舗の領収書データセット。
- ラベルは30種類。
- 文書数は1000件。
- FUNSD
- いつものやつ。雑にスキャンされた文書ファイル。
- ヘッダー、question、answer、otherの4ラベル
- 文書数は199
- Payment
- 人手でアノテーションした10kの文書。
モデルアーキテクチャ
- 文書ファイルに対して何かしらのOCRを利用した後、BERT-multilingualのボキャブラリを利用してトークナイズ
- GCNx12
- ETCx12
- 隠れ層のunit数とアテンションヘッドの数を変えて実験
- FormNet-A1 (512 hidden units and 8 attention heads)
- A2 (768 hidden units and 12 attention heads)
- A3 (1024 hidden units and 16 attention heads)
実験設定
- 事前学習(MLM)
- 700k件の文書を使ってMLM
- Adam
- batch size: 512
- lr: 0.0002
- warm up rate: 0.01
- ファインチューニング
- batch size: 8
- lr: 0.0001
- w/o warm up
- V100 10h(一番大きいデータセットで)
- Paymentの実験では先行研究に合わせて事前学習しないとのこと。
実験結果
- 3つのデータセットについて最も高いF1スコアを示す
- 少ないパラメタ数、小さな事前学習データセットでも高い性能が出ていることも特徴的
- 画像特徴を利用している既存手法の性能も上回る
- 事前学習の性能における提案手法の貢献を検証
- Rich Attention, Super Tokens(GCN)ともに性能向上に貢献
- 最終的な性能における提案手法の貢献を検証
- Rich Attention, Super Tokens(GCN)ともに性能向上に貢献
- Attentionのお気持ち
- 提案手法のほうが同じエンティティ内への注目が強くなっているように見える。
- かつ、水平方向に存在するエンティティへの注目は損なっていない、強くなっているように見える。
- ややこしい例
感想
- トークンの直列化された順番がおかしいことは許容した上でトークンごとの埋め込み表現で頑張るってアプローチは面白かった。
- 画像特徴を使わずに済むなら嬉しいので、いい知見だと感じた。
- GCNの部分などいくらでもいじれそうだなと思った。
- もっと量と質の観点で良さげなデータセットが生まれてほしい気持ち。
- 事前学習に用いたデータセットはどんなものなんだろう。
- なんでここまでコスパが良くなるのだろうか。