Reading Order Matters: Information Extraction from Visually-rich Documents by Token Path Prediction

概要

  • EMNLP 2023採択のLong Paper
  • Token Path Predictionという手法で読み取り順序の精度を向上させることで、OCRされたレシートなどVisually-rich documentsの固有表現抽出の精度向上を図る

課題

  • 固有表現認識(NER)は通常トークンのBIOエンティティタグの予測を連続的に行うタスクとして処理される
  • これらのシーケンスラベリングベースのメソッドは入力値は連続かつ前から後ろへ順に並んでいる単語のシーケンスであることを仮定している
  • ただし、レシートや契約書といった実際の世界のスキャンされたVisually-rich documents (VrDs)では、OCRシステムによってテキストは認識・配置され、通常は上から下へおよび左から右への順序で読み取られる
  • 以下のようなファイルだと、読み取り順序が保証されず、シーケンスラベリングがうまくいかないケースがある
    • 230,000の後ろにTOTALが来るなど
 

Token Path Prediction (TPP) for VrD-NER

  • トークン入力をトークンの完全な有向グラフとし、各エンティティをトークンパス(グラフ内の有向エッジのグループ)としてモデル化する
  • 各エンティティタイプに対してグリッドラベルを採用し、トークンパスを2つのトークンがリンクされているかどうかのn * nバイナリ値として表現する(ここで、nはテキストトークンの数)
  • モデルはトレーニング中にバイナリ分類によってグリッドラベルを予測し、推論時にはポジティブに予測されたトークンペアからトークンパスを探索する
    • 各エンティティタイプに対して1つのTPPヘッドが、入力トークンが別のトークンにリンクするかどうかを予測
    • 予測結果は、トークンパスがエンティティメンションとしてデコードされる隣接行列と見なされる
    • 全体のモデルはクラスの不均衡損失によって最適化される
    •  

      Experiments

      Case study