Information Extraction from Documents: Question Answering vs Token Classification in real-world setups

概要

  • ICDAR 2023 oral
  • 書鍵情報抽出(DocKIE)の研究は、主にトークン分類問題として解決されてきた。自然言語処理(NLP)とコンピュータビジョンの両面における最近のブレークスルーは、文書テキス ト、レイアウト、画像モダリティのマルチモーダルな理解を活用し、文書に焦点を当てた事前学習手法の構築に貢献した。しかし、これらのブレークスルーは、機械読解(MRC)研究分野の一部として、抽出文書質問応答(DocQA)の新しいDocKIEサブタスクの出現にもつながった。本研究では、文書情報抽出のための古典的なトークン分類アプローチと質問応答アプローチを比較する。
  • 書類から情報を抽出するタスクは、Token classificationかSpan extraction taskとして質疑応答的に解かれることが多い。
  • 多数のシナリオにおいて、LayoutLMを使ってどちらが有効かを網羅的に調査した。
  • 結果として、短いエンティティ抽出でクリーンなデータセットだとToken Classificationが有効で、長いエンティティ抽出でノイズの多いデータセットだとQAの方が堅牢であると結論づけた。
 

実験結果

  • QAの場合は、What is the <LABEL>?という質問をクエリとした
  • 素のLayoutLMでの比較
    • Token Classificationで行った方が基本的に強い
    • QAだとFUNSDはほとんど解けていない
    • QAアプローチだと一つのラベルに対して複数タグがある場合に、うまく捌けなかったり、SQuADv2のように質問の答えが文章内に存在しないときにそれを判定するのが難しい。
  • ノイズ環境
    • 部分的にしかタグづけされない環境を再現
    • QAの場合は精度低下がなだらか
    • QAの場合は、正の学習サンプルしか与えられないことに起因する
      • (Token Classificationの場合は、Otherタグが増えてしまうということ?
  • Long Entities & Long Documents
    • CUADデータセットで最も長いエンティティを持つ上位10個のラベルのみを使って実験
      • 法律文書や契約書などを想定
      • Token Classificationは全く抽出できていない
        • (流石に0%はおかしそう)
        • Oタグが長い文章の中で支配的になってしまうため、予測に偏りが出てしまうという主張。(ロスの重み変えたら結果は変わりそう)
  • Few-shot learning
    • SROIEデータセットからランダムにサブサンプル
    • QAの方がrandom seedに対して堅牢
  • Zero-shot Learning
    • Token Classificationは未知のラベルについては学習できないため、QAのみを評価
      • あまり実用的ではない。
      • Pretrainそのまま、FUNSDでFine tuning → SROIEでZero-shotのように評価
 

余談

  • MRCというNested NERの場合もflat NERの場合も画一的に解けるフレームワークがACL2020で紹介されていた