DocTr: Document Transformer for Structured Information Extraction in Documents

論文

DocTr: Document Transformer for Structured Information Extraction in Documents

概要

  • ICCV2023の論文。AWS AI Lab, Math Works, Amazon Physical Stores(共同研究してるの?)
  • ドキュメントからの構造化データ抽出(Structured Information Extraction; SIE)についての論文
  • コントリビューションサマリー
    • SIEを新しい形で定式化
      • entityのアンカーワードを推論した上で、対応するbboxとclass labelを推論する形でentityを抽出
        • → この解き方がえらいと思った。
      • relationshipをアンカーワード間のみで推論
    • DOCument Transoformer(DocTr)
      • ドキュメント画像とOCR出力(text+bbox)の両方を扱うマルチモーダルなencoder-decoderモデル
      • 独立した2つ(visionおよびlanguage)のencoderと、vision-language decoder
      • 入力と対応するクエリを明示的に紐づけるためのlanguage-conditioned queries
    • Masked Detection Modeking(MDM)
      • OCR入力(text+bbox)に対して、textとbboxの両方をmaskする事前学習手法