DocTr: Document Transformer for Structured Information Extraction in Documents
論文
DocTr: Document Transformer for Structured Information Extraction in Documents
概要
- ICCV2023の論文。AWS AI Lab, Math Works, Amazon Physical Stores(共同研究してるの?)
- ドキュメントからの構造化データ抽出(Structured Information Extraction; SIE)についての論文
- コントリビューションサマリー
- SIEを新しい形で定式化
- entityのアンカーワードを推論した上で、対応するbboxとclass labelを推論する形でentityを抽出
- → この解き方がえらいと思った。
- relationshipをアンカーワード間のみで推論
- DOCument Transoformer(DocTr)
- ドキュメント画像とOCR出力(text+bbox)の両方を扱うマルチモーダルなencoder-decoderモデル
- 独立した2つ(visionおよびlanguage)のencoderと、vision-language decoder
- 入力と対応するクエリを明示的に紐づけるためのlanguage-conditioned queries
- Masked Detection Modeking(MDM)
- OCR入力(text+bbox)に対して、textとbboxの両方をmaskする事前学習手法
- ICCV2023論文読み会(https://kantocv.connpass.com/event/297737/) における発表資料