DocTr: Document Transformer for Structured Information Extraction in Documents
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/b7f304ef-1006-46c8-b943-605cbadf1608/0c71d5feecd5b02add7f6ea095306ad6.png)
論文
DocTr: Document Transformer for Structured Information Extraction in Documents
概要
- ICCV2023の論文。AWS AI Lab, Math Works, Amazon Physical Stores(共同研究してるの?)
- ドキュメントからの構造化データ抽出(Structured Information Extraction; SIE)についての論文
- コントリビューションサマリー
- SIEを新しい形で定式化
- entityのアンカーワードを推論した上で、対応するbboxとclass labelを推論する形でentityを抽出
- → この解き方がえらいと思った。
- relationshipをアンカーワード間のみで推論
- DOCument Transoformer(DocTr)
- ドキュメント画像とOCR出力(text+bbox)の両方を扱うマルチモーダルなencoder-decoderモデル
- 独立した2つ(visionおよびlanguage)のencoderと、vision-language decoder
- 入力と対応するクエリを明示的に紐づけるためのlanguage-conditioned queries
- Masked Detection Modeking(MDM)
- OCR入力(text+bbox)に対して、textとbboxの両方をmaskする事前学習手法
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/09e3bce5-abcf-469d-b822-d8c937ecf95f/ea2fbb0728f5ee761b0ebd832e08ed6c.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/0db343ef-2556-4aec-b3d4-c45c1486c637/f80113753119cf39437da4ea94a2363f.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/5cccf38d-f832-497c-86d0-f85c7f80e17f/bcdcb2d2846b132f880967b674ec5039.png)
- ICCV2023論文読み会(https://kantocv.connpass.com/event/297737/) における発表資料