ドキュメント/レイアウト祭り

概要
- CVPR2023のドキュメント系レイアウト系の論文12個についてそれぞれ2ページずつ紹介したスライド
- Unifying Vision, Text, and Layout for Universal Document Processing
- GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction
- M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis
- Unifying Layout Generation With a Decoupled Diffusion Model
- LayoutDM: Transformer-Based Diffusion Model for Layout Generation
- LayoutDM: Discrete Diffusion Model for Controllable Layout Generation
- LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding Space Restriction
- PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout
- Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation
- Document Image Shadow Removal Guided by Color-Aware Background
- Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution
- Towards Flexible Multi-Modal Document Models
- ドキュメント系論文
- LayoutLMv3のRelation Extrractionを改善したGeoLayoutLMや、多種多様なフォーマットのデータに対してLayout DetectionしたM6Docなどが提案
- レイアウト系論文
- レイアウト生成系の論文一色。LayoutDMという名前被りまで発生。
- その他
- ドキュメントから影を除去する論文。
- 改竄文書データの検出。
- レイアウト生成、画像挿入、フォント推定、色推定など全てのグラフィック処理を統一的にできるTransformerのFlexDMを提案
