ドキュメント/レイアウト祭り

概要

  • CVPR2023のドキュメント系レイアウト系の論文12個についてそれぞれ2ページずつ紹介したスライド
    • Unifying Vision, Text, and Layout for Universal Document Processing
    • GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction
    • M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis
    • Unifying Layout Generation With a Decoupled Diffusion Model
    • LayoutDM: Transformer-Based Diffusion Model for Layout Generation
    • LayoutDM: Discrete Diffusion Model for Controllable Layout Generation
    • LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding Space Restriction
    • PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout
    • Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation
    • Document Image Shadow Removal Guided by Color-Aware Background
    • Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution
    • Towards Flexible Multi-Modal Document Models
  • ドキュメント系論文
    • LayoutLMv3のRelation Extrractionを改善したGeoLayoutLMや、多種多様なフォーマットのデータに対してLayout DetectionしたM6Docなどが提案
  • レイアウト系論文
    • レイアウト生成系の論文一色。LayoutDMという名前被りまで発生。
  • その他
    • ドキュメントから影を除去する論文。
    • 改竄文書データの検出。
    • レイアウト生成、画像挿入、フォント推定、色推定など全てのグラフィック処理を統一的にできるTransformerのFlexDMを提案