M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis

 

概要

  • CVPR2023 で発表された論文
  • 書類のレイアウトに関するアノテーション済みデータセット M^6 Docを作成
    • 合わせてTransformerベースの書類レイアウト解析手法TransDLANetも提案
  • Document Layout Analysis のためのデータセット
    • Pysical layout analysis: 書類の領域(表やテキスト・画像の位置やサイズ)を解析
    • Logical layout analysis: 書類の意味(section, paragraph, figure noteなど)を解析
  • 提案データセットの特徴
    • Multi-Format: PDFとスキャン画像の両方を含む
    • Multi-Type: arXiv、教科書、テスト用紙、雑誌、新聞、手書きノート、書籍と幅広く収集
    • Multi-Layout: rectangular, Manhattan, non-Manhattan, and multi-column Manhattan
    • Multi-Language: 英語と中国語
    • Multi-Annotation Category: 74ラベル
    • Modern documents: 直近公開されているデータから収集
  • アノテーション
    • ラベルの選定での判断基準
      • 既存データやレイアウトに関する書籍、youtube、雑誌、新聞、wikipediaなどの分類から候補を作成
      • 広い書類種別に関係するラベル、特定の書類にしか関係しないラベル、登場頻度、recognition of independent pages (?) に基づいて選定
    • アノテーターは47人
    • 170ページ以上のガイドラインとアノテーション例を用意
      • 事前に一部のデータに対して全員でアノテーションし、同じ書類でも結果がばらついているものはガイドラインを修正
    • 都度アノテーターからの質問に答えつつデータセット全体をアノテーション
  • データセット評価
    • 提案データセットで学習されたモデルは、既存データセットで学習されたモデルと比較して手書き文書やスキャン・撮影画像が読めるようになっている
      • データセットに無いレイアウトが読めるほどは汎化されていない → 今後の課題
    • ラベルが多いので既存データセット(DocBank)の学習モデルよりも細かく分類できる
      • 少ないラベルよりデータを増やすよりも、ラベルを増やした方が有効な可能性がある?