M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis
概要
- CVPR2023 で発表された論文
- 書類のレイアウトに関するアノテーション済みデータセット M^6 Docを作成
- 合わせてTransformerベースの書類レイアウト解析手法TransDLANetも提案
- Document Layout Analysis のためのデータセット
- Pysical layout analysis: 書類の領域(表やテキスト・画像の位置やサイズ)を解析
- Logical layout analysis: 書類の意味(section, paragraph, figure noteなど)を解析
- 提案データセットの特徴
- Multi-Format: PDFとスキャン画像の両方を含む
- Multi-Type: arXiv、教科書、テスト用紙、雑誌、新聞、手書きノート、書籍と幅広く収集
- Multi-Layout: rectangular, Manhattan, non-Manhattan, and multi-column Manhattan
- Multi-Language: 英語と中国語
- Multi-Annotation Category: 74ラベル
- Modern documents: 直近公開されているデータから収集
- アノテーション
- ラベルの選定での判断基準
- 既存データやレイアウトに関する書籍、youtube、雑誌、新聞、wikipediaなどの分類から候補を作成
- 広い書類種別に関係するラベル、特定の書類にしか関係しないラベル、登場頻度、recognition of independent pages (?) に基づいて選定
- アノテーターは47人
- 170ページ以上のガイドラインとアノテーション例を用意
- 事前に一部のデータに対して全員でアノテーションし、同じ書類でも結果がばらついているものはガイドラインを修正
- 都度アノテーターからの質問に答えつつデータセット全体をアノテーション
- データセット評価
- 提案データセットで学習されたモデルは、既存データセットで学習されたモデルと比較して手書き文書やスキャン・撮影画像が読めるようになっている
- データセットに無いレイアウトが読めるほどは汎化されていない → 今後の課題
- ラベルが多いので既存データセット(DocBank)の学習モデルよりも細かく分類できる
- 少ないラベルよりデータを増やすよりも、ラベルを増やした方が有効な可能性がある?