Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis
概要
- Winter Conference on Applications of Computer Vision 2024 (2024) (to appear)
- 従来は、抽出されたテキスト内容の幾何学的レイアウトの検出とテキストのスポッティングはそろぞれ独立的に実施されており、これらは文書画像に限定されていた
- 本論文では、Hierarchical Text Spotter (HTS)という手法を提案し、これら別々に扱われているタスクを統合することが相補的であり、相互に強化するということを示す
- 提案されたHTSメソッドは、ICDAR 2015、Total-Text、HierTextなどの異なるドメインの複数のデータセットでテキストスポッティングの最先端の結果を達成しました。また、HierTextの幾何学的レイアウト分析ベンチマークでUnified Detectorを上回った
課題
- 既存のテキストスポッティング方法は、ほとんどが(文字間のスペースを目印に)単語レベルでテキストを抽出しており、テキストの文脈を考慮できていない
- Unified Detector は、テキスト行をインスタンスセグメンテーションマスクで検出し、パラグラフをグルーピングするためのAffnity Matrixをend-to-endで生成するが、この方法は検出タスクに限定されており、文字や単語レベルの出力は生成できない
Hierarchical Text Spotter (HTS)
- 画像内のテキストエンティティに対して、階層的なテキスト表現(Hierarchical Text Representation, HTR)を抽出するために設計されている
- 画像内の特定のテキストの位置を特定し(局所化)、そのテキストの内容を識別して解読し(認識)、そして必要に応じてテキストの元の形式や構造を視覚的に復元する(回復)
- HTSは、文字、単語、テキスト行、段落の4つの階層で構成される
- HTSはテキストスポッティングと幾何学的レイアウト分析を統合した最初の手法である
- HTSは、主に2つのコンポーネントから構成される
- Unified-Detector-Polygon (UDP)
- テキスト行のベジエ曲線ポリゴンの予測と段落への行のグルーピングをサポートするAffnity Matrixを予測を一緒に行うUnified-Detector-Polygon(UDP)モデル
- AABB(Axis-Aligned Bounding Box)
- テキストを含む最小の直角四角形を示している
- Local Bezier
- 各テキストの詳細な形状を表すローカルなベジエ曲線
- Global Bezier
- 画像全体でのテキストの形状を表すグローバルなベジエ曲線
- Line-to-Character-to-Word (L2C2W)
- Transformerエンコーダーデコーダに基づくテキスト行認識器
- 文字の境界ボックスと文字クラスの予測を一緒に行う
実験
- Comparison with State-of-the-Art Results
- Comparison based on HierText’s Eval
- Results on Geometric Layout Analysis
\