2023-09-14 ML勉強会

2023/9/13 23:392024/6/11 9:33

WeLayout

https://arxiv.org/abs/2305.06553

ICDAR 2023 DocLayNet competition top1

https://ds4sd.github.io/icdar23-doclaynet/task/#training-resources

企業文書のレイアウトセグメンテーション

WeChat AIのパターン認識センター所属メンバーチーム

Abstract

ポイント

DINOとYOLOモデルのアンサンブル
データセットの拡張
後処理でbboxマッチング

タスクのさまざまな側面を強化することに集中し、ベースラインを大きく上回り、mAP 70.0のトップポジション1を確保

各文書カテゴリーごとにデータを別々にトレーニング

パフォーマンスをさらに向上させるためのセルマッチングアルゴリズムを開発

最適なウェイトとIoU閾値を決定するために、Tree-Structured Parzen Estimatorと呼ばれるベイジアン最適化アルゴリズムを採用

クエリベースのモデルとアンカーフリーモデルを組み合わせた

1 Introduction

コンペ背景

企業文書（例えば財務報告書、請求書、契約書など）には、抽出や分析が必要な貴重な情報が含まれている
ドキュメントの複雑で多様なレイアウトは、コンテンツを正確に分割する上で課題となっている
段落、表、図などの論理的な単位にこれらの文書のコンテンツを正確に分割してね

WeLayout

DINOとYOLO3のアンサンブルモデルとWeighted Box Fusionを使用

競技のデータセットにおいて70.0のmAPを達成
リーダーボードで1位を獲得
ベースラインを大幅に上回った

主なポイント

データセット、モデル、バウンディングボックスの細分化、モデルアンサンブルなど、タスクのさまざまな側面を最適化
各文書カテゴリーについて別々のデータトレーニングを行い、クエリベースのモデルとアンカーフリーモデルを活用して最適な性能を実現
セルマッチングのアルゴリズムを開発し、性能を大幅に向上させ、モデルアンサンブルの近似最適な重みとIoUしきい値を見つけるためにTree-Structured Parzen Estimatorを用いたベイズ最適化を採用しました。
フローチャート

DocLayNet: ドキュメントレイアウト分析のための人間による注釈付きの大規模公開データセット

2 Dataset

2.1 DocLayNet

DocLayNet

80,000以上の人間によって注釈が付けられたドキュメントページデータセット
11種類のレイアウトコンポーネントをカテゴリー分け
内容

画像(png)
COCOアノテーション (エリアごとのカテゴリ+bbox)

bbox + 正解カテゴリ

pngに対応するPDF
元のPDFから抽出されたデジタルテキストセルを含むJSON(テキストセル+bbox)

bbox + テキスト

2.2 Data Augmentation

DocLayNetのトレーニングイメージに加えて、IIIT-AR-13K4やTNCR5から文書イメージを収集し、バウンディングボックス情報を利用してオブジェクトを切り抜き

その後、画像の背景を選択し、様々なレイアウト要素を確率的に追加し、300,000の合成画像のデータセットが生成されました。

2.3 Scale Transformation

テキストの正しい形状を維持するために、拡張データのスケール情報に基づいて画像の比率を復元しました。異なるレイアウトを持つ合成画像の図2を参照してください。

2.4 Document Category Classication

文書カテゴリー分類の最終的なmAPスコアは、レポート、マニュアル、特許、その他の4つの文書カテゴリー全体の平均mAPで計算されます。

データの学習には、ViT [3]を使用して（その他以外の）3クラス分類モデルをトレーニング

さらに、トレーニングデータに存在しないその他のクラスに対応するためにラベルマッチングを実施します。

文書カテゴリーが決定されたら、各カテゴリーごとに個別のデータトレーニングを実施

3 Model

現代的な物体検出器は、アンカーベースのモデル[15、9]、アンカーフリーのモデル[4、14、6]、クエリベースのモデル[2、20]の3つに大別される。

さまざまなモデルを試してみた結果、このタスクに対してクエリベースとアンカーフリーのモデルの両方が満足のいく検出結果が得られることを発見した。

3.1 Query-Based Model

Query-Based Model

学習可能なクエリを利用して画像特徴を調べ、セットベースのボックス予測を実行するオブジェクト検出モデル
DETR

クエリを使用する検出モデル
Transformerエンコーダーの出力から導かれた画像特徴を調査するためにそれらを利用し

DINO

DETRの改善版
denoisingトレーニングのための対照的アプローチやアンカー初期化のための混合クエリ選択方法などの革新的な方法を採用

DINOモデルを採用

小さなテキストオブジェクトの検出性能を向上させるために、データ拡張とマルチスケール拡張を注意深く設計

Focal Modulation Networksをbackboneとして組み込み

Self-Attentionの置き換え
https://zenn.dev/takoroy/articles/ccae57b282237e

表1の結果は、ベースラインよりも大幅に改善されていることを示しています。

3.2 Anchor-Free Model

Anchor-Free Model（アンカーフリーモデル）

オブジェクト検出モデルの一種
セグメンテーションに類似したピクセルごとの予測手法を用いてオブジェクト検出問題に取り組む
この単純化は、計算を簡素化するだけでなく、アンカーボックスをハイパーパラメータとして必要としないため優れている

Anchor-Free Modelによって、YOLOv8が最も優れたパフォーマンスを発揮することを発見

また、中型、大型、さらに大型のYOLOv8 P5モデル、およびエクストララージP6モデルをトレーニングしたことで、基準値を大幅に上回る性能を示すことができました。

デカさは正義。

4 Bounding Box Refinement

テキストセルのbbox情報を活用して、検出結果を精度向上させた話

推論されたbboxsがどのテキストセルに属するかを特定することが重要

セルのマッチングアルゴリズムを開発して、パフォーマンスを大幅に改善

具体的なロジック

検出されたbboxの4つの座標（left、top、right、bottom）のいずれもテキストセルに近づいていない場合は、スキップします。

検出されたbboxの4つの座標のうち1つが、いくつかのテキストセルに近づいている場合、単一のエッジマッチから得られる情報は不十分であるため、この場合もスキップします。

検出されたbboxの4つの座標のうち2つが、いくつかのテキストセルに近づいている場合、他の2つのエッジについて、3つの状況があります。両方がテキストセル内にある場合、両方がテキストセル外にある場合、ある方がテキストセル内にあり、もう一方がテキストセル外にある場合です。2つのエッジがテキストセル内にあり、他の2つがテキストセルに近づいている場合、ディテクターがいくつかの領域を見逃したことを示します。この場合、最も近いテキストセルで予測結果を直接置き換えます。2つのエッジがテキストセル外にあり、他の2つがテキストセルに近づいている場合、これは予測された領域が複数のテキストセルを含んでいる場合に発生します。これらのテキストセルをさらに整列させるための候補bboxに追加します。最後の場合、予測された領域とテキストセルとの関係が判別できないため、スキップします。

検出されたbboxの4つの座標のうち3つが、いくつかのテキストセルに近づいている場合、この場合、予測されたbboxが与えられたテキストセル内にあるかどうかを慎重に評価します。もしそうであれば、与えられたテキストセルの軸で予測結果を直接置き換えます。単語セルはレイアウト要素のサブセットであるため、これは1行だけの長いレイアウト要素に適用されます。予測されたbboxが与えられたテキストセル外にある場合は、複数のテキストセルから構成されたラインであることを意味し、一致するテキストセルを候補bboxに追加します。

検出されたbboxの4つの座標（left、top、right、bottom）がすべていくつかのテキストセルに近づいている場合、これはモデルの良い予測を示しています。ただし、詳細な軸は十分に正確ではないため、単に予測軸を与えられたテキストセル軸で置き換えます。

最後に、検出されたbboxが変更されておらず、それに対して候補bboxがある場合は、予測結果を調整するために最も近いテキストセル軸を選択します。

要するに推論したbboxとテキストセル(段落)のbboxのマッチング。

推論したbboxが複数のテキストセルを囲っているケースがあったり、部分的な検出になっていたりするので補正する

テキストセルはテキストのみを含むため、画像やテーブルはこのポストプロセシングステップからは利益を得ません。この精度向上は、表3に示されるメトリックによって明らかにされ、DINOモデルが最高のmAP値89.9を、次いでYOLOモデルが88.5を達成していることが示されています。

5 Ensemble(アンサンブル)

クエリベースとアンカーフリーのモデルの強みを組み合わせる

Weighted Boxes Fusion（WBF）[16]を使用して両方のモデルタイプからの予測を統合

https://ohke.hateblo.jp/entry/2020/06/20/230000

具体的なプロセスは図3

約10のモデルから構成されるDINOとYOLOモデルを統合
広範なハイパーパラメータ空間を生成

すべてのモデルの重みが0から10の範囲にあるとし、WBFのIoUしきい値が0.01から0.99の間にあるとすれば、合計ハイパーパラメータ空間はほぼ10^12になります。

モデル10個^重み10 * (0.01-0.99 → 99通り)

このサイズは、最適な結果を効率的に検索するには大きすぎます。

この問題に対処する

ハイパーパラメータの値がすべて離散的であるため、Tree-Structured Parzen Estimator（TPE）[1]を使用したベイジアン最適化を適用

近似的に最適な重みとIoUしきい値を見つける

さらに、64のプロセスを横断して並列ハイパーパラメータ最適化を行うためにRay[10]を活用

この方法により、最適な重みを1日以内に決定することができ、競技目的には実用的です。

結果は素晴らしく、mAP値が(89.9、89.7、88.7、89.0、87.2、87.3、87.5、88.5、87.6)のチェックポイントのアンサンブルは、2500回の検索試行後にmAPが91.0に達します。

6 Results and Analysis

結果として、我々が提案したすべての最適化テクニックにおける平均適合率（mAP）を示した表4の結果を提示する。

テストセットと検証セットの分布に差異があることがわかったため、モデルをより包括的に評価し、競合セットでより良い結果を得るため、テストセットと検証セットを組み合わせてモデルの効果を評価した。テーブル4。提案したすべての最適化技術における結合された検証とテストセットにおけるmAP。太字は最も高い値を示す。

表4で観察されるように、後処理ステップとして使用されるセルマッチングアルゴリズムは、最終的なmAPを著しく向上させることがわかった。

これは、生のモデル予測がground truthに近いものの、高精度で予測できないことを示唆している。

増強、フォーカルネットワーク、およびP6モデルなどの追加技術を組み合わせることで、AIシステムの性能がさらに向上する。

Weighted Boxes Fusionメソッドは最高のmAPを達成し、モデル全体の精度を向上させる効果を発揮している。

Post on X