Free Donut: E2E 文書理解モデルにおける Attention を用いた 文字領域アノテーション不要なテキスト検出手法の提案

概要
- 画像からテキストを生成するE2Eモデルから、Attentionを利用することで、位置アノテーションフリーにBBoxを抽出することができる
技術のキモ


- DonutのEncode-DecoderのCross-AttentionからBBoxを生成
- 16 個の Attention Head が存在して, 16 個の Mapを獲得できる.分散が大きい Map では注視点が出力文字周辺に集中して,分散が小さい Mapでは注視点が画像全体に分散する傾向を観測した.そこで, Attention Map を分散により重みつき平均した Map を最終的に用いた
- 読み順に沿って文字を出力するよう転移学習した Donut では,注視点が文字の中心よりも上方に分布しやすい傾向にあったため、双方向の読み順を利用
評価
