2024-02-29 機械学習勉強会
ICDAR 2021 Competition on Document Visual Question Answering
Task 1 - Single Page Document VQA
- 典型的なVQAタスクで、1ページの文書画像に対する質問が与えられ、文書画像を解釈して解答する
- 質問に対する答えはほとんどの場合、文書画像中の連続したトークンで構成され、複数の答えが存在する場合もある
データセット
- 5,485の文書画像、30,035の質問 & 回答
Ground Truth Format
Submissions Format
評価指標
Average Normalized Levenshtein Similarity (ANLS)
- : データセット内の質問の総数
- : 質問あたりのground truthの数
- : ground truth
- : 質問 に対する推論結果
- : normalized Levenshtein distance
- : 閾値
ベースライン
- (Baseline) BERT Large
- SQuADデータセットで事前学習 & Single Page Document VQAデータセットでファインチューニングしたモデル
- (Baseline) M4C
- 文書画像のため、検出されたオブジェクトの特徴は省略
- (Baseline) Human
提出手法
- Applica.ai TILT
- Alibaba DAMO NLP
- StructBERT, 30モデルのアンサンブル
Task 2 - Document Collection VQA (DocCVQA)
- 大量の文書画像(14K)に対して質問が与えられ、解答とともに根拠となる文書(エビデンス)を示す
- エビデンス はその文書が質問に対する答えを含んでいることをモデルがどれだけ確信しているかを表し、Mean Average Precision (MAP) で評価される
Ground Truth Format
Submission Format
評価指標
Average Normalized Levenshtein Similarity for Lists (ANLSL)
- : ground truthの集合
- : 推論結果の集合
- : Normalized Levenshtein Similarity
- : Hungarian matching
- : Hungarian matching によって得られた 個のペア
ベースライン
- (Baseline) TS-BERT
- Text spotting + QA
- Text spotting で文書をランク付けする
- 質問文を品詞タグ付けし、名詞と数字のみ抽出する
- 抽出した単語とOCRを通して抽出された単語の間の minimum Normalized Levenshtein Distance(NLD) の平均を求める
- QA
- 事前学習済みのBERTを使用して、上位にランク付けされた文書から抽出する (スパン予測)
- (Baseline) Database
- 商用OCR(Amazon Textract)を利用してkey-valueを抽出し、日付などは正規化したうえで、データベースを構築する
- 質問文からデータベースへのクエリの変換前処理は手動で行う
提出手法
- InfrrdRADAR (Retrieval of Answers by Document Analysis and Re-ranking)
- 文書画像をOCRに通してテキストを抽出し、フォームから主要なフィールドを取得する
- 質問文はspaCyを使ってチャンクを事前に定義されたカテゴリに分類し、SQLクエリに変換して関連文書を取得する
- BERT-largeを用いてre-rankして、解析された質問に基づいて特定のフィールドを解答する
- ANLSLは、Infrrd-RADARがすべてのベースラインを上回っている
- しかし、CVPR 2020の手法の方が、エビデンスの検索において優れた性能を示しており、このデータセットの性質を考えると、関連文書の検索性能が向上すれば、回答性能も向上することが期待されるため改善の可能性を示している
- 図3では、質問別のエビデンスと解答のスコアの内訳を示している。
- ほとんどの手法が良い結果を出している質問(Q10, Q15, Q16)がある一方で、Infrrd-RADARは唯一Q11, Q13を正解し、そのエビデンスを提供している。
- しかし、Q8, Q9, Q18ではデータベースよりも悪い結果となっており、これはおそらく関連文書を見つける際にパフォーマンスが低下した結果
Task 3 - Infographics VQA
- インフォグラフィック(情報やデータを人間が理解しやすいように図表などで視覚的に表現したもの) で与えられた質問に解答する
- 答えは以下の4タイプ
- 画像に含まれる文字列 (single span)
- 画像に含まれる複数箇所の文字列 (multiple span)
- 質問文に含まれる文字列
- 数字 (e.g. , , , )
- なにかの数を尋ねる質問や画像で与えられた2つの値の合計が答えとなるケースがある
- このケースでは画像 or 質問に含まれない答えがありえる
Ground Truth Format
Submissions Format
評価指標
Average Normalized Levenshtein Similarity (ANLS)
ベースライン
- (Baseline) LayoutLM
- 事前学習済みモデルに対してInfographics VQAの学習データセットで継続して事前学習(MLM)を行い、スパン予測のファインチューニングを行ったモデル
- (Baseline) M4C
- (Baseline) Human
提出手法
1. Applica.ai TILT
- IG-BERT
- BERT-largeを用いて、 Infographics VQAのデータセットでファインチューニング
- 視覚的特徴は、Visually29Kで学習されたFaster-RCNNを用いて抽出
- OCRはGoogle Vision APIを使った
- NAVER CLOVA
- BROS モデルをIIT-CDIP データセットで事前学習し、さらにSQuAD とWikitableQA データセットでも継続して事前学習を行う
- 最後に、DocVQA データセットでファインチューニングを行う
- Ensemble LM and VLM
- BERT-large
- SQuAD + DocVQAで事前学習し、Infographics VQAでファインチューニング
- 異なるハイパラで学習させた3つのモデルでvotingする
- SSBaseline
- TextVQA, ST-VQA, Infographics VQAで学習
- BERT-largeの推論結果が無い場合はSSBaselineの推論結果を採用する
- bert baseline
- SQuADで事前学習された BERT-large
- スパンの開始インデックスと終了インデックスを見つけやすくするために、fuzzy search algorithmを使用している
- BERT (CPDP)
- SQuADで事前学習された BERT-large
- Applica.ai TILTはすべてのカテゴリで他を上回っている
- 答えのテキストが複数 (Multi-Span) または画像に含まれない場合 (Non-Span) すべてのパフォーマンスが低下する
- 最後に、最も難しいのは、答えを導き出すために演算を必要とする問題である。最後の図は、数え上げ、並べ替え、算数を「なし」と比較したものである。