2024-02-29 機械学習勉強会

2024/2/28 17:352024/6/11 9:27

ICDAR 2021 Competition on Document Visual Question Answering

https://arxiv.org/abs/2111.05547

ICDAR 2021 COMPETITION On Document Visual Question Answering (DocVQA)

Robust Reading Competition

Task 1 - Single Page Document VQA

典型的なVQAタスクで、1ページの文書画像に対する質問が与えられ、文書画像を解釈して解答する

質問に対する答えはほとんどの場合、文書画像中の連続したトークンで構成され、複数の答えが存在する場合もある

データセット

industry documents library

5,485の文書画像、30,035の質問 & 回答

Ground Truth Format

Submissions Format

評価指標

Average Normalized Levenshtein Similarity (ANLS)

: データセット内の質問の総数

: 質問あたりのground truthの数

: ground truth

: 質問に対する推論結果

: normalized Levenshtein distance

: 閾値

ベースライン

(Baseline) BERT Large

SQuADデータセットで事前学習 & Single Page Document VQAデータセットでファインチューニングしたモデル

(Baseline) M4C

文書画像のため、検出されたオブジェクトの特徴は省略

(Baseline) Human

提出手法

Applica.ai TILT

LayoutLM 2.0

Alibaba DAMO NLP

StructBERT, 30モデルのアンサンブル

Task 2 - Document Collection VQA (DocCVQA)

大量の文書画像(14K)に対して質問が与えられ、解答とともに根拠となる文書(エビデンス)を示す

エビデンスはその文書が質問に対する答えを含んでいることをモデルがどれだけ確信しているかを表し、Mean Average Precision (MAP) で評価される

Ground Truth Format

Submission Format

評価指標

Average Normalized Levenshtein Similarity for Lists (ANLSL)

: ground truthの集合

: 推論結果の集合

: Normalized Levenshtein Similarity

: Hungarian matching

: Hungarian matching によって得られた個のペア

ベースライン

(Baseline) TS-BERT

Text spotting + QA

https://arxiv.org/abs/2104.14336

Text spotting で文書をランク付けする

質問文を品詞タグ付けし、名詞と数字のみ抽出する
抽出した単語とOCRを通して抽出された単語の間の minimum Normalized Levenshtein Distance(NLD) の平均を求める

QA

事前学習済みのBERTを使用して、上位にランク付けされた文書から抽出する (スパン予測)

(Baseline) Database

商用OCR(Amazon Textract)を利用してkey-valueを抽出し、日付などは正規化したうえで、データベースを構築する

質問文からデータベースへのクエリの変換前処理は手動で行う

提出手法

InfrrdRADAR (Retrieval of Answers by Document Analysis and Re-ranking)

文書画像をOCRに通してテキストを抽出し、フォームから主要なフィールドを取得する

質問文はspaCyを使ってチャンクを事前に定義されたカテゴリに分類し、SQLクエリに変換して関連文書を取得する

BERT-largeを用いてre-rankして、解析された質問に基づいて特定のフィールドを解答する

ANLSLは、Infrrd-RADARがすべてのベースラインを上回っている

しかし、CVPR 2020の手法の方が、エビデンスの検索において優れた性能を示しており、このデータセットの性質を考えると、関連文書の検索性能が向上すれば、回答性能も向上することが期待されるため改善の可能性を示している

図3では、質問別のエビデンスと解答のスコアの内訳を示している。

ほとんどの手法が良い結果を出している質問（Q10, Q15, Q16）がある一方で、Infrrd-RADARは唯一Q11, Q13を正解し、そのエビデンスを提供している。

しかし、Q8, Q9, Q18ではデータベースよりも悪い結果となっており、これはおそらく関連文書を見つける際にパフォーマンスが低下した結果

Task 3 - Infographics VQA

インフォグラフィック(情報やデータを人間が理解しやすいように図表などで視覚的に表現したもの) で与えられた質問に解答する

答えは以下の4タイプ

画像に含まれる文字列 (single span)
画像に含まれる複数箇所の文字列 (multiple span)
質問文に含まれる文字列
数字 (e.g. , , , )

なにかの数を尋ねる質問や画像で与えられた2つの値の合計が答えとなるケースがある
このケースでは画像 or 質問に含まれない答えがありえる

Ground Truth Format

Submissions Format

評価指標

Average Normalized Levenshtein Similarity (ANLS)

ベースライン

(Baseline) LayoutLM

事前学習済みモデルに対してInfographics VQAの学習データセットで継続して事前学習(MLM)を行い、スパン予測のファインチューニングを行ったモデル

(Baseline) M4C

(Baseline) Human

提出手法

1. Applica.ai TILT

IG-BERT

BERT-largeを用いて、 Infographics VQAのデータセットでファインチューニング

視覚的特徴は、Visually29Kで学習されたFaster-RCNNを用いて抽出

OCRはGoogle Vision APIを使った

NAVER CLOVA

BROS モデルをIIT-CDIP データセットで事前学習し、さらにSQuAD とWikitableQA データセットでも継続して事前学習を行う

最後に、DocVQA データセットでファインチューニングを行う

Ensemble LM and VLM

BERT-large

SQuAD + DocVQAで事前学習し、Infographics VQAでファインチューニング
異なるハイパラで学習させた3つのモデルでvotingする

SSBaseline

TextVQA, ST-VQA, Infographics VQAで学習

BERT-largeの推論結果が無い場合はSSBaselineの推論結果を採用する

bert baseline

SQuADで事前学習された BERT-large

スパンの開始インデックスと終了インデックスを見つけやすくするために、fuzzy search algorithmを使用している

BERT (CPDP)

SQuADで事前学習された BERT-large

Applica.ai TILTはすべてのカテゴリで他を上回っている

答えのテキストが複数 (Multi-Span) または画像に含まれない場合 (Non-Span) すべてのパフォーマンスが低下する

最後に、最も難しいのは、答えを導き出すために演算を必要とする問題である。最後の図は、数え上げ、並べ替え、算数を「なし」と比較したものである。