XDoc: Unified Pre-training for Cross-Format Document Understanding

 

概要

  • EMNLP, 2022
  • 色々な文書形式のデータに対して一つのモデルかつ軽量なモデルで既存モデルと同等の性能を出した
    • 3つの単一モデルが1つになってるから36.7%のパラメータになったよねって主張らしい
  • 様々な形式 = Plain Text + Document Text + Web Textで多種多様な書類という意味ではない

Abstract

近年、文書理解の急速な発展に伴い、事前学習が盛んに行われている。事前学習と微調整のフレームワークは、プレーンテキスト、文書テキスト、ウェブテキストなど、様々な形式のテキストに効果的に使用されている。しかし、既存の事前学習モデルは、一度に特定の文書形式を対象とすることが多く、複数の文書形式の知識を組み合わせることが困難である。この問題に対処するため、我々はXDocを提案する。XDocは、単一のモデルで異なる文書フォーマットを扱う、統一的な事前学習済みモデルである。パラメータの効率化のために、単語埋め込み層や変換層などの異なるフォーマットのバックボーンパラメータを共有する。一方、異なるフォーマットの区別を強化するために、軽量なパラメータを持つ適応的なレイヤーを導入する。実験の結果、わずか36.7%のパラメータで、XDocは個々の事前学習済みモデルと比較して、様々なダウンストリームタスクで同等かそれ以上の性能を達成し、実世界への展開に費用対効果が高いことが実証された。XDocのコードと事前学習済みモデルは、∕URL{このhttps URL}で公開されます。