DiT: Self-supervised Pre-training for Document Image Transformer

概要

  • ACM 2022, Microsoft
  • 画像変換器は、教師あり(ViT, DeiTなど)または自己教師あり(BEiT, MAEなど)の事前学習技術を用いて、自然画像理解のために最近大きな進歩を遂げている。本論文では、Document AIタスクのために、大規模なラベルなしテキスト画像を用いた、自己教師付き事前学習モデルである、Document Image Transformer modelを提案します。我々は、DiTを、文書画像分類、文書レイアウト解析、表検出、OCRのためのテキスト検出を含む、様々な視覚ベースの文書AIタスクの基幹ネットワークとして活用する。実験の結果、自己教師付き事前学習DiTモデルは、これらの下流タスクにおいて、文書画像分類(91.11 → 92.69)、文書レイアウト分析(91.0 → 94.9)、表検出(94.23 → 96.55)、OCRのためのテキスト検出(93.07 → 94.29)など、最先端の結果を達成することが示された。コードと事前学習済みモデルは、このURLで公開されています。
  • 4,200万枚の画像で事前学習
    • dVAE(離散変分オートエンコーダー)で学習
    •