Emerging Properties in Self-Supervised Vision Transformers

概要

  • Vision Transformerの自己教師あり学習手法 DINO を提案した論文
    • self-distillation with no labels
    • ラベルの無い蒸留
  • 一般的な蒸留の枠組み
    • クロスエントロピー誤差の最小化
    • 生徒モデルの出力を、事前学習された教師モデルの出力に近づける
  • DINOにおける蒸留
    • 教師モデル・生徒モデルに入力するデータが異なる
      • 教師モデル: global views
      • 生徒モデル: global views or local views
        • global views: 元画像の50%以上 (224x224)を含む大域的なviewが2つ
        • local views: 元画像の50%未満 (96x96)の局所的なviewが複数
        • 教師・生徒の同じ入力に対する出力は比較されない
        • localからglobalに対する関係性の学習を促す
    • 学習方法
      • 教師モデルと生徒モデルのアーキテクチャは同じ
      • あるepochの教師モデル: 1つ前のepochの教師モデルと生徒モデルの重み付け和
        • Polyak-Ruppert averaging
        • 生徒モデルのパラメータをそのまま使う方法はうまくいかなかった
        • はiteration中に 0.996 から 1.0 に近づけていく (cosine decay schedule)
        •