Emerging Properties in Self-Supervised Vision Transformers
概要
- Vision Transformerの自己教師あり学習手法 DINO を提案した論文
- self-distillation with no labels
- ラベルの無い蒸留
- 一般的な蒸留の枠組み
- クロスエントロピー誤差の最小化
- 生徒モデルの出力を、事前学習された教師モデルの出力に近づける
- DINOにおける蒸留
- 教師モデル・生徒モデルに入力するデータが異なる
- 教師モデル: global views
- 生徒モデル: global views or local views
- global views: 元画像の50%以上 (224x224)を含む大域的なviewが2つ
- local views: 元画像の50%未満 (96x96)の局所的なviewが複数
- 教師・生徒の同じ入力に対する出力は比較されない
- localからglobalに対する関係性の学習を促す
- 学習方法
- 教師モデルと生徒モデルのアーキテクチャは同じ
- あるepochの教師モデル: 1つ前のepochの教師モデルと生徒モデルの重み付け和
- Polyak-Ruppert averaging
- 生徒モデルのパラメータをそのまま使う方法はうまくいかなかった
- はiteration中に 0.996 から 1.0 に近づけていく (cosine decay schedule)