Emerging Properties in Self-Supervised Vision Transformers
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/eb9e2ef8-a861-4162-8a5b-e85231b247d5/0a8b77b76ddc905980967a0806a348ca.png)
概要
- Vision Transformerの自己教師あり学習手法 DINO を提案した論文
- self-distillation with no labels
- ラベルの無い蒸留
- 一般的な蒸留の枠組み
- クロスエントロピー誤差の最小化
- 生徒モデルの出力を、事前学習された教師モデルの出力に近づける
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/f8954107-ed36-4bcf-91ec-6c44d3618bbd/0a7658c24a80080280622d8fe38f9f20.png)
- DINOにおける蒸留
- 教師モデル・生徒モデルに入力するデータが異なる
- 教師モデル: global views
- 生徒モデル: global views or local views
- global views: 元画像の50%以上 (224x224)を含む大域的なviewが2つ
- local views: 元画像の50%未満 (96x96)の局所的なviewが複数
- 教師・生徒の同じ入力に対する出力は比較されない
- localからglobalに対する関係性の学習を促す
- 学習方法
- 教師モデルと生徒モデルのアーキテクチャは同じ
- あるepochの教師モデル: 1つ前のepochの教師モデルと生徒モデルの重み付け和
- Polyak-Ruppert averaging
- 生徒モデルのパラメータをそのまま使う方法はうまくいかなかった
- はiteration中に 0.996 から 1.0 に近づけていく (cosine decay schedule)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/bc408aee-082e-4934-adf2-ebb73826943d/fc0b920ba0d006dc0e1ea6b61d36c50d.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/0df71c5d-fc1c-40e7-b865-f2900487d4aa/22db1fed428e8e969806de60440ae54c.png)