Microsoftのphi-2がMITライセンスに

概要

  • Phi-2は高品質なデータセットを使うことで、高性能な小規模モデルを実現したmicrosoftの論文
    • 2.7Bの大きさでLlama2やMistral 7Bなどの性能を凌ぐ
    • 130億パラメータ以下のモデルの中では最先端な性能を持つ
    • 強化学習もされていない
  • Small Language Model (SLM)らしいが、27億パラメータはある
    • A100 96個で14日トレーニング
  • 基本構造はphi-1.0から変わっておらず、データを追加したりしている模様
    • 「Textbooks Are All You Need」https://arxiv.org/abs/2306.11644
    • 教科書 (textbooks)レベルの質の高いデータセットが重要だ、ということらしい