Swallow: LLaMA-2 日本語継続事前学習モデル

概要

  • Swallow-70Bはオープンな日本語モデルにおいて最高の日本語性能を記録
  • 日本語性能は改善したが英語性能については低下した
  • 学習にはMegatron-LMを利用し、HuggingFace形式で公開されているLlama 2のcheckpointをMegatron形式のcheckpointに変換し、そこから継続事前学習を実施
  • NVIDIA A100(40GB) x 8 を60ノードで学習