Swallow: LLaMA-2 日本語継続事前学習モデル

概要
- Llama 2から日本語継続事前学習を行ったSwallow-7B, Swallow-13B, Swallow-70Bをリリース
- Swallow-70Bはオープンな日本語モデルにおいて最高の日本語性能を記録

- 日本語性能は改善したが英語性能については低下した
- 学習にはMegatron-LMを利用し、HuggingFace形式で公開されているLlama 2のcheckpointをMegatron形式のcheckpointに変換し、そこから継続事前学習を実施
- NVIDIA A100(40GB) x 8 を60ノードで学習