Swallow: LLaMA-2 日本語継続事前学習モデル
![](https://storage.googleapis.com/zenn-user-upload/582e6e83822c-20231216.png)
概要
- Llama 2から日本語継続事前学習を行ったSwallow-7B, Swallow-13B, Swallow-70Bをリリース
- Swallow-70Bはオープンな日本語モデルにおいて最高の日本語性能を記録
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/4e37aa37-44ca-4eb9-8afb-bc8a0d47c885/56eb3ee7aa2b20f3720721560297ee6b.png)
- 日本語性能は改善したが英語性能については低下した
- 学習にはMegatron-LMを利用し、HuggingFace形式で公開されているLlama 2のcheckpointをMegatron形式のcheckpointに変換し、そこから継続事前学習を実施
- NVIDIA A100(40GB) x 8 を60ノードで学習