The case for 4-bit precision: k-bit Inference Scaling Laws

  • 量子化されたLLMのスケーリング則についての研究(ICML2023のポスター?)
  • bit数は異なるが同じサイズのモデル(e.g. 30B/8-bitのモデルと60B/16-bitのモデル)で比較した際、精度は?
    • 4-bitまではbitが小さい方が精度が高い
  • 量子化によりbitを小さくしてもスケーリング則は成り立つのか?
    • 4-bitまでは成り立つ。3-bitでも成り立つ場合もあった。