Model Quantization Technologies with AIMET

概要

  • モデル量子化の基礎となる部分から説明してくれてる資料
  • エッジデバイスにおけるNNモデルのパフォーマンスを上げるのには以下の3つが重要
    • Model Quantization:bit precisionを減らす
    • Model Compression : モデルのサイズを小さくする
    • Neural architecture search:小さいモデルの構造を探索する
  • AIMETというモデル量子化と圧縮テクニックを提供してくれるライブラリを紹介
    • AutoQuant: 既存手法をいい感じ (語彙力)に組み合わせてくれる手法
    • Quantization-Aware Training (QAT)
      • 量子化の際のScaleやOffsetのパラメータを固定化しつつ訓練するか、それらも訓練パラメータにするかの二種類
    • 量子化ノイズを測定できたりもする