概要

  • OpenAIのWhisperをApple Siliconに最適化したキット
    • Swiftパッケージ:
    • Pythonライブラリ:
      • HaggingFaceに公開されているWhisperモデル(PyTorch)をWhisperKit(Core ML)形式に変換することで使える
  • パフォーマンス
    • iPhone, iPad, Macでリアルタイム文字起こしができるように最適化
      • オーディオエンコーダーの高速化
      • テキストでコーダの高速化
      • 特殊トークンのKVキャッシュの事前計算
  • 今後は安定版に向けて開発中
 
ここ1年くらいでCPU環境で動く高速なWhisperが出ているようなのでもう少しリサーチしたい