オープンソースLLMがChatGPTにどこまで追いついているのか

ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?
 

概要

  • クローズドLLM、オープンソースLLMたくさんでてきた
  • Chat-GPT1年記念ということで最新版で比較しました
 
  • オープンソースLLM
    • Llama-2(およびMentalLlama)
    • Palm
    • Vicuna
    • Falcon
    • Wizard
    • Lemur
    • など
  • 一般的なタスク
    • 基本的にGPT-3.5-turbo, GPT-4に軍配が上がる。3.5-turbo同等まで迫るLLMは存在する
      • WizardLM70BとGodziLLa-70BはGPT-3.5-turboと同等
      • Llama-2-chat-70Bは一部のベンチマークでGPT3.5-turboを上回るが、大部分では劣る
      • Zephir-7Bは7Bながらも他のオープンソース70B LLMsに接近
  • 特定ドメイン領域のタスクでは、オープンソースLLMsがGPT-3.5-turboを上回る例あり
    • Lemur-70B-chat: 環境探索やコーディングタスク
    • AgentTuning: 未知のエージェントタスク
    • ToolLLama: ツールの使用
    • Gorilla: APIコールの記述(GPT-4を上回る)
  • 特殊なタスクでも、オープンソースLLMsがGPT-3.5-turboを上回る例あり
    • InstructRetro: オープンエンドのQA
    • MentaLlama-chat13B: 精神保健分析データセットを用いたタスク
    • RadiologyLlama2: 放射線報告
  • ハルシネーション対策
    • 高品質のデータでのファインチューニング、コンテキストに応じたデコーディング技術、外部知識の拡張、またはマルチエージェント対話により減らすことができる
  • 安全性の観点だとGPT-3.5-turboとGPT-4が無敵
    • GPTの出力は安全で論理的な行動を示す傾向がある
    • オープンソースLLMはデータソースにWebクロールデータが多く含まれているため、バイアスや不正確な情報も
    • オープンソースLLMsの安全性も今後パフォーマンス向上は期待できる