オープンソースLLMがChatGPTにどこまで追いついているのか
ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?
概要
- クローズドLLM、オープンソースLLMたくさんでてきた
- Chat-GPT1年記念ということで最新版で比較しました
- オープンソースLLM
- Llama-2(およびMentalLlama)
- Palm
- Vicuna
- Falcon
- Wizard
- Lemur
- など
- 一般的なタスク
- 基本的にGPT-3.5-turbo, GPT-4に軍配が上がる。3.5-turbo同等まで迫るLLMは存在する
- WizardLM70BとGodziLLa-70BはGPT-3.5-turboと同等
- Llama-2-chat-70Bは一部のベンチマークでGPT3.5-turboを上回るが、大部分では劣る
- Zephir-7Bは7Bながらも他のオープンソース70B LLMsに接近
- 特定ドメイン領域のタスクでは、オープンソースLLMsがGPT-3.5-turboを上回る例あり
- Lemur-70B-chat: 環境探索やコーディングタスク
- AgentTuning: 未知のエージェントタスク
- ToolLLama: ツールの使用
- Gorilla: APIコールの記述(GPT-4を上回る)
- 特殊なタスクでも、オープンソースLLMsがGPT-3.5-turboを上回る例あり
- InstructRetro: オープンエンドのQA
- MentaLlama-chat13B: 精神保健分析データセットを用いたタスク
- RadiologyLlama2: 放射線報告
- ハルシネーション対策
- 高品質のデータでのファインチューニング、コンテキストに応じたデコーディング技術、外部知識の拡張、またはマルチエージェント対話により減らすことができる
- 安全性の観点だとGPT-3.5-turboとGPT-4が無敵
- GPTの出力は安全で論理的な行動を示す傾向がある
- オープンソースLLMはデータソースにWebクロールデータが多く含まれているため、バイアスや不正確な情報も
- オープンソースLLMsの安全性も今後パフォーマンス向上は期待できる