オープンソースLLMがChatGPTにどこまで追いついているのか
ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/45d9e03f-c17f-4401-8cd1-940f5bf7b655/bc432aab34af8a33e952efadd857ddab.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/206ed04c-de1e-4f3d-8235-6af5374d6bd5/6e9ad6b53eba1455663a001d6d221c73.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/42d23c85-2d15-40f8-ab4b-ebbd27c9d7c1/5cd33cad3d6f5ffc643e660ee1dc2d72.png)
概要
- クローズドLLM、オープンソースLLMたくさんでてきた
- Chat-GPT1年記念ということで最新版で比較しました
- オープンソースLLM
- Llama-2(およびMentalLlama)
- Palm
- Vicuna
- Falcon
- Wizard
- Lemur
- など
- 一般的なタスク
- 基本的にGPT-3.5-turbo, GPT-4に軍配が上がる。3.5-turbo同等まで迫るLLMは存在する
- WizardLM70BとGodziLLa-70BはGPT-3.5-turboと同等
- Llama-2-chat-70Bは一部のベンチマークでGPT3.5-turboを上回るが、大部分では劣る
- Zephir-7Bは7Bながらも他のオープンソース70B LLMsに接近
- 特定ドメイン領域のタスクでは、オープンソースLLMsがGPT-3.5-turboを上回る例あり
- Lemur-70B-chat: 環境探索やコーディングタスク
- AgentTuning: 未知のエージェントタスク
- ToolLLama: ツールの使用
- Gorilla: APIコールの記述(GPT-4を上回る)
- 特殊なタスクでも、オープンソースLLMsがGPT-3.5-turboを上回る例あり
- InstructRetro: オープンエンドのQA
- MentaLlama-chat13B: 精神保健分析データセットを用いたタスク
- RadiologyLlama2: 放射線報告
- ハルシネーション対策
- 高品質のデータでのファインチューニング、コンテキストに応じたデコーディング技術、外部知識の拡張、またはマルチエージェント対話により減らすことができる
- 安全性の観点だとGPT-3.5-turboとGPT-4が無敵
- GPTの出力は安全で論理的な行動を示す傾向がある
- オープンソースLLMはデータソースにWebクロールデータが多く含まれているため、バイアスや不正確な情報も
- オープンソースLLMsの安全性も今後パフォーマンス向上は期待できる