⼤規模⾔語モデルとVision-and-Language
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/933d13f3-7583-45d4-9c3d-3315841d4a54/2c068e070ed82682e3583e5275e52b3d.png)
概要
- IBIS 2023の企画セッション「Vision and Languageの最前線」での、NTT西田さんによる講演資料
- GPT-3やCLIPのような基盤モデルによって何ができるようになったのか
- GPT-3: In-context learningのように少数の例示による学習
- CLIP: 画像生成やモーション生成など
- Instruction Tuning
- Instruction tuningしたFLAN [ICLR 2022] (137B)がGPT-3 (175B)を上回り、一部タスクではタスク特化したモデルも上回ると話題に
- Visual Instruction tuning [NeurIPS 2023]も提案されている
- Captionsとオブジェクト名 + BBoxesをGPT-4に渡してデータを生成 (Turingでやってるやつみたいな?)
- 参考:https://zenn.dev/turing_motors/articles/64936f88ba720e
- LLaVA [NeurIPS 2023]やInstructBLIPなどLLMなどの重みは固定した上で一部の重みだけをInstruct tuningさせる手法も登場
- ChatGPTとGPT-4V
- RLHFの説明がわかりやすい
- p.27からのGPT-4Vはどのような性能を示すのか事例から説明してくれているのが面白い
- 位置関係などはまだちょっと難しそうだが、ある程度できてる
- 文書画像についてもある程度できている
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/7b61ef39-857e-42d8-928d-dbceb336a83e/dabf7fe301955f64dc6b3aa6e8113532.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/ae8fd940-094d-444b-84f3-9ca557b78882/7874364fd3271ad88aa760266be2e9b6.png)