MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/fbe00345-ac0c-46f7-94df-41ac7cf00857/d5b07cdb0b059ef9c7d84016d20fff55.png)
概要
- アップルのマルチモーダルLLM
- AXLearnというフレームワークで学習されている
- どのように作ったのかというレシピが詳細に公開されている (上のFig.3)
- アーキテクチャ
- Image Encoder: Vit-L, 336x336、CLIP LossでDFN-5Bで学習
- Vision-Language Connector:C-Abstractor
- Lannguage Model:1.3BのDecoder-only Transformer
- データ
- 45%:画像とテキストが交互に登場するデータ
- 45%:画像とテキストがペアになっているデータ
- 10%:テキストだけのデータ
- 訓練手順
- 小さいサイズで最適なlearning rateを探して、線型になることを概ね確認した
- 事前学習のvalidation lossでfitさせると必ずしもdownstream taskの精度と相関しないことが先行研究で分かってたので、8つのdownstream taskでfitさせた
- で決定
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/9d12fc18-94ed-4126-acbf-29ab0fd38eda/756591bf75c61a70e94e9f262027ab62.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/774dcd3f-1da8-44d6-9d3b-a0db8fc66268/4379fd04a0443aae1d8162a93c73eeb8.png)
- 結果
- 一部ベンチマークではGPT-4Vも凌ぐ
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/47693855-3f15-46fa-9fda-a321675219ba/edf6b2cfb478dd9b628eb01b63265289.png)