MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
概要
- アップルのマルチモーダルLLM
- AXLearnというフレームワークで学習されている
- どのように作ったのかというレシピが詳細に公開されている (上のFig.3)
- アーキテクチャ
- Image Encoder: Vit-L, 336x336、CLIP LossでDFN-5Bで学習
- Vision-Language Connector:C-Abstractor
- Lannguage Model:1.3BのDecoder-only Transformer
- データ
- 45%:画像とテキストが交互に登場するデータ
- 45%:画像とテキストがペアになっているデータ
- 10%:テキストだけのデータ
- 訓練手順
- 小さいサイズで最適なlearning rateを探して、線型になることを概ね確認した
- 事前学習のvalidation lossでfitさせると必ずしもdownstream taskの精度と相関しないことが先行研究で分かってたので、8つのdownstream taskでfitさせた
- で決定
- 結果
- 一部ベンチマークではGPT-4Vも凌ぐ