MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

概要

  • アップルのマルチモーダルLLM
  • どのように作ったのかというレシピが詳細に公開されている (上のFig.3)
    • アーキテクチャ
      • Image Encoder: Vit-L, 336x336、CLIP LossでDFN-5Bで学習
      • Vision-Language Connector:C-Abstractor
      • Lannguage Model:1.3BのDecoder-only Transformer
    • データ
      • 45%:画像とテキストが交互に登場するデータ
      • 45%:画像とテキストがペアになっているデータ
      • 10%:テキストだけのデータ
    • 訓練手順
      • 小さいサイズで最適なlearning rateを探して、線型になることを概ね確認した
        • 事前学習のvalidation lossでfitさせると必ずしもdownstream taskの精度と相関しないことが先行研究で分かってたので、8つのdownstream taskでfitさせた
      • で決定
  • 結果
    • 一部ベンチマークではGPT-4Vも凌ぐ