Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る

MiniGPT-4のモデル構造(https://arxiv.org/abs/2304.10592)
MiniGPT-4のモデル構造(https://arxiv.org/abs/2304.10592

概要

  • rinnaのモデルを使ったMiniGPT-4の学習方法が詳細に述べられている。
    • MiniGPT-4は既存のLLMモデルと画像キャプションデータで学習した画像モデルをLinear層一つでつなげたモデル。
  • 結果的には、単純な画像キャプションを生成でき、更にある程度の質問にも答えられるようなモデルができている。