Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

概要

  • 既存手法では画像と動画を別々の特徴空間に埋め込む設計であるため、複数のモダリティ間の相互作用を学習するのが難しかった。
  • Video-LLaVAは、画像と動画を同じ特徴空間に埋め込めるようにアライメントできる。
    • OpenCLIPを利用したLanguageBindエンコーダーを利用することで、画像とテキストの特徴空間を共有
    • その上で300万件の動画とテキストのペアを利用して、動画とテキストが特徴空間を共有できるように学習
    • 結果として、テキストの特徴空間を介して画像と動画の特徴空間が共有される。