日本語CLIP 学習済みモデルと評価用データセットの公開

(特徴的な図を写真一枚で)

概要

  • 背景
    • 日本語対応のCLIP公開モデルはいくつか存在
      • 日本語のみのデータセットで学習させたモデルはデータセットが小さい
      • データセットが大きいものは多言語
    • → 日本語のみの大量のデータセットで学習させたらもっと良くなるんじゃね?
  • やったこと
    • 日本語のみの大規模データセットの作成および公開
      • Flickrを利用して日本らしい日本語のデータセットを作成
    • 学習済みモデルの公開
  • 問い
    • 日本語データの含有量が同じとき、多言語での訓練と日本語単独での訓練では、どちらが日本語タスクでの性能が高くなるか?
      • → モデルサイズが同じ場合、多言語で訓練されたモデルの性能の方が高かった。日本語以外の言語から知識が移転されているか。
    • 視覚・言語型基盤モデルの日本語タスクでの性能を比較するとき、ImageNetを和訳した分類タスクは適切な代表タスクなのか?
      • → ImageNetにおける性能評価と今回作成した日本語データセットでの性能評価とで相関しないケースが存在した。専用の日本語データセットのほうがいい可能性。
  • 大規模学習をうまく進めるための工夫、過程なども説明されており面白い。