日本語CLIP 学習済みモデルと評価用データセットの公開
(特徴的な図を写真一枚で)
概要
- 背景
- 日本語対応のCLIP公開モデルはいくつか存在
- 日本語のみのデータセットで学習させたモデルはデータセットが小さい
- データセットが大きいものは多言語
- → 日本語のみの大量のデータセットで学習させたらもっと良くなるんじゃね?
- やったこと
- 日本語のみの大規模データセットの作成および公開
- Flickrを利用して日本らしい日本語のデータセットを作成
- 学習済みモデルの公開
- 問い
- 日本語データの含有量が同じとき、多言語での訓練と日本語単独での訓練では、どちらが日本語タスクでの性能が高くなるか?
- → モデルサイズが同じ場合、多言語で訓練されたモデルの性能の方が高かった。日本語以外の言語から知識が移転されているか。
- 視覚・言語型基盤モデルの日本語タスクでの性能を比較するとき、ImageNetを和訳した分類タスクは適切な代表タスクなのか?
- → ImageNetにおける性能評価と今回作成した日本語データセットでの性能評価とで相関しないケースが存在した。専用の日本語データセットのほうがいい可能性。
- 大規模学習をうまく進めるための工夫、過程なども説明されており面白い。