最高性能の、日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースしました
概要
- 「Japanese Stable CLIP」は、日本らしい画像や日本語に特化した画像言語特徴抽出モデルです。学習には、最新手法である SigLIP の手法を用いており、オープンソースになっている日本語対応CLIPモデルの中で、最も高いスコアを達成しています。

- 以下より、「Japanese Stable CLIP」を用いた一例として、入力画像から職業を判断するテキスト分類をお試しいただけます。
- 商用利用可