Japanese Simple-SimCSE

概要
- Embeddingを取得できる日本語言語モデル
まとめ(コピペ)
- 日本語文埋め込みモデルのベースとしては以下を選んでおくと良さそうです。
- 教師あり設定ではJSNLIを使うのが良さそうです。
- NU-MNLIを加えても性能が向上しなかった点は興味深く、以下の要因がありそうです。
- 翻訳品質が悪い
- 高品質な翻訳は必ずしもSTSの性能に寄与しない
- ベンチマークデータセットの規模・多様性が不足している
- 運が悪かった
- 教師なし設定ではWikipediaを適当に使っておくのが良さそうです。
- CC100の性能が悪かったので、綺麗さも大事そうです。
- データセットごとに大きな違いはなさそうなので、綺麗であればなんでも良いかもしれません。