Japanese Simple-SimCSE

概要

  • Embeddingを取得できる日本語言語モデル
    • 事前学習済み言語モデルに対して対照学習(Contrastive Learning)によるfine-tuningを施す手法
    • LLMでRAGやりたいときとかにもよく使う
    • 日本語には日本語モデルがよい

まとめ(コピペ)

  • 教師あり設定ではJSNLIを使うのが良さそうです。
    • NU-MNLIを加えても性能が向上しなかった点は興味深く、以下の要因がありそうです。
        1. 翻訳品質が悪い
        1. 高品質な翻訳は必ずしもSTSの性能に寄与しない
        1. ベンチマークデータセットの規模・多様性が不足している
        1. 運が悪かった
  • 教師なし設定ではWikipediaを適当に使っておくのが良さそうです。
    • CC100の性能が悪かったので、綺麗さも大事そうです。
    • データセットごとに大きな違いはなさそうなので、綺麗であればなんでも良いかもしれません。