2025-02-04 機械学習勉強会

今週のTOPIC

@Naoto Shimakoshi

[blog] 無料で学ぶ!生成AIとバズった技術まとめ(LLM、LangChain、Dify、SAM2、Stable Diffusion、RVCなど)

  • 生成AI系のサービスを網羅的にまとめてくれている良記事。知らないサービスも結構あった。
  • 資料良く作る人は資料作成系や図作成系も便利そう

@Shun Ito

[blog] Sarashina-Embedding-v1-1B: 日本語LLMをベースにしたテキスト埋め込み(2/2)~発展編~

  • 学習方法: 二段階の対照学習
    • Stage1. 弱教師あり学習
      • 入力テキストとそれに意味的に関連するテキスト(質問応答ペア、ブログのタイトルと本文ペアなど)の組み合わせを学習データセットに利用
        • 独自のWebクロールデータ + オープンデータの組み合わせで構築
    • Stage2. 教師あり学習
      • 利用したデータセット(ブログより引用)。純粋な日本語データが少ないため補完的に英語のデータセットも取り入れている。
          1. JSNLI: 約14万文のペアからなる自然言語推論データセットです。
          1. NU-MNLI: 名古屋大学が提供する、マルチジャンル自然言語推論データセットの日本語翻訳バージョンであり、約6万8千ペアが含まれます。
          1. Mr. TyDi (Japanese subset): 多言語データセットTyDiから抽出した日本語部分。3,697ペアが含まれます。
          1. Natural Questions (Sampled): 英語検索データセットですが、一部のサンプルを使用しました。高品質なデータであるため、日本語検索能力の向上に寄与するのではという期待から一部のサンプルを使用しました。
      • 入力テキスト+ 正解テキスト + hard negative(表面上似ているが不正解のテキスト)の3つ組みを利用
    • 学習時の工夫
  • Ablation Study
    • 3つの観点に関するAblation Study
      • 弱教師あり学習 + 教師あり学習の二段階の対照学習
      • 巨大な事前学習コーパスで学習した言語モデルを事前学習モデルに利用
      • 弱教師あり学習で比較的大規模なテキストペアデータセットを学習
    • 二段階対照学習
      • 上から二段階学習、弱教師ありonly、教師ありonlyで比較
    • ベースモデルの学習トークン数による影響
      • ベースモデル(Sarashina2.1-1B)の学習途中のチェックポイントごとに二段階対照学習して精度比較
        • タスクごとに見ると、retrieval, classification, rerankingで同様の傾向
          • retrieval, rerankingは、事前学習したトークンが多いほどモデルに内在する事物・事柄の関係等の知識が増えて、検索・並び替え性能も向上する?
    • 弱教師あり学習のデータ規模の影響
      • 弱教師あり学習の学習途中のチェックポイントごとに教師あり学習して精度比較
      • retrievalとSTS(意味的類似性)、Rerankingで上昇傾向
        • 全体の26Mがやや大きくなっているのは、Clusteringの跳ねが原因そう
 

@qluto (Ryosuke Fukazawa)

[論文] Chain of Agents: Large language models collaborating on long-context tasks

Agentsとタイトルに含まれているが、自由な問題に対して自律的に問題解決を行うといったagenticなものとはちょっと趣旨が違う論文。NeurIPS 2024
RAGでコンテクストを与えるのだと、Retrival部分性能の不足でコンテクスト欠落の可能性がでてしまうし、コンテキスト長を十分に長くできるようにするモデルチューニングはコストがかかってしまうというどっちつかずの問題に対処するための手法を考えましたと言う論文。
 
アイディアを端的に表現したもの
アイディアを端的に表現したもの
アイディアは比較的シンプル。
  1. 複数のエージェントが協調して長いテキストを処理
  1. 各ワーカーエージェントが順番にテキストの一部を担当し、情報を次のエージェントに伝達
  1. 最後にマネージャーエージェントが全体を統合して最終的な出力を生成
 
より詳細な仕組み
より詳細な仕組み
 
lost in the middle問題や、RAGのRetrieval性能リスクを緩和・解消し、長いコンテクストでの計算効率を達成した

@Yosuke Yoshida

[blog] 言語モデル活用によるショッピングレコメンドの改善

  • Yahooショッピングのレコメンド
  • 従来のログベースの商品特徴量に加えて、BERTの推論スコア(BERT score)を追加
  • ユーザーの行動ログを用いてBERTモデルをfine-tuning
    • ベースとなる事前学習済みモデルは社内で開発されたショッピングコーパス特化のBERTモデル
  • 本番環境での運用
    • BERTモデルの定常学習・運用
      • 出力スコア(BERT score)の分布ドリフトが発生するとスコアを利用する後段モデルに悪影響を及ぼすため、以前の学習で利用したデータと新規に収集したデータ両方を利用してモデルを定期的に再学習し、急激なドリフトの発生を抑制
    • 推論パイプラインの開発
      • Yahoo!ショッピングでは扱う商品数が非常に多く、商品を絞り込んだ場合でも依然として膨大な組み合わせが存在
      • PySpark(Spark)を活用して推論処理を並列化し、バッチジョブとして実行
  • オフライン評価・オンラインA/Bテストの結果
    • オフライン指標
      • ログを使い、NDCG@k(ランキング上位k件の順序評価)を評価
    • オンライン指標
      • サービスに実装し、CTR(レコメンドのクリック率)、CVR(レコメンド経由の購買率)を計測

 

メインTOPIC

 
Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
HKU, UC Berkeley, Google DeepMind, NYU
 

概要

  • 大規模言語モデルの学習におけるsupervised fine-tuning (SFT)とreinforcement learning (RL)の効果を比較分析した論文
  • RLは汎化性能が高い。言語のみ、画像と言語の両パターンにおいて、学習したことを未知の状況に適用できる。
  • SFTは記憶に依存する。訓練データをそのまま暗記する傾向が強く、未知の状況での性能が低く出がち。
V-IRLというvision-languageなタスクにおけるSFTとRLの汎化性能の様子を示したグラフ
V-IRLというvision-languageなタスクにおけるSFTとRLの汎化性能の様子を示したグラフ
  • SFTはRLの前段階として重要。モデルの出力フォーマットを安定化させ、その後のRL学習を効果的にする
 

関連研究

  • Post-training
    • モデルの性能向上に重要なSFT, RLのそれぞれの過去研究について紹介されている
  • 言語モデル・視覚言語モデルにおける記憶と汎化
    • 単純な知識集約型タスクでは、複雑な推論タスクに対してオーバーフィッティングが起きやすいといった研究などが紹介されている
  • 推論時の計算量のスケーリング
    • 最終的な回答を作るまでに複数段階の推論ステップを構築するような手法から、GPT o1 や DeepSeek R1 のような推論時の計算資源増加による性能向上をとりあげている。
    • 第一に、推論時の検証に関する知見をマルチターンのRLフレームワークに統合し、モデルが自身の誤りを特定し修正できるようにする。第二に、推論時の検証が強化学習の汎化に与える影響を調査し、推論時の検証のスケールアップが強化学習の汎化にとって重要な要素であることを示したのが本論文の貢献。
  • VLMの視覚能力の性能向上
    • 過去研究は主にSFTによる性能向上がおもだが、RLによって視覚認識能力が向上できることを本論文で示している
 

評価タスク

  1. 算数の推論スキルを問う GeneralPoints と言うタスク。
      • タスクの種類
        • テキストのみで与えるもの: GP-L
        • 画像(とルール部分はテキスト)で与える: GP-VL
      • RLとしては以下のようなイメージ
      • バリエーション
        • ルールのバリエーション:J, Q, Kを10として扱うルール、J, Q, Kを11, 12, 13として扱うルールといったバリエーションを持たせて汎化性能を探る
        • 画像のバリエーション:1色のみで画像を与え学習させるが、テスト時はOODのパフォーマンスを見るために違う色を利用した
  1. 現実世界でのナビゲーションを行うV-IRLというタスク https://virl-platform.github.io/#benchmark
      • タスクの種類
        • 上図Observationをテキスト情報だけで与えるもの: V-IRL-L
        • テキスト情報に加え視覚情報を与えるもの: V-IRL-VL
      • バリエーション
        • ルールのバリエーション:丸暗記ではなく空間情報を学習できているかを探るため、 の絶対方位と、 のような相対方角のバリエーションを用意
        • 画像のバリエーション:特定地域のランドマークをそのまま記憶しているかそうでないかを探るため、学習時はひとつの地域のみで行い、評価時は他の地域での検証とした

実験結果

Llama-3.2-Vision-11Bをバックボーンモデルに採用

ルールに関する汎化

GeneralPoints における ID / OOD の定義
  • ID:‘J’(ジャック), ‘Q’(クイーン), ‘K’(キング)を すべて 10 として扱う。
  • OOD:‘J’ を 11、‘Q’ を 12、‘K’ を 13 として解釈。
V-IRL における ID / OOD の定義
  • ID:絶対方位の座標系(north, south, east, west など)を使用。
  • OOD:相対方位の行動空間(left, right, slightly left, slightly right)を使用。
unimodal, multimodalの両シチュエーションにて、RLはOODでの性能を上げることができている。
 

視覚的なOODタスクでの汎化

GeneralPoints
  • ID: VLMを黒いスート(♠, ♣)で学習
  • OOD: 赤いスート(♥, ♦)でOOD性能をテスト
V-IRL
  • ID: モデルをニューヨーク市のルートデータで学習
  • OOD: V-IRL VLNミニベンチマーク(Yang et al., 2024a)でテスト
 
 
視覚的なOODタスクにおいてもRLは汎化性能をうまくあげることができている
(副次的な成果として、マルチターンRLの手法を用いることで、V-IRLミニベンチマークの最新のSOTA成績を+33.8%(44.0% → 77.8%)向上させることができている)

RLが視覚能力にもたらす影響

RLとSFTのOOD性能を評価するとともに、モデルの視覚認識精度(入力画像から4枚のカードを正確に認識できるか)についても調査。
計算リソースのスケーリングを行えば行うほどSFTでは汎化性能が下がるが、RLでは汎化性能も下がらず、視覚認識精度に関しては高い水準を保持できている

RLにおけるSFTの役割

上記の実験はSFTを行ったのちにRLを行うと言う設定によるものだったが、「RLトレーニングにSFTは必要なのか?」という疑問に答えるため、end-to-endのRLを直接適用する実験も行った。
 
1e-6などのプロットはlearning rateを示す
1e-6などのプロットはlearning rateを示す
SFTなしでは、エンドツーエンドRLのすべての試行において性能向上が見られなかった。
SFTを行わない場合、Llama-3.2-Vision-11B モデルが、タスクに関係のない長くまとまりのない出力を生成する傾向があった。この問題により、タスク関連の情報を適切に抽出できず、報酬を用いたRLトレーニングが機能しなかった。
異なるバックボーンモデルを使用しているため、DeepSeekAI et al. (2025) の「SFTはダウンストリームのRLトレーニングには不要である」とする主張と矛盾しないことに注意が必要。

検証イテレーションの役割

 
マルチステップのRLを構築した実験設定であったが、より多くの検証ステップを用いることでRLの汎化性能が向上することが確認できた。
 

まとめと今後の課題

  • まとめ
    • RLは一般化可能な知識を学習するのに優れている
    • SFTは学習データを記憶する傾向が強く、ルールや視覚的変動に適応しづらい
  • 残論点
    • GP-VLにおけるSFTの in-distributionにおける学習がうまくいっていないこと
      • SFTのスケーリングは視覚認識能力を低下させるため、SFTは局所的に推論トークンに過適合し、視覚認識トークンを軽視している可能性があるという仮説を立てているがこの検証は今後の課題とする
    • Llama-3.2に対して効果的なRLトレーニングをおこなうためにはSFTが必要だと言う結果が出たが、過剰に調整されたSFTチェックポイントに対してRLを適用する追加実験を行ったところ、このような状態からOOD性能を回復することができなかった。
      • RLが極端にアンダーフィットまたはオーバーフィットした初期チェックポイントに適用された場合、その効果が限定的になることを示唆していると言えるが、この詳しい検証については今後の課題とする