2025-04-22 機械学習勉強会

2025/4/21 16:282025/4/23 14:36

今週のTOPIC [slide] Kaggle自然言語処理コンペ向けローカルLLM活用入門 [paper]Relevance Isn't All You Need: Scaling RAG Systems With Inference-Time Compute Via Multi-Criteria Reranking [slide] MCP Server as a Judge [blog] The State of Reinforcement Learning for LLM Reasoning DETR手法の変遷と最新動向（CVPR2025）[blog] How to think about agent frameworks [paper] Welcome to the Era of Experience メインTOPIC これはなに？Introduction 関連研究大規模言語モデルと検索大規模言語モデルと強化学習 Search-R1の手法 Reinforcement Learning with a Search Engine Generation with Multi-turn Search Engine Calling Training Template Reward Modeling 結果データセットベースライン実験設定パフォーマンス分析 PPO vs. GRPO Baseモデル vs. Instructモデル応答長と有効な検索呼び出しに関する分析取得トークンの損失マスキングに関する検証結論

今週のTOPIC

@Naoto Shimakoshi

[slide] Kaggle自然言語処理コンペ向けローカルLLM活用入門

Kaggleでも普通にLLMのファインチューニングが行われるようになってきた

学習

まずはを試す。文書分類でもこれを使ったりする。(Yes or NOで答えて → Yesを出力)
候補のトークン (Yes or No)を固定して確率も出せる

参考コード：https://www.guruguru.science/competitions/24/discussions/21027ff1-2074-4e21-a249-b2d4170bd516/

LoRAで学習

ChrisのTIPSが参考になる：https://www.kaggle.com/competitions/lmsys-chatbot-arena/discussion/527596

モジュールは全て学習させた方がいい
学習率は2e-4 or 2e-5、バッチサイズは8 (全てのGPU合わせて)がおすすめ
r=16で固定でalphaを調整 → 1epochでalphaを決定 → alphaを固定してr調整

推論

vLLM使う

、などをちゃんと設定する

量子化

量子化してLoRA学習
学習してから量子化

@Yuya Matsumura

[paper]Relevance Isn't All You Need: Scaling RAG Systems With Inference-Time Compute Via Multi-Criteria Reranking

MS Research / ICLR2025 poster

RAGにおいて、クエリのベクトルと類似度の高い（関連性の高い）ドキュメントを引っ張ってくるだけでは最終的な回答の質の向上に限界があるよねというよくある話が課題感

関連性以外の複数の基準でもリランクしようぜというIRっぽい話

基準

Depth of Content
Diversity of Perspectives
Clarity and Specificity
Authoritativeness
Recency

LLMに思考させて（CoTで）適切な基準を選ばせてええ感じでリランクしようぜという手法。

通常通り、クエリと類似するドキュメント群を獲得した後、それらをもとにLLMに並び替えの基準を考えさせてから並び替えるという手法。

入力に応じてLLMが利用する基準を動的に選んでリランクしている部分が面白いと思った。

@Shun Ito

[slide] MCP Server as a Judge

JAWSで昨日発表されていた資料

評価用のMCP Serverを用意し、共通の評価基盤として利用する

RAGで利用する例

別のAIアプリケーションでも、評価部分は共通化して利用できる

評価基盤のMCP化は見たことがなく面白い

@qluto (Ryosuke Fukazawa)

[blog] The State of Reinforcement Learning for LLM Reasoning

RLHFの中で使われていたPPOに始まり、DeepSeek-R1でも脚光を浴びたGRPO、そしてその後のLLMに対する強化学習の最近について紹介した記事。

RLHFからDeepSeek-R1に至るまでの流れのおさらいをしたい人には記事前半が役立つ。

@Takumi Iida (frkake)

DETR手法の変遷と最新動向（CVPR2025）

DETRの派生系物体検出モデルを解説してる。CVPR2025に採択された論文もカバー

後半の部分だけ以下に紹介

Mr. DETR

one-to-one assignmentだと後処理が不要でE2Eで推論できるが、初期の学習がむずい

→ one-to-manyをマルチタスクで解かせて安定化

Mr. DETRが考えたこと「o2oとo2mの学習でネガティブトランスファーが起きてしまう

→ Self-AttentionとFFNを分離したデコーダにする

(e)のようなものを作る。(f)はo2mのルートのみ学習可能な指示トークンを加えたことで、それっぽいものを表現したレイヤ（Instructive SA）を作ってるぽい。

DEIM: DETR with Improved Matching for Fast Convergence

one-to-manyだと、追加のデコーダで計算量が増加＋冗長なBBoxを生成してしまう

→ 密なone-to-oneマッチング＋Matchability-Aware Lossを提案

やったこと1：正例を増やして、Positive Predictionを増やす←o2oの初期の学習の進みづらさ解消？

やったこと2：IoUが低い場合でもLossを大きくして、正例に対する勾配を強くする

(d)のような場合だと、IoUが低いので、勾配にあまり効きにくいという課題がある

結果：学習効率だけでなく、推論速度も結構速い

@ShibuiYusuke

[blog] How to think about agent frameworks

LangChain作者のHarrisonによるAI Agentフレームワーク論。

OpenAI’s guide on building agentsに対する批判でもある。

ポジショントークな主張も多いが（OpenAIのガイドもポジショントークか）、LangChainというLLMを活用する汎用ライブラリを作ってることもあり、AI Agent開発者（プログラムを書いて体験をつくる人）のためのLLM活用のPainを論じてて面白い。

WorkflowとAgent

Predictability vs agency

ワークフロー：確実性の高いユースケースで有効。決まったパスを統合するシステム。予測可能性と一貫性。
AI Agent：不確実性が高く、プロセスやツール利用を動的に指示するシステム。柔軟性とLLM主導の意思決定。
（ML/AI開発の常として）いずれにおいても100％の正確性は出せない！

floor and ceiling

ワークフローフレームワークの多くは学習が難しい（high floor）が、拡張性が高い（high ceiling）が、作るためには大量のロジックを書く必要がある。
Agentフレームワークの多くは簡単に始められる（low floor）が、制約も多い（low ceiling）。

実際にはワークフローとAgentの組み合わせになる。

フレームワークの価値

Agent abstraction：ロジックをコントロールするためにはコード修正が必要になるケースがあり、抽象化がその障壁となることを理解している（LangChain作者が言うと重みがすごい・・・）。

抽象化の成功例としてKerasは参考になる。簡単に使い始められるインターフェイスを用意し、しかし利用者が低レベルフレームワーク（TensorFlow）の操作まで必要にならないように作る。

Short term memory：同じ会話内でのメモリ。
Long term memory：過去の会話からのメモリ（会話をまたいだメモリ）。
Human-in-the-loop：ユーザからフィードバックや承認を得る。
Human-on-the-loop：Agentの処理軌跡をユーザが検査する。さらには以前の状態に戻って処理を再実行する。
Streaming
Debugging/observability
Fault tolerance
Optimization

[paper] Welcome to the Era of Experience

DeepMindのSilver先生とSutton先生（強化学習の巨匠！？）による「経験の時代」の幕開けを告げる論文。

これまでのAIは人間の生成したデータをベースに学習してきたが、人間を模倣するだけでは多種多様なトピックをカバーできなくなってきてる、という主張。

新たなデータソースとしてAgentが環境に根ざした行動と観察を学習していく（Agentの行動がデータになる）時代になる。この発想は強化学習の研究者っぽくて面白い。
人間の思考様式に囚われない（偏見、論理的誤り等々）データになる可能性がある。

リスク

Job displacement
Potential misuse of AI
Autonomously interact with the world over extended periods of time to achieve long-term goals
Experiential agent could observe and learn to circumvent malfunctioning hardware, adjust to rapid societal change, or embrace and build upon new science and technology
A natural brake on the pace of potential AI self-improvement

メインTOPIC

[2503.09516] Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han

これはなに？

LLMにリアルタイムの検索エンジンとの連携能力を強化するための、新しい強化学習（RL）ベースのフレームワーク Search-R1 を提案する論文

Introduction

現在、LLMsと検索エンジンを統合するアプローチは主に以下の2つに分類される

RAG（Gaoら, 2023；Lewisら, 2020）

検索エンジンをツールとして扱うアプローチ（ReAct, Toolformer）

RAGではマルチターンでのやりとりを通じて検索を行う手法などが進められているが、LLMが検索エンジンと効果的にやり取りする方法を学習していないので最適とは言えない。

検索エンジンをツールとして扱うアプローチもプロンプトベースの手法では一般化が難しくうまく機能しないことがある。

RLは、LLMの推論能力を高めるための強力な手法として注目を集めている。

特に、OpenAI-o1やDeepSeek-R1といったモデルは、PPO（Proximal Policy Optimization）やGRPO（Group Relative Policy Optimization）といったRL技術を活用し、論理的推論能力や問題解決能力を、経験とフィードバックを通じて向上させている。

RLでは、結果ベースの報酬だけで訓練した場合でも、モデルは自己検証や自己修正を含む高度な推論スキルを学習することが確認されている。

検索エンジンを環境の一部としてモデル化

LLMによるトークン生成と検索エンジンからの取得を交互に行う軌跡（trajectory）をサンプリング可能にする。SEARCH-R1はPPOやGRPOなど、さまざまなRLアルゴリズムと互換性があり、取得トークンに対する損失のマスキングを適用することで、学習の安定性を保つ。

マルチターンでの検索と推論のサポート

とトークンで明示的に検索を呼び出し、結果は～で囲まれ、推論は～で実行され、最終回答は～で記述される。この構造により、LLMが段階的かつ構造化された意思決定を行えるようになる。

💡 DeepSeek-R1では推論部分を～で表現するよう学習されている

単純な結果ベースの報酬関数を採用

プロセスに依存した複雑な報酬設計は避け、最終結果の正解かどうかだけを報酬として使うことで、検索と推論シナリオにおいても有効な学習ができることを示す。

主な貢献は以下の通り。

LLMが検索エンジン結果を活用して推論する能力を向上させるための、RL活用における課題とその見解を提示。

安定化のための取得トークンのマスキング、複雑なタスク対応のためのマルチターン構造、簡素で効果的な報酬設計を備えた新たなRLフレームワーク SEARCH-R1 を提案。

2つのLLMにおいて、同条件下（同一の検索器・データ・事前学習モデル）でRAGベースラインに対してそれぞれ41%と20%の相対的性能向上を達成したことを実証し、RLアルゴリズムの選択やモデル特性、出力長に関する洞察も提供。

Search-R1の手法

Reinforcement Learning with a Search Engine

は検索エンジン

はポリシーLLM

はリファレンスLLM

は報酬関数

はKLダイバージェンス

はデータセットからサンプリングされた入力

は、検索エンジンからの取得結果を挟みながら生成された出力

既存のPPOとGRPOを元にし、検索拡張推論のための最適化を加えている

ポリシーLLMのみを使ってロールアウトを生成するのが一般的だったが、本研究ではを用いて、検索を挟んだ推論を明示的に導入している。

PPOおよびGRPOの両手法では、トークンレベルの損失はロールアウト全体にわたって計算される。しかし、SEARCH-R1のロールアウトは、LLMが生成したトークンと、検索によって取得されたトークンの両方を含む。

LLM生成トークンに対する最適化は、検索エンジンとの効果的なインタラクションや推論能力の向上に寄与するが、取得トークンに同様の最適化を適用すると、望ましくない学習動作が生じるおそれがある。

この問題に対処するため、SEARCH-R1では取得トークンに対する損失マスキング（loss masking）を導入する。これにより、ポリシー勾配の目的関数はLLMが生成したトークンのみに基づいて計算され、検索結果は最適化から除外される。

⚠️ 上式からは簡略化のためか省かれている。

Generation with Multi-turn Search Engine Calling

本論文ではLLMがテキスト生成と外部検索を交互に行う反復的な枠組みを採用している。具体的には、システムインストラクションにより、LLMは検索が必要な場合に、検索クエリをとのトークンで囲んで生成するように誘導される。

このトークンが生成シーケンス中に現れると、システムはクエリを抽出して検索エンジンに送信し、該当する検索結果を取得する。そして、この取得結果はとのトークンで囲んで、現在進行中のロールアウトシーケンスに追加され、次の生成ステップの文脈として利用される。

このプロセスは以下のいずれかの条件を満たすまで繰り返される

アクション回数の上限に達したとき

最終回答が生成され、それがとのトークンで囲まれたとき

Training Template

まずは初期のLLMにあらかじめ定義された指示に従わせるためのシンプルなテンプレートを設計する。

このテンプレートは出力を以下の3つの部分に構造化している

推論パート（とで囲む）

検索エンジン呼び出しパート（と）

回答パート（と）

Reward Modeling

最終的な出力の正しさのみに基づくルールベースの報酬設計を採用している。

DeepSeek-R1とは異なり、本研究では出力の形式に対する報酬は設けていない。これは、本モデルがすでに十分に構造に従った出力を行う能力を備えていることが確認されているためであり、複雑な形式報酬の設計については今後の課題とする。

さらに、DeepSeek-R1に従い、ニューラルネットワークによる報酬モデルの訓練も行っていない。この選択は以下の理由による：

LLMは報酬の形式に対して過敏に反応するため、設計を誤ると学習が不安定になる可能性があること

ニューラル報酬モデルの再学習には計算コストと実装の複雑さが伴うこと

結果

データセット

検索と推論の複合課題を広範にカバーすべく下記のデータセットを用いた

一般的な質問応答（General Question Answering）

NQ（Natural Questions）
TriviaQA
PopQA

マルチホップ質問応答（Multi-Hop Question Answering）

HotpotQA
2WikiMultiHopQA
Musique
Bamboogle

ベースライン

検索なしの推論

直接推論（Direct inference）
Chain-of-Thought（CoT）推論

検索ありの推論

Retrieval-Augmented Generation（RAG）
IRCoT
Search-o1

ファインチューニングに基づく手法

教師ありファインチューニング（SFT）
検索エンジンなしでRLによってファインチューニングされたもの（DeepSeek-R1の手法）

実験設定

Qwen-2.5-3b (Base / Instruct) および Qwen-2.5-7B (Base / Instruct)を利用

検索には 2018年版のWikipediaダンプ。

Retriever (Embedding)にはE5 (Text embeddings by weakly-supervised contrastive pre-training) を利用

手法比較の公平性を保つため、全ての検索ベースの手法で取得する件数を3件に固定

NQとHotpotQAの訓練データセットを統合し、Search-R1および他のファインチューニングベースの手法の共通データセットとして利用

評価指標には Exact Match を使用

推論ベースのベースラインについては、Instructモデルを使用する。Baseモデルは指示に従えないため。RLによるチューニング手法に関してはBaseモデルとInstructモデルの両方で実験を行った

パフォーマンス

SEARCH-R1は強力なベースラインを一貫して上回る

Qwen2.5-7Bモデルで41%、Qwen2.5-3Bモデルで20%の平均相対性能向上を達成している。
これは、インドメイン評価（NQ, HotpotQA）およびアウトオブドメイン評価（それ以外）の両方で確認されている。

SEARCH-R1は、検索を含まない推論ベースのRL手法（R1）よりも優れている

検索を組み込むことで、関連する外部知識にアクセスできるようになり、性能が向上しているのは想定通りである。

SEARCH-R1はBaseモデル・Instructモデルの両方で効果的である

これは、DeepSeek-R1-ZeroスタイルのRL（成果ベースの報酬）が、検索を伴う推論にも適用可能であることを示している。つまり、純粋な推論タスクだけでなく、検索統合型推論にも拡張できることを意味する。

より大きなモデルは、検索の仕方をよりうまく学習できる

特にQwen2.5-7Bモデルでは、RAGなどの次点モデルに対して大きな性能差が観測されており、7Bモデルのほうが3Bモデルよりも検索能力の学習に優れていることが示唆されている。

分析

PPO vs. GRPO

GRPOは全てのケースでPPOよりも収束が早い

PPOは critic model に依存しており、有効な学習が始まる前にウォームアップステップが必要であるため、初期の学習は遅い

PPOはより高い学習安定性を示す

GRPOは多くのステップを経た後に報酬の崩壊が起きるのに対し、PPOは安定して推移している

収束スピードや安定性に差があるものの、最終的な報酬や性能には大きな差はなかった

安定性に優れるPPOが、この実験設定においては望ましい選択だといえる

Baseモデル vs. Instructモデル

Instructモデルの方が収束が早く初期性能も高かったが、最終的な報酬はほぼ同等。

下記のことが示唆される

Instructモデルのような post-training は推論+検索の学習において初期の加速には有効

RLは時間をかけてその差を埋めることが可能であり、Baseモデルでも十分な性能に達することができる

応答長と有効な検索呼び出しに関する分析

初期段階（最初の100ステップ）

応答長は急激に短くなり、報酬はわずかに上昇
ベースモデルが不要な冗長語を削減し、タスク要件への適応を開始している

後期段階（100ステップ以降）

応答長および報酬はともに大きく増加
モデルは検索エンジンを頻繁に呼び出すことを学習し、取得パッセージの影響で応答が長くなる

取得トークンの損失マスキングに関する検証

検索エンジンから取得したトークン部分に関するマスキングの効果比較。

マスキングをした方が意図しない学習効果を抑制しつつ安定した訓練を実現できている。

結論

従来のRAG的手法がマルチターン検索のために長いプロンプトに依存していたり、ツール使用型の手法が大規模な教師ありデータを必要としていたのに対し、Search-R1はRLによってロールアウトを最適化することで、自律的なクエリ生成と戦略的な情報利用を可能にしている。

7つのデータセットにおける広範な実験を通じて、Search-R1がリアルタイム外部知識を必要とする複雑な推論タスクにおいてLLMの能力を大きく向上させることを示した

今後の展望としては、SEARCH-R1を以下の方向に拡張することが考えられる

より洗練された報酬設計

不確実性に応じた動的な検索調整

多様なツールとの連携

検索以外の多様な情報源との統合

マルチモーダル推論タスクへの応用可能性の検討

Post on X