2025-04-15 機械学習勉強会

2025/4/14 15:132025/4/16 11:00

今週のTOPIC [lib] FastAPI-MCP [slide] NLP2025 参加報告会 / NLP2025 [blog] Introducing GPT-4.1 in the API [blog] 生成AIの構造化出力において、フィールドの順番や命名が重要 [論文] Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [blog] Agentforce: Scaling Agentic AI for Enterprise Automation & Observability—Powering 2 Billion Predictions Monthly [blog] LLMを活用した商品検索タグ自動生成とRecall改善の取り組み(BigQuery × Gemini)[論文] ConceptFormer: Towards Efficient Use of Knowledge-Graph Embeddings in Large Language Models [論文] SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills [論文] SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [論文] VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning メインTOPIC OLMoE: Open Mixture-of-Experts Language Models 背景 MoEについて事前学習全体的な結果設計ごとの検証実験事前学習の設定 MoE分析

今週のTOPIC

@Naoto Shimakoshi

[lib] FastAPI-MCP

FastAPIサーバーを簡単にMCP化出来る

インストール

以下をするだけでにMCPサーバーができる

エンドポイントで取得できるOperation (Tool)を制限できたりする

使う時は、でを入れるだけ。

[slide] NLP2025 参加報告会 / NLP2025

SansanさんのNLP参加報告スライド。自身の発表と面白かった発表についてのまとめ。

ニュース記事に登場する会社名がどの法人番号の会社とマッチするかを判定する論文を自身で発表

同名別企業がある場合が課題
cosine類似度で今までやっていたが、GPTでやるようにしたことで、0.21 → 0.86に正解率が向上

自己修正に基づく固有表現抽出モデルの指示学習

旭化成さんの研究
課題：生成モデルの方が近年では抽出モデルより高性能と報告されていることがあるが、依然として抽出モデルの方が高性能なケースが多い。要因の一つとして生成モデルの場合は抽出エラーが発生。

抽出エラーの分類。本論文ではFalse Positiveの場合に焦点を当てる。

過抽出

スパンの部分不一致に起因

抽出不足

スパンの部分不一致に起因

ラベル

エンティティのラベルが間違い

スパン + ラベル
修正不可

それ以外
ハルシネーションとかもこれ？

対策：Instructoin Tuningする過程でSelf-Refinementを同時に学習させることで抽出エラーを減らす。

gemma-2-2b-itをInstruction Tuning
固有表現抽出、スパン抽出、エンティティ型推定を同時に学習

InstructUIEに則った手法

それに加え、生後判定、エラー分類も生成するように学習 (Self-Verification)し、上の結果と照らし合わせて修正後の固有表現も生成 (Self-Correction)

結果

Self-Correction w/ Oracle SVはSVが100%の精度だった時の結果

@Yuya Matsumura

[blog] Introducing GPT-4.1 in the API

新しいGPTファミリーのGPT4.1 が出るよ！

GPT-4.1
GPT-4.1 mini
GPT-4.1 nano

npakaさんの日本語記事をどうぞ。

4oシリーズと比べて早くて賢いよ！ベースモデルはこれになりそう。

コーディング能力大幅アップ！

指示追従能力大幅アップ！

ここがでかいように思う。指示した通りに出力してくれる能力が上がったのでプロダクトで使いやすい。

・フォーマットの追従
モデルのレスポンスにXML、YAML、Markdownなどのカスタムフォーマットを指定する指示を提供します。
・否定的な指示
モデルが避けるべき動作を指定します。
(例:「ユーザーにサポートへの問い合わせを求めないでください」)
・順序付き指示
モデルが特定の順序で実行しなければならない一連の指示を提供します。
(例:「まずユーザーの名前を尋ね、次にメールアドレスを尋ねてください」)
・コンテンツ要件
特定の情報を含むコンテンツを出力します。
(例:「栄養プランを作成するときは、必ずタンパク質の量を含めてください」)
・ランキング
出力を特定の方法で順序付けます。
(例:「人口数でレスポンスを並べ替えてください」)
・過信
要求された情報が利用できない場合、またはリクエストが特定のカテゴリに該当しない場合に、「わかりません」などの返答をモデルに指示します。
(例:「答えがわからない場合は、サポート担当者のメールアドレスを入力してください」)

ロングコンテキスト

最大100万トークン（4oは128,000）
長いコンテキストだけど全体をちゃんと認識できるように学習したとのこと。
コンテキストの長さがどうであっても、コンテキストのどこに”針”があっても探せている図

より現実世界に即したベンチマークであるOpenAI-MRCRをオープンソース化

コンテキストに巧妙に隠された複数の針を検出し、それらの曖昧性を解消するモデルの能力をテストします。評価は、ユーザーとアシスタントの間で複数ターンの合成会話で構成され、ユーザーは「バクについての詩を書いてください」や「岩についてのブログ記事を書いてください」など、あるトピックに関する文章を要求します。次に、コンテキスト全体に2つ、4つ、または8つの同一のリクエストを挿入します。モデルは、特定のインスタンスに対応する応答（例：「バクについての3番目の詩をください」）を取得する必要があります。

課題は、これらのリクエストとコンテキスト全体の類似性にあります。モデルは、詩ではなくバクに関する短編小説、あるいはバクではなくカエルに関する詩といった微妙な違いによって簡単に誤解してしまう可能性があります。「GPT-4.1」は、コンテキスト長が128,000トークンまで「GPT-4o」よりも優れており、100万トークンまで高い性能を維持することがわかりました。