2025-07-11 機械学習勉強会

2025/7/9 13:442025/7/14 17:44

今週のTOPIC [blog] LLMの構造化出力における比較実験 [doc] Structured Outputs [Slide] AI技術共有会2025-06-05_DeepResearchの理解と実践 [blog] A Developer’s Guide to Building Scalable AI: Workflows vs Agents [論文] AI4Research: A Survey of Artificial Intelligence for Scientific Research メインTOPIC Small Language Models are the Future of Agentic AI 概要 Introduction Agentic AIの急速な成長現在の技術的基盤経済的投資の現実問題提起 Position 定義主張詳細説明 Position Arguments A.1 SLMs are already sufficiently powerful for use in agents A.2 SLMs are more economical in agentic system A.3 SLMs are more flexible A.4 Agents expose only very narrow LM functionality A.5 Agentic interactions necessitate close behavioral alignment A.6 Agentic systems are naturally heterogeneous A.7 Agentic interactions are natural pathways for gathering data for future improvement Alternative Views AV1: LLM汎用モデルは常に一般的言語理解の優位性を保つ AV2: 集中化による経済的優位性でLLM推論の方が安価 AV3: 等しく可能な世界 (?)Barriers to Adoption B1: 集中化されたLLM推論インフラへの大規模な前払い投資 B2: SLM訓練、設計、評価における汎用ベンチマークの使用 B3: 人気認知度の欠如 LLM-to-SLM Agent Conversion Algorithm S1: Secure usage data collection.S2: Data curation and filtering S3: Task clustering S4: SLM selection S5: Specialized SLM fine-tuning.S6: Iteration and refinement

今週のTOPIC

※ [論文] [blog] など何に関するTOPICなのかパッと見で分かるようにしましょう。

技術的に学びのあるトピックを解説する時間にできると🙆（AIツール紹介等はslack channelでの共有など別機会にて推奨）

出典を埋め込みURLにしましょう。

@Shun Ito

[blog] LLMの構造化出力における比較実験

LLMの構造化出力がプロンプトでどう影響するかを調べたブログ

タスク

評価対象の文章について、与えられた5つの評価基準がどのくらい準拠しているかを5段階（低いほど無関係）で回答
与えられる評価基準は全て無関係なものなので、いずれも無関係 = 1 で答えるべき想定

評価対象の文章

基準となるプロンプト

実験

プロンプト・スキーマのパターン

	プロンプト	スキーマ
実験1（ベースライン）	評価基準を含めない	descriptionなし。キー名はq1, q2, …
実験2	評価基準を含めない	各キーのdescriptionに評価基準を記述
実験3	評価基準を含めない	キー名自体を評価基準の全文にする
実験4	評価基準を明記	キー名も評価基準の全文
実験5	q1: （評価基準1）, … のように簡潔なキーと指示内容を明確に対応づけて提示	descriptionなし。キー名はq1, q2, …

例

結果

モデルごとの平均スコア。正解は全て1.0。実験1は評価基準を知らないまま回答

成功率の高かった方式

実験3: フィールド名指示（フィールド名だけで指示）
実験4: 二重指示（プロンプトとフィールド名の両方で指示）
実験5: キー対応指示（プロンプトに対応関係、フィールド名はq1, q2, …のみ）

メンテナンス性・プロンプトの簡潔さを踏まえるとこれがベストっぽい

@Yosuke Yoshida

[doc] Structured Outputs

久しぶりにみてみたら、Open AIのStructured Outputsがリリース直後の頃からいろいろ変わってた

Supported properties

string に指定可能なformat (最初はdateとか指定できなかった)

, , , , , , , ,

A schema may have up to 5000 object properties total, with up to 5 levels of nesting.

ネストが5階層までという制限は最初から変わっておらず

Definitions are supported

便利

ベスプラ的なの

All fields must be required
additionalProperties: false must always be set in objects

@Takumi Iida (frkake)

[Slide] AI技術共有会2025-06-05_DeepResearchの理解と実践

Deep Researchの仕組みと活用方法について、LangChainのDeep Reseachを出発としつつ、ChatGPTやGeminiではどうでありそうかといったことが書かれている。

Deep Researchで行っていること

Planning どのような観点やサブトピックを調べればよいかの計画を立てる

ChatGPT：ユーザに確認

Gemini：リサーチプランのたたき台を作成

Searching 逐次的な推論を行いながら、情報を判断・選別して次のアクションを決定

Reasoning 検索で得た断片的な情報を内部で統合的に推論・分析。適宜計算ツールやコードの実行も行う。

ChatGPT o3：情報源の記述を照合して矛盾を検出したり、背景にある要因を説明したりする

Gemini：長大なコンテクストウィンドウとRAGを構成

Reporting 多角的な観点に基づいて包括的なレポートに統合

Deep Researchを効果的に使うために

使い方のコツ (Gemini)

https://blog.google/products/gemini/tips-how-to-use-deep-research/

Deep Researchが必要なタスクか判断

簡単な質問から始める

フォローアップの質問をする

参照している興味深いリンクをチェックする

ローカルな質問を試す地域についてだったり、家のリフォームをするのに地元企業を使いたいだったりの調査

音声やGoogle Docsにエクスポートする音声出力とインフォグラフィック出力すごいなと思ってます

プロンプトの設計

https://www.linkedin.com/pulse/prompt-engineering-guide-deep-research-chatgpts-max-van-den-broek-9itwe

ゴールを明確かつ具体的に設定する

コンテキストと制約を設定する「XXXX年〜YYYY年の範囲で調べて」

クエリを分解する調査内容を具体的に列挙する

Deep Researchの苦手タスク

@Hiromu Nakamura

[blog] A Developer’s Guide to Building Scalable AI: Workflows vs Agents

workflowとagentどっちを採用するかの話。

(pon: ここでの”Agent”は複数ツールを与えて複雑なタスクを自立判断で動くものという理解。

技術的な違い • ワークフロー：手順が明確で予測可能、デバッグしやすい。 • エージェント：自律的に判断し柔軟だが、制御やコスト管理が難しい。

判断フレームワーク

タスクの複雑さ、ビジネス価値、信頼性、技術・組織の成熟度など5つの観点で点数化し、ワークフローかエージェントかを判断する。

1. タスクの複雑さ（2点）

手順が明確で80%以上のケースをカバーできる場合 → ワークフローに+2点
曖昧さや動的な分岐が多い場合 → エージェントに+2点

2. ビジネス価値と処理量（2点）

高頻度・コスト重視の運用 → ワークフローに+2点
低頻度だが1件あたりの価値が高い場合 → エージェントに+2点

3. 信頼性要件（1点）

一貫性・追跡性が必須（監査、レポート、医療など） → ワークフローに+1点
多少の出力の揺らぎが許容される（クリエイティブ、カスタマーサポートなど） → エージェントに+1点

4. 技術的な準備状況（2点）

従来型の監視・ログ・開発体制のみ → ワークフローに+2点
エージェント特有の監視やコスト管理、AI挙動の理解がある → エージェントに+2点

5. 組織の成熟度（2点）

プロンプト設計やLLMの挙動にまだ慣れていない → ワークフローに+2点
分散システムや動的推論の経験が豊富 → エージェントに+2点

判定方法

ワークフローの合計点が6点以上 → ワークフローを選ぶのが無難
エージェントの合計点が6点以上 → エージェントも現実的な選択肢

ハイブリッド型のすすめ

基本はワークフローで安定運用し、必要な部分だけエージェントを使う「ハイブリッド型」が現実的で効果的。

結論 → まずはワークフローから小さく始めようぜ！

@ShibuiYusuke

[論文] AI4Research: A Survey of Artificial Intelligence for Scientific Research

Paper List: ‣

Awesome AI4Research: ‣

LARG, Research Center for Social Computing and Interactive Robotics, Harbin Institute of Technology, School of Computer Science and Engineering, Central South University, The University of Hong Kong, Independent Researcher, Fudan University, Chinese University of Hong Kong, ByteDance Seed (China)

AI for Scientific Comprehension

目的：単一の科学文献から関連情報を抽出し、解釈し、統合するAIシステムの能力。人間の知識獲得の加速と自動分析の効率向上。
テキスト科学的理解:

半自動科学的理解: 手動で作成された質問に基づき、AIが長文の科学コンテンツから包括的な理解を生成。
完全自動科学的理解: 人間の質問や介入なしにAIシステムが科学的知識を自律的に読み解くこと。LLMによる科学論文要約の自律生成と、それに基づく研究の包括的記述の構築によるモデルの全体的理解の深化。AIによる自己質問や自己反省を通じた科学コンテンツ理解の深化。

表・グラフの科学的理解: 科学文献内の表やグラフから情報を抽出・理解するAIの能力。構造的および論理的理解におけるLLMの能力を評価するベンチマークの開発。

AI for Academic Survey

目的：複数の既存文献を体系的にレビューし、研究領域の包括的な概要を提供するAI技術の応用。研究者や自動システムが分野の最新の進歩を把握し、自身の研究に関連する研究を効率的に特定することの重要性。
関連研究の検索:

検索支援型生成（Retrieval-Augmented Generation）の活用による、言語モデルの知識ベースやコンテキストウィンドウの限界を超えるクエリに対する外部ツールの呼び出しと正確な出力の確保。
マルチエージェントシステムによる文献レビューの検索と生成のサブタスクへの分割、キーワード抽出や結果の再ランク付けを通じたリコール率の向上。

概要レポートの生成:

研究ロードマップのマッピング、セクションレベルの関連研究の生成、およびドキュメントレベルの調査生成を通じたAIによる調査レポートの生成。
AIエージェントによる探索から統合、引用の多いレポートの生成まで、エンドツーエンドの研究プロセスを自律的に実行する「深層研究」への進化。

AI for Scientific Discovery

目的：既存の知識に基づいて新しい科学的仮説、理論、アイデアを生成および検証し、実験やシミュレーションを実施すること。アイデア生成、新規性・重要性の評価、理論分析、実験設計などのタスクの自動化による研究プロセスの加速。
アイデアマイニング: 内部知識、外部信号、チームディスカッションからのAIによるアイデア抽出。LLMエージェントによる実験スクリプトの生成とデバッグ、および仮説の反復的洗練を目的とした文学マイニングと「異常誘導」コード合成フレームワークの使用。
新規性・重要性の評価: 研究の革新性を評価するAIシステムの能力の体系的探求。
理論分析: 仮説が確立された科学的原則と整合しているかを確認するための、科学的声明の形式化、証拠収集、理論検証、定理証明といった方法の使用。
実験実施: 科学実験の実行と管理へのAI技術の適用。ワークフローの自動化と効率的かつ正確な実験の保証。自動機械学習実験実施や実世界実験の自動化。
完全自動発見: 仮説生成から実験設計、自律実行、結果分析、反復フィードバックまでの科学プロセス全体をAIが自動化する能力。

AI for Academic Writing

目的：科学論文の作成、修正、書式設定を研究者が行うのを支援し、学術執筆の質と効率を向上させること。原稿が適切に構成され、出版基準に準拠していることの保証。
半自動学術執筆: 執筆の各段階でAIツールが支援を提供し、人間の入力と監視を必要とすること。原稿準備段階（タイトル生成、論理構造のガイダンスなど）、原稿執筆段階（図や表の作成、数式の転写、引用の推奨・統合など）、原稿完成後段階（文法修正、表現・論理的修正など）での支援。
完全自動学術執筆: AIシステムが科学論文を人間からの直接的な介入なしに生成する能力。

AI for Academic Peer Reviewing

目的：査読プロセスを自動化および強化する重要なコンポーネント。科学論文に対して構造化された客観的で建設的なレビューを提供し、レビューサイクルの質と効率を向上させること。
プレレビュー: デスクレビュー（原稿の出版基準への準拠性の評価）や査読者マッチング（適切な査読者の特定）といった準備段階のタスクのAIによる完了。
インレビュー: ピアレビュー（レビューレポートの生成または補強）やメタレビュー（複数のピアレビューを統合し、結論を導き出す）のAIによる支援。
ポストレビュー: 論文の影響分析やプロモーション強化といった査読後の分析のAIによる支援。

AI4Researchが直面する倫理的課題、安全性、および透明性に関する重要な考慮事項は、この分野の継続的な発展のために極めて重要。

倫理的懸念とバイアスの軽減

AIシステム内の倫理的懸念やバイアス（偏見）への対処の不可欠性、研究における公平性と透明性の確保
大規模言語モデル（LLMs）の出力を「自己デバイアス」することによる公平性の確保の模索
因果モデルを用いた透明性・説明可能性のある意思決定のための公平なデータ生成を通じたバイアスの軽減
LLMが人間のような直感的な行動や推論バイアスを示す可能性
AI支援による学術論文執筆における倫理的利用に関する提言と、AIが生成した研究における盗用（plagiarism）のリスク懸念
ロボティクスや制御研究分野における「Sim-to-Real Robustness & Safety」の重要性（シミュレーションで訓練されたポリシーの実世界タスクへの確実な転送と安全性の制約遵守）
AI4Researchにおける倫理と安全性、および人間と機械の信頼と安全性の設計に関する将来の方向性としての強調
バイオテクノロジーにおけるAIの責任ある利用における、発見、革新、バイオセキュリティリスクのバランス

説明可能性と透明性

AIモデルが科学的発見を推進する上での透明性と説明可能性の確保の不可欠性
将来の研究における、特にリスクの高い科学的応用におけるモデルの解釈可能性の強化（研究者が結論や推奨の生成過程を追跡可能に）
説明可能性の取り組みの主要2カテゴリ

ホワイトボックス分析: モデルの内部構造を調査し、特定のネットワークの「回路」を概念的表現と関連付けるアプローチ
ブラックボックス分析: 内部パラメータへの直接アクセスなしにモデルを解釈することに焦点を当て、推論軌跡や集約された振る舞いを調べることで、モデルの知識表現に関する洞察を提供し、その出力をより確実に制御できるようにすること

説明可能性に残る課題

標準化されたフレームワークの欠如: AI4Researchコミュニティ全体での説明技術と評価指標の大きな差異、結果の矛盾やユーザーの信頼低下の可能性
透明性と性能のトレードオフ: 高い能力を持つブラックボックスモデルがしばしば解釈可能性を犠牲にする一方、本質的に透明なモデルは性能が劣る場合があること。このジレンマが科学的採用を複雑にし、新しい出力が真の発見なのか、既存のデータの再結合なのかについて不確実性を生じさせること

科学的実験における「厳密性（rigor）」の確保と、過大な主張（overstated claims）に対処するためのモデルの解釈可能性の強調

個人的な感想

今後もAIをリサーチに有効活用するケースは増えていくし、有用な手法はどんどん取り入れていきたい。
AI4Researchを効果的に活用するためのソフトウェアやシステム、リサーチ環境整備やプラクティス化（Research DevOps的な？）とかできると面白そう。

メインTOPIC

Small Language Models are the Future of Agentic AI

タイトル	Small Language Models are the Future of Agentic AI
著者	Peter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov
所属	NVIDIA Research Georgia Institude of Technology
リンク	https://arxiv.org/abs/2506.02153
関連ページ	https://research.nvidia.com/labs/lpr/slm-agents/

概要

大規模言語モデル（LLM）は、幅広いタスクで人間に近いパフォーマンスを示すことで賞賛され、一般的な会話を行う能力で評価されている。

しかし、エージェント型AIシステムの台頭により、言語モデルがそんなにバリエーションのない特化したタスクを反復的に行うようなシステムが出てきた。

ここでは、小さな言語モデル（SLM）は、エージェント型システムにおける多くの呼び出しに対して十分に強力であり、本質的に適しており、必然的に経済的であることを明らかにする。

本論文では、汎用的な会話能力が不可欠な状況においては、複数の異なるモデルを呼び出すエージェントが自然な選択であり、SLMをエージェントシステムに採用する際の潜在的な障壁について議論しつつ、一般的なLLMからSLMへのエージェント変換アルゴリズムを概説する。

Introduction

Agentic AIの急速な成長

市場の現状

大企業IT企業の半数以上がAIエージェントを積極的に使用し、そのうち21%が過去1年以内に導入

2024年末時点で、Agentic AI分野は20億ドル以上のスタートアップ資金を獲得

市場価値は52億ドル、2034年までに約2000億ドルに成長予測

現在の技術的基盤

LLM中心のアーキテクチャ

現代のAIエージェントの中核は（非常に）大規模言語モデル

LLMが提供する基礎的知性により、エージェントは以下が可能

利用可能なツールの使用時期と方法に関する戦略的判断
タスク完了に必要な操作フローの制御
複雑なタスクの管理可能なサブタスクへの分解
アクション計画と問題解決のための推論

運用モデル

典型的なAIエージェントは、選択したLLM APIエンドポイントと通信

中央集権的クラウドインフラストラクチャを介してリクエストを処理

この運用モデルが業界に深く根付いている

経済的投資の現実

投資と市場のギャップ

LLM APIサービス市場：2024年で56億ドル

ホスティングクラウドインフラへの投資：同年570億ドル

10倍の格差が存在するが、これは以下の前提で受け入れられている

この運用モデルが業界の基盤として継続
大規模初期投資が3-4年以内に従来のソフトウェア・インターネットソリューション並みのリターンを生む

問題提起

generalist LLMでシングルトン選択されるという慣習に対して異議を唱える。本論文では、SLMこそがAgentic AIの未来であるということを主張

Position

定義

WD1 (SLMの定義)

一般的な消費者向け電子機器に搭載可能

一人のユーザーのエージェント型リクエストに対して実用的に十分低いレイテンシで推論を実行可能

WD2 (LLMの定義)

SLMではない言語モデル

2025年現在では10Bモデル以下はSLMと主張

主張

V1: 原理的十分性

SLMはエージェント型アプリケーションの言語モデリング業務を処理するのに原理的に十分強力

V2: 運用適合性

SLMはLLMよりも本質的により運用に適している

V3: 経済的必然性

SLMは、そのサイズの小ささにより、エージェント型システムにおける言語モデル使用の大部分において汎用LLMよりも必然的により経済的

詳細説明

現状批判

LLMのAIエージェント設計における支配は過度で誤った方向

LLMは印象的な汎用性と会話流暢性を提供するが、展開されたエージェント型システムの大部分のサブタスクは反復的で範囲が限定的で非会話的。

SLMの優位性 このような文脈では、SLMが十分であるだけでなく、しばしばより好ましい

より低いレイテンシ

メモリと計算要件の削減

大幅に低い運用コスト

制約のあるドメインで適切なタスク性能を維持

実用的観点

システムは複雑な目標をモジュラーなサブタスクに分解

各サブタスクは専門化またはファインチューニングされたSLMで確実に処理可能

すべてのタスクにLLMを利用することは計算リソースの誤配分

異種エージェント型システムの提案 (複数のLMを使うシステムのこと)

SLMをデフォルトで使用

LLMを選択的かつ控えめに呼び出し

この組み合わせにより、コスト効率と能力を両立したエージェント構築が可能

道徳的観点 LLM中心からSLMファーストアーキテクチャへの移行は：

技術的改善だけでなくヒューム的道徳的義務でもある

ヒュームの法則：https://ja.wikipedia.org/wiki/ヒュームの法則

インフラストラクチャコストの上昇と環境問題への対応

責任あるAI展開の促進

Position Arguments

A.1 SLMs are already sufficiently powerful for use in agents

Scaling Lawは依然として観察されるが、スケーリング曲線がより急峻になっている

新しい小規模言語モデルの能力は、以前の大規模言語モデルにはるかに近づいている

適切に設計されたSLMは、以前ははるかに大きなモデルでのみ達成可能とされていたタスク性能を満たすか上回る

以下のモデルの研究において大規模モデルと広範に比較されているが、ベンチマークの全ての能力がAgent的な文脈での展開に不可欠であるとは限らない。重要なのは以下の能力

コモンセンス的な基本的な理解力
tool call能力とコード生成能力 (model → tool/codeのインターフェースの能力)
指示追従能力 (code ← modelに正しく返答する能力)

Microsoft Phiシリーズ

Phi-2（2.7Bパラメータ）：30Bパラメータモデルと同等の常識推論・コード生成スコアを約15倍高速で実現

Phi-3 small（7Bパラメータ）：同世代の最大70Nパラメータモデルと同等の言語理解・常識推論・コード生成

NVIDIA Nemotron-Hファミリー

200M/480M/900MパラメータのハイブリッドMamba-Transformerモデル

同世代の密結合30BパラメータLLMと同等の指示追従・コード生成精度

推論FLOPsは1桁少ない

Huggingface SmolLM2

125M-1.7Bパラメータで14Bラメータの同時代モデルに匹敵し、2年前の70Bパラメータモデルに相当

DeepSeek-R1-Distillシリーズ

1.5-8Bパラメータでコモンセンス推論能力が高い

DeepSeek-R1-Distill-Qwen-7Bモデルは、Claude-3.5-Sonnet-1022やGPT-4o-0513を上回る

DeepMind RETRO-7.5B

Retrieval-Enhanced Transformer (RETRO)は、広範な外部テキストデータベースで補強されたモデル。言語モデリングにおいてGPT-3 (175B)に匹敵する性能。

Salesforce xLAM-2-8B:

8BパラメータでGPT-4oやClaude 3.5を上回るツール呼び出し性能

A.2 SLMs are more economical in agentic system

Inference efficency

7BパラメータSLMの提供は70-175BパラメータLLMより10-30倍安価

レイテンシ、エネルギー消費、FLOPsすべてで優位

NVIDIA Dynamoなどの推論システムが整ってきてるので、リアルタイムでのエージェント型レスポンスが大規模で可能。SLMであればGPUを並列化したりする必要もない。

Fine-tuning agility

LoRAやQLoRAなどのパラメータ効率的ファインチューニングやSLMのフルパラメータファインチューニングであれば数GPU時間で可能

一晩で動作の追加・修正・専門化が可能

Edge deployment

ChatRTXなどのオンデバイス推論システムによるConsumer向けGPUでのローカル実行

より低いレイテンシとより強力なデータ制御を持つリアルタイム・オフラインエージェント型推論が可能に

Parameter Efficiency

LLMは大量のパラメータを持つが、単一入力に対して実際に使用されるのは一部のみ

SLMではこの動作がより抑制されており、より効率的である

Moduler System Design

Agentic AI Needs a Systems Theory という論文では、さまざまなサイズのモデルを活用するアプローチは、実世界の非均質性とも一致しているので、主要なソフトウェア開発フレームワークに既に組み込まれていると述べられている

Modulerに組み立てることは、新しいスキルの追加や変化する要件に適応する能力を可能にする

A.3 SLMs are more flexible

適応能力

低い事前訓練・ファインチューニングコスト: 複数の専門エキスパートモデルの訓練・適応・デプロイが実用的

迅速な適応: 進化するユーザーニーズ、新しい行動、新しい出力フォーマット要件、変化する地域規制への対応

民主化効果

参加拡大: より多くの個人・組織がLMデプロイメントに参加可能

多様性: より多様な視点と社会的ニーズの表現

システミックバイアス軽減: 競争と革新の促進

分野の迅速な進歩: より多くの開発者が参画することによって進展が早くなる

A.4 Agents expose only very narrow LM functionality

LLMの能力としては広範な能力があるが、Agentではコードの生成や特定のフォーマットでの応答のみに役割が閉じている。

(そもそもAgentでは十分に簡単なサブタスクに問題を切り出すべき)

そのために大量のプロンプトを書いたり、コンテキストを丁寧に管理したりしてるが、それなら固定されたプロンプトでファインチューンされたSLMで十分な精度が出る。

A.5 Agentic interactions necessitate close behavioral alignment

AI Agentはコードと頻繁にやり取りを行うが、それを上手く行うためには厳密なフォーマットに常に適合することが重要。

このため、AI Agentでは単一のフォーマットを出力するように事後学習されたSLMを用いることが望ましい。

A.6 Agentic systems are naturally heterogeneous

LM自体が他のLMに呼び出されることが発生する。

左側だとRoot AgencyのモデルはLLMだが、下位モデルはSLMを使うことができ、右側の設計だと全てのモデルがSLMになり得る

A.7 Agentic interactions are natural pathways for gathering data for future improvement

Agentの呼び出しによって副産物的に収集されたデータは後々の専門的なSLMを学習させるためのデータを集める有用な基盤になり得る (上記のlogger)

これによって最初は全てに高価なLLMを使用していたが、専門taskは安価なSLMで処理するといった流れが可能になる。

Alternative Views

SLMがAgentic AIの未来という立場に対する主要な反対意見とそれに対する反論

AV1: LLM汎用モデルは常に一般的言語理解の優位性を保つ

反対意見

LLMはテキスト生成、翻訳、推論といった一般的な自然言語タスクで、同じアーキテクチャで訓練されたSLMやこれらのタスクに特化してフルスクラッチで学習されたSLMより無視できないレベルで性能差がある。

LLMはSemantic Hub (異なるモダリティのデータを扱う能力) の一面があるが、そのような能力がSLMにはない。

著者の反論

A8: アーキテクチャの考慮不足

従来のスケーリング法則の問題点として同一モデルではアーキテクチャを固定している。

SLM訓練の最近の研究は、異なるモデルサイズに対して異なるアーキテクチャを考慮することで明確な性能利益があることを実証。

A9: ファインチューニングの柔軟性

タスクに対して容易にファインチューニング可能で望ましい信頼性レベルまで性能向上可能であり、これはScaling Lawの研究では考慮されていない要素。

A10: 推論時計算スケーリング

推論時のテストタイムスケーリングがより手頃なので、推論時に望ましい信頼性レベルまで合理的にスケーリング可能。

A11: Semantic Hubの実用性への疑問

Semantic Hubの有用性は複雑なタスクや入力を処理する際に現れるが、高度なAgent Systemは問題分解を行うよう設計されている。結果として、SLM呼び出しは適切に細分化された単純なサブタスクになるので、汎用的な抽象理解はほとんど実用性がない。

AV2: 集中化による経済的優位性でLLM推論の方が安価

反対意見

SLMを特化させると使われない時間もあったりと負荷分散が困難になる。

SLMは追加でインフラコストや維持管理などの人件費コストが発生する

著者の反論

(ちょっと反論としては弱い)

A12: 推論システムの技術進歩

推論スケジューリングやモノシリックな計算クラスターで推論システムなど、技術進歩が進んでいる

A13: インフラセットアップコストの低下傾向

推論インフラのセットアップコストは技術的に一貫して低下傾向

AV3: 等しく可能な世界 (?)

反対意見

SLMを使うSystemとLLMを使うSystemはどちらも実現可能ではあるが、後者の方が先行優位性がある。

著者の反論

反対意見として妥当だと思うが、A1 -A7の主張で十分覆せると考えている。

Barriers to Adoption

本当にA1-A7が妥当なのであれば、現代のAgentはLLMが使われ続けているのか、という疑問に対する答え

B1: 集中化されたLLM推論インフラへの大規模な前払い投資

Introで語ったように市場と投資に10倍の開きがあるほど投資されている。

これはLLM推論が将来のソフトウェアの中心になるという前提で行われているため、より分散化されたSLMやオンデバイス推論が重要であるという考察が省略されてしまっている。

B2: SLM訓練、設計、評価における汎用ベンチマークの使用

現状LLM設計の手法をそのまま採用した上で、同じ汎用ベンチマークで評価しているため、Agent用途での有用性を見落としがち。

汎用ベンチマークは汎用的な言語理解タスクを解いてるが、実際に必要なのは特化されたAgent機能であり評価が乖離している。汎用LLMとしてどれだけ優秀かではなく、Agentタスクでどれだけ有用かを測定するべき。

NVIDIAのHymba: A Hybrid-head Architecture for Small Language Modelsでは、Agentの有用性を測定するタスクのみに焦点を当てたら、SLMがより大きなモデルを上回る性能を示した。

B3: 人気認知度の欠如

産業的なシナリオでの実用性の割にあまりマーケティングされていない

LLM-to-SLM Agent Conversion Algorithm

既存のLLMベースのエージェントを実際にSLMsに転換するための具体的な6段階のアルゴリズム

S1: Secure usage data collection.

HCI (Human-Computer-Interaction)以外のデータは全て収集するべき。

prompt, outputレスポンス, tool callの中身
optionalとして後々の指標としてlatency

匿名化とか暗号化はちゃんとする

S2: Data curation and filtering

10k - 100kの例でSLMのファインチューニンングには十分

PIIやPHI、その他の機密データをデータからクリーニングする

そうでなければユーザ間でのデータLeakが発生する可能性がある。

S3: Task clustering

Agentが行ったTaskのクラスタリングをpromptやAgentのアクションから行う。

どこのタスクに特化したSLMを作るかの指標になる。

S4: SLM selection

固有の能力 (指示追従性、推論能力、コンテキストサイズ)やライセンスなどで選ぶ。お勧めは、3章で紹介したモデル

S5: Specialized SLM fine-tuning.

LoRAやQLoRAで学習。

最大限の適応が必要な場合はフルファインチューニングも検討する。

LLMの出力からの知識蒸留も有用。

S6: Iteration and refinement

継続的改善サイクルを作る。

Xでポスト