2024-08-22 機械学習勉強会

2024/8/22 9:592024/11/26 11:30

今週のTOPIC [blog] Kaggle 「LMSYS - Chatbot Arena Human Preference Predictions」まとめ [blog]話題のGraphRAGとは - 内部構造の解析と実用性の考察 [slide]LLM(Copilot)を最大限活用するための取り組みとその副産物 [slide] プロダクトのコードをPandasからPolarsに書き換えた話 [blog] Vertex AI PipelinesとCloud Run jobsを使って機械学習バッチ予測とA/Bテストをシンプルに実現した話 [blog]社内用AIアシスタント「おっさんずナビ」を作った話、そして人間らしく振る舞う重要性を認識した話 [論文]MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers [blog]phi3.5 [論文]Training-free Graph Neural Networks and the Power of Labels as Features [TMLR24] メインTOPIC Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models Introduction Methodology for Structured Generation Experiments Datasets Model Evaluation method Main Results 推論タスクの結果考察分類タスクの結果考察 Discussion フォーマット制限を緩めた時の影響異なるフォーマットの比較構造化フォーマットと解析エラー率

今週のTOPIC

@Naoto Shimakoshi

[blog] Kaggle 「LMSYS - Chatbot Arena Human Preference Predictions」まとめ

コンペについて

あるpromptに対して、2つのllm(model_a, model_b)の回答のどちらかが優れているか、もしくは引き分け(tie)か予測する。正解は人間が評価したデータ。評価はlogloss

特徴

DeBERTaとかだとスコアが上がらない。
Gemma2やLlama3などのLLMが有用だった。

考えられる要因

推論する対象もLLMが生成した文章である。Gemma2はLMSYSのデータをpretrainしている。

データがNoisy

データはLMSYS Chatbot Arenaでユーザーが回答したもので、同じ答えでもtieにならなかったり、promptはHey！だけのものがあったり

ベースライン

PEFTとは → 参考：huggingfaceのPEFTについて
vLLMとは → 参考：vLLMの仕組みをざっくりと理解する

上位解法が色々とやっていてllmでfine tuningしたいときに役に立ちそう。

Chris(16th)のSolutionにLLMのハイパラチューニングの手順が書いてあり、参考になる。

リソース

Gemma 7(9)bのfull fine-tuningでA100 80GとかA100 40G x 2くらいのリソース

@Yuya Matsumura

[blog]話題のGraphRAGとは - 内部構造の解析と実用性の考察

ナレッジグラフをRAGに組み込んで従来のRAGの課題を解決するぞ！

従来のRAGの課題

「〇〇に関係しそうなものは主に何ですか？」（〇〇は知っている情報だが、何が関係しているかは不明）「〇〇は△△によってどうなりましたか？」（〇〇と△△はゆるいつながり）

ナレッジグラフは(主語、述語、目的語)のトリプレットをentityとedgeの関係としてグラフ構造で保持する。

GraphRAGではentityやedge、および関係性の深いサブグラフをまとめた単位である「コミュニティ」ごとに要約を作成してインデクシングしておくことで、うまいことRetrievalする。

検索には２種類

グローバルサーチ

Q:"この時代の日本の統一過程において、武将たちはそれぞれどのような役割を果たしましたか？”

SUCCESS: Global Search Response: ### 日本の統一過程における主要な武将たちの役割

日本の戦国時代から江戸時代にかけての統一過程において、複数の武将たちが重要な役割を果たしました。以下に、主要な武将たちの役割とその影響をまとめます。

織田信長織田信長は、戦国時代において天下統一を目指した大名であり、数々の戦闘や政治的戦略を通じて権力を拡大しました。彼は桶狭間の戦いで今川義元を撃破し、松永久秀の反乱を鎮圧するなどして勢力を強化しました [Data: Reports (233, 161, 260, +more)]。信長の政策や戦略は後の豊臣秀吉や徳川家康に大きな影響を与え、彼の死後もその影響力は続きました [Data: Reports (227, 267)]。

豊臣秀吉豊臣秀吉は、信長の死後に権力を掌握し、豊臣政権を確立しました。彼の施策には、全国的な土地調査である太閤検地や、農民の収穫高に基づいて税を課す石高制の導入が含まれ、これらは日本の社会構造に大きな影響を与えました [Data: Reports (266, 125, 75, +more)]。また、秀吉は朝鮮出兵を行い、国際的な軍事行動を展開することで豊臣政権の維持と強化に努めました [Data: Reports (199, 126)]。

徳川家康徳川家康は、関ヶ原の戦いで東軍を指揮し、勝利を収めることで江戸幕府を樹立する基盤を築きました [Data: Reports (247, 43, 102, +more)]。彼の戦略的な指導力は日本の統一に大きく寄与し、江戸幕府の設立へとつながり、約260年にわたる平和な江戸時代をもたらしました [Data: Reports (193, 103, 107)]。

明智光秀明智光秀は織田信長の家臣として仕えましたが、1582年に本能寺の変で信長に対して反乱を起こしました。この事件は日本の歴史における重要な転換点となり、信長の死後の権力闘争に大きな影響を与えました [Data: Reports (132, 92, 121, +more)]。

武田信玄と上杉謙信武田信玄は戦国時代の有力な大名であり、徳川家康との対立を通じて家康の軍事的な成長に影響を与えました [Data: Reports (217, 64)]。一方、上杉謙信は信玄と敵対する大名として知られ、特にその軍事力は非常に強力でした。彼の戦術は後の時代にも影響を与えました [Data: Reports (217, 262)]。

結論これらの武将たちは、それぞれの戦略や政策を通じて日本の統一過程に大きな影響を与えました。織田信長の革新的な政策と軍事的成功、豊臣秀吉の全国的な施策と国際的な軍事行動、徳川家康の戦略的な指導力と江戸幕府の設立、明智光秀の反乱、そして武田信玄と上杉謙信の軍事的対立は、戦国時代から江戸時代にかけての日本の歴史を形作る重要な要素となりました。

ローカルサーチ

Q: “キンカン頭に討たれた殿の仇を討った人はその後色々禁止したようですが？”

SUCCESS: Local Search Response: # キンカン頭に討たれた殿の仇を討った人のその後

信長と光秀の関係

織田信長は、家臣である明智光秀を「キンカ頭」と呼び、満座の中で侮辱することがありました。このような非情な扱いが、光秀の反乱の一因とされています [Data: Relationships (562)]. 光秀は信長の命令で比叡山焼き討ちを実行し、その武功を上げましたが [Data: Relationships (173, 4)], 最終的には本能寺の変で信長に反旗を翻し、信長を討ちました [Data: 信長とその時代の重要な関係 (20)]。

豊臣秀吉の政策

信長の死後、豊臣秀吉が権力を掌握し、日本の統一を進めました。秀吉は信長の政策を引き継ぎつつも、自身の政権を強化するためにいくつかの重要な政策を実施しました。例えば、秀吉はバテレン追放令を発布し、キリスト教徒の追放を目指しました [Data: Relationships (1781, 2340, 2339, 2338)]. また、人身売買を禁止する命令を出しましたが、実際には追放令にその文が削除されていたこともあります [Data: Relationships (1782)]。

徳川家康の政策

秀吉の死後、徳川家康が権力を握り、江戸幕府を開きました。家康もまた、キリスト教の布教を禁止する禁教令を発布し、国内の安定を図りました [Data: Relationships (1417, 2250, 2251, 2252, 2253)]. 家康はまた、殉死を嫌い、これを禁じる政策を実施しました [Data: Relationships (1437)]。

まとめ

信長を討った光秀の後を継いだ秀吉と家康は、それぞれの時代において重要な政策を実施し、日本の歴史に大きな影響を与えました。特にキリスト教の布教禁止や人身売買の禁止などの政策は、彼らの政権の安定と権力強化を目的としたものでした。

@Tomoaki Kitaoka

[slide]LLM(Copilot)を最大限活用するための取り組みとその副産物

抽象から具体を書くより、具体から抽象を書いた方がCopilotがうまく機能しやすいのは確かになるほど

@Yuta Kamikawa

[slide] プロダクトのコードをPandasからPolarsに書き換えた話

wantedlyさんのslide

まとめ

pandas、polars間の変換はとても簡単(.to_pandas, from_pandas)
処理速度の向上がメリット

型に対して厳密なので初めは躓きやすいのがデメリット

逆にデメリットはそれくらいしかない

@Shun Ito

[blog] Vertex AI PipelinesとCloud Run jobsを使って機械学習バッチ予測とA/Bテストをシンプルに実現した話

GCP上にABテストの割り当ての仕組みを作成

ABテストのパラメータ（期間や割り当てられるモデルなど）はyaml管理

テストグループごとのモデルの学習・予測はVertex AI Pipeline

割り当てを決める処理はCloud Runで実行

シンプルに組まれていてよい

@Ryuhei Kawabata

[blog]社内用AIアシスタント「おっさんずナビ」を作った話、そして人間らしく振る舞う重要性を認識した話

おっさんずナビの特徴

Slack ワークスペースに蓄積された情報を知識として活用する

メンション（またはDM）で話しかけると、必ず回答をする

メンション（またはDM）でなくても、レスポンスを必要とするメッセージ（質問/相談/依頼）ならばお節介で応答を試みる

生成した応答によって質問/相談/依頼が解決する場合は応答する
質問/相談/依頼の内容について詳しい人が見つかった場合は応答して詳しい人へパスする
上記に当てはまらない場合はスルーする（なんら反応しない）

おっさんずナビのメッセージにスレッドで返信した場合

質問/相談/依頼ならば前述の仕様通り応答を試みる
質問/相談/依頼以外ならば絵文字でリアクションする

ほどほどのAPI利用料で回答を生成できる

おっさんずナビの工夫点

プロンプトを英語で入力

GPT-3.5 と GPT-4o の両モデルを併用

逆ベクトル検索（仮称）を採用

興味深かった部分

LLM を利用したチャットボットを設計・開発・運用したのは今回が初めてでしたが、試行錯誤のすえにたどり着いた結論は、応答の精度よりも利用者が意識しなくても自然と使える方がより重要ということでした。そして、その実現にもっとも効果的なのは人間っぽい挙動を追求です。

@Shuitsu Koyama

[論文]MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

要点：MAUVEという新しい比較指標を提案。これは、テキスト生成モデルの学習分布を人間が書いたテキストとの混合分布とのKullback-Leibler divergenceを利用して評価するもの

背景：

Type-I error ：人間が書かないようなテキストだが、生成してしまう

Type-II error：人間が書きそうなテキストだが、生成できない

KL divergence: 非負、二つの確率分布が異なるほど大きい値をとる. EMアルゴリズムとか

提案指標：

KL divergenceは二つの確率分布が異なりすぎると、値が発散するため、評価指標としては、扱いにくいため、二つの分布を直接比較するのではなく、二つの分布の混合分布をR_λとしている。

MAUVEはλを[0,1]で動かした、いかのdivergence曲線を利用して評価する。

c(> 0)はハイパラ. expのマイナス乗にすることで0より大きく1以下の値にしている.

このdivergence曲線の面積がMAUVEの値

左から順に、モデルサイズxlとmediumの比較、megaとbaseの比較、デコーディングアルゴリズムの比較のグラフ。面積が大きい方が良い評価。

実験：

モデルの生成するテキストは、長ければ長いほど精度が悪化するという傾向を、MAUVEと他の評価指標が捉えられるかを調査。

タスク：web text, news, storeisの種類のテキストにおける、テキスト補完タスク. 先頭の単語列が与えられて、残りの単語列を予測。

結果：MAUVEが唯一全てのモデルサイズで精度悪化を捉えている。

文章生成におけるデコーディングアルゴリズムは

Nucleus sampling

Ancestral sampling

Greedy decoding

の順番に精度が良いが、正確に評価できている。

モデルサイズの違いも正確に捉えている

conclusion

生成長, デコーディングアルゴリズム, モデルサイズによる生成テキストの品質の違いを識別できることが確認できた. 翻訳や要約のタスクに拡張することが, 今後の展望.

モーブ：

ふじ色、モーブ色

@NishimuraTakayuki

[blog]phi3.5

multilingual / v&L / instruction tuning / 128k / 3.8B / MITライセンスの強強モデル

7BモデルとかGPT-4 familyとcompetitive result

Phi-3.5-mini is a lightweight, state-of-the-art open model built upon datasets used for Phi-3 - synthetic data and filtered publicly available websites with a focus on very high-quality, reasoning dense data.

Long Context

Phi-3.5-mini supports 128K context length, therefore the model is capable of several long context tasks including long document/meeting summarization, long document QA, long document information retrieval.

References

Hugging Face

@NagashimaShunya

[論文]Training-free Graph Neural Networks and the Power of Labels as Features [TMLR24]

著者: Ryoma Sato

所属: National Institute of Informatics

論文タイトル: Training-free Graph Neural Networks and the Power of Labels as Features

発表誌: Transactions on Machine Learning Research (8/2024)

リンク: OpenReview

背景

Graph Neural Networks (GNNs) は、化学モデリング、質問応答、レコメンダシステムなど多くの分野で使用されており、特にトランスダクティブなノード分類において優れた性能を示している

GNNsは大規模グラフでの計算コストが課題であり、これを解決するために多くの手法が提案されてきたが、いまだに計算資源が限られている環境で即座に使用するのは困難

既存のGNNsの問題点

GNNsの計算コストが高いという課題がある。大規模グラフにおいては、全グラフをスキャンすることさえ困難

多くの手法が計算の効率化を目指して提案されているが、依然としてトレーニングに多くの時間を要する

提案手法: Training-free Graph Neural Networks (TFGNNs)

Labels as Features (LaF) を提案。これは、トランスダクティブなノード分類において、ノードのラベルを特徴量として使用する技術であり、GNNsの表現力を強化することができる

TFGNNs は、トレーニングなしで使用できるGNNsであり、必要に応じてトレーニングを行うことでさらに改善することも可能

LaFは、ノードのラベル情報を特徴量として使用することで、従来の特徴量のみを使用するよりもはるかに情報量の多いノード埋め込みを生成できる

LaFを使用したGNNsは、Label Propagation (LP) の表現を可能にし、従来のGNNsでは不可能だった高精度なノード分類を実現

LaF, LPの具体例(ChatGPT)2024/8/4 16:262024/8/4 16:27

結果

TFGNNsは、従来のGNNsと比較して、トレーニングなしの設定においても優れた性能を発揮し、特に大規模グラフでの使用において、トレーニングを必要としないため、即座に利用可能である

深い層のTFGNNsは、トレーニングなしの設定でさらに優れた性能を発揮し、トレーニングを行った場合でも、従来のGNNsよりも高速に収束する

TFGNNsは、特徴量にノイズが含まれている場合でも、従来のGNNsよりもロバストであることが実験で確認された

結論

TFGNNs は、トランスダクティブなノード分類において強力な手法であり、特に計算資源が限られている環境での使用に適している

今後の研究としては、LaFの他のGNNsへの応用や、異種グラフへの適用可能性の検討が期待される

メインTOPIC

Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models

Zhi Rui Tam, Cheng-Kuang Wu, Yi-Lin Tsai, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen

‣

Introduction

先行研究

構造化データの生成に対する需要が高まるにつれ、研究コミュニティにおいてもLLMの指定フォーマットへの追従能力に対する関心が高まっている。たとえば、IFEval（Zhou et al., 2023）、INFOBENCH（Qin et al., 2024）、FOFO（Xia et al., 2024）は、LLMのフォーマット追従能力の評価に焦点を当てている。

しかし、これらの研究は指定したフォーマット通りレスポンスを返してくれるかに焦点が当たっており、形式的な制限がLLMの性能を低下させるかどうかというビジネスに大きな影響を及ぼす可能性のある点を探っていない。

貢献

本研究では、形式制限指示がLLMの性能に与える潜在的な影響を、幅広いタスクにわたって包括的に分析する。対象とする形式は、JSON、XML、YAMLといった一般的に使用されるスキーマであり、貢献は以下。

形式制限下でLLMの推論能力が低下することを観察し、より厳しい制約が推論タスクにおける性能低下を招く傾向があることを確認した。
性能が制限によって低下する理由に対する仮説をたて、形式的制約と最適なパフォーマンスの両方を実現するためのアプローチを提案する

Methodology for Structured Generation

Constrained Decoding (JSON-mode)

Constrained Decodingは、生成プロセス中に事前定義されたトークンスペースを強制することで、LLMの出力を制限する技術
このモードは、OpenAIおよびGemini APIにおけるハイパーパラメータのフラグとして利用可能であり、出力が有効なJSONであることを保証する

Format-Restricting Instructions (FRI)

Format-Restricting Instructionsは、LLMに対して、指定されたスキーマに従ったJSON、XML、YAMLなどの標準化された形式で応答を生成するよう指示する
この指示により、生成された出力が構造化された形式に従うことが保証され、最終的な回答の抽出と評価が容易になる
このアプローチは、事前定義されたトークンスペースを強制しないため、制約付きデコーディングよりも緩やかな方法となる

NL-to-Format

この二段階プロセスでは、まずLLMに対して自然言語で質問に答えるよう指示し、次にその応答をターゲット形式のスキーマに変換するよう指示する
これは構造化生成の最も緩やかなバージョンであり、コンテンツ生成を形式遵守から切り離すことで、非制約的な自然言語応答のパフォーマンスを維持しつつ、構造化された出力を提供することを目指している

Experiments

Datasets

Reasoning Tasks（推論タスク）

GSM8K

日常生活のシナリオを反映した自然言語文脈における数学問題のコレクション。このデータセットは、LLMが必要な中間推論ステップを生成する能力を試すものである。

Last Letter Concatenation

このタスクは、一連の単語の最後の文字を連結して文字列を生成することをLLMに求め、記号的推論を行う能力をテストする。

Shuffled Objects

初期状態とシャッフルイベントの一連の状態を基に最終状態を推測する能力を評価する。

Classification Tasks（分類タスク）

DDXPlus

LLMが患者のプロファイルに基づいて49の可能な疾患の中から最も適切な診断を選択する必要がある多肢選択形式の医療診断データセット。問題数の多さからStreamBench (Wu et al., 2024) が提供するサブセットを使用した。

MultiFin

与えられた段落を5つのカテゴリのいずれかに分類する必要がある多肢選択形式の金融データセット。

Sports Understanding

スポーツに関連する人工的に構築された文が妥当かどうかを判断するLLMの能力をテストするもの。

NI - Task 280

与えられた段落に基づいてステレオタイプを分類する多肢選択タスク。LLMはプロンプトの形式変更に敏感であり性能が最大56%変動することが確認されているため、このタスクを採用した (Sclar et al., 2023)。

Model

closed weights model

gpt-3.5-turbo0125
claude-3-haiku-20240307
gemini-1.5-flash

open weights model

LLaMA3-8B-Instruct
Gemma-2-9BInstruct

Evaluation method

評価指標

モデルのパフォーマンスを多様なタスクにわたって評価するために、タスク固有の評価指標を使用する。分類ベースのタスク（Sports Understanding、DDXPlus、Natural Instruction Task 280、およびMultiFin）には、主要な指標としてaccuracyを採用する。
Last Letter ConcatenationとGSM8Kについては、最終的な解答が正確に一致するかどうかを評価するエグザクトマッチ指標を使用。

Perfect Text Parser

生成されたコンテンツの実際の性能から形式エラーを切り離すために、正規表現や文字列パーサーに依存するのではなく、テキストから最終解答を抽出するよう促されたLLMを使用する。このアプローチは、異なるモデル間での切り替え時に発生するエラーを最小限に抑える「パーフェクトパーサー」として機能する

プロンプト感度への考慮

先行研究（Chen et al., 2023; Sclar et al., 2023; Zhu et al., 2023）では、LLMがプロンプトのわずかな変化に敏感であることが示されている。これを考慮するためにタスクの説明の微妙な言い回しを変化させ、3つの異なるタスク説明で実験を行う。また、JSON、XML、YAMLといったスキーマの形式も3つの形式で実験を行う。これらの組み合わせから作れられる9つのプロンプトの組み合わせでアプローチを評価する。

Main Results

推論タスクの結果

JSONモード

Last Letter Concatenationタスクにおいて、JSONモードがFRI（JSON）よりも大幅に劣る結果となった。このタスクでは、GPT-3.5 TurboのJSONモードで生成された回答の100%が「reason」キーの前に「answer」キーを配置していた。これは回答の生成の後に理由の説明が行われということであり、チェーン・オブ・ソート推論がうまく行われなかったと思われる。

NL-to-Format

NLとNL-to-Formatを比較したところ、ほとんどのモデルでパフォーマンスがほぼ同じであった。これは、同じ自然言語応答から解答を導き出しているため想定通りの結果。しかし、NL-to-Format変換では、生成エラーが時折発生し、特にLLaMA 3 8B Instructモデルでわずかに低いパフォーマンスが見られた。他のモデルでは、両方で一貫したスコアが維持された。

考察

これらの結果から、フォーマット制限の厳しさとその実装方法が、特に推論タスクにおいてLLMのパフォーマンスに大きな影響を与えることが示唆される。構造化された出力におけるキーの順序や、推論プロセスをフォーマット制限から切り離すことが、LLMの能力を維持しつつ、構造化された応答を提供する上で重要な要素として考えられる。

分類タスクの結果

推論タスクとは異なり、分類タスクでは異なる傾向が観察された。特にDDXPlusデータセットでは、Gemini 1.5 FlashがJSONモードを有効にしたときに大幅なパフォーマンス向上を示した。他の分類データセットにおいてもJSONモードは対等な結果であり、場合によっては他の3つのアプローチを上回ることがあった。

考察

JSONモードが分類タスクでパフォーマンスを向上させた理由として、可能な解答を制約することで、解答選択におけるエラーを減少させた可能性がある。一方、自然言語応答では注意を逸らす要素が入り込み、解析エラーが生じることがある。

これらの結果は、フォーマット制限が性能にどのような影響を与えるかはタスク依存であることを示唆している。厳格なフォーマットは推論を要するタスクではパフォーマンスを妨げる可能性がある一方で、構造化された出力を必要とする分類タスクでは精度を向上させることができる。

Discussion

フォーマット制限を緩めた時の影響

フォーマット制限の影響をさらに調査するために、「ソフトリストリクト」設定のバリエーションを検討する。具体的には、プロンプトからスキーマ制限を取り除き、特定のスキーマ（例：「次のスキーマに従ってJSON形式で回答してください: { "reason": ...,"answer": ... }」）を指定するのではなく、単に「JSON形式で回答してください」のように、ターゲットフォーマット言語だけを指定するアプローチを採用。

結果と考察

GSM8Kデータセットを使用した実験では、スキーマ制限を取り除くことで、Claude 3 Haiku、GPT-3.5 Turbo、LLaMA 3 8B Instructのいずれも平均スコアが大幅に向上し、異なるプロンプトの変動に対する標準偏差も低下しました。
これらの結果から、構造化された出力が下流処理には有益である一方で、過度に厳格なスキーマは特に推論を要するタスクにおいてLLMのパフォーマンスを妨げる可能性があることが示唆されます。
これにより、容易に解析可能な構造化出力と、LLMの持つ推論能力の維持との間でバランスを取る必要があることが示されています。

異なるフォーマットの比較

JSONだけでなく、XMLやYAML形式も比較し、異なるフォーマットがLLMに与える影響を調査する。これらのフォーマットはそれぞれ異なる文法構造や制限を持っているため、モデルごとに異なるパフォーマンスを示す可能性がある。

結果と考察

Geminiモデルでは、JSONがより一貫して良好なパフォーマンスを示しましたが、常に他のフォーマットを上回るわけではなKAった。

分類タスクにおいては、JSONモードがテキストに比べてはるかに優れたパフォーマンスを示すことが分かりましたが、推論関連のタスクでは、JSONモードが「推論を先に行い、その後に解答を示す」という順序に従わず、大幅なパフォーマンス低下が生じた。

構造化フォーマットと解析エラー率

最初の仮説では、テキスト形式と構造化フォーマットの間で生じるパフォーマンスギャップは、解答抽出時の解析エラーによるものだと考えられていました。しかし、異なるフォーマットやモデルにおけるエラー率の分析（表2参照）によれば、これは主な要因ではないことが明らかになった。実際、Gemini 1.5 FlashとGPT-3.5 Turboは、すべてのフォーマットにおいてほぼゼロの解析失敗率を示した。

結果と考察

LLaMA 3 8Bモデルでは、Last LetterタスクにおけるJSONフォーマットの解析エラー率はわずか0.148%でしたが、表1に示されるように、他のフォーマットであh38.15%という大きなパフォーマンスギャップが存在した。この発見は、フォーマット間のパフォーマンス差が主に解析エラーではなく、フォーマット制限がLLMの推論および生成プロセスに与える影響に起因することを示唆している。
さらに、解析エラーが存在する場合、簡単な修正手順を導入することで効果的にエラーを軽減できることが分かった。具体的には、Claude-3-Haikuモデルに対して、解析エラーが発生した出力を再フォーマットするよう促すことで、Claude 3 HaikuおよびLLaMA 3 8BのJSONおよびYAML形式におけるスコアが改善された。このアプローチは、フォーマット固有の最適化の利点を損なうことなく、構造化出力の信頼性を向上させる可能性があることを示している。

Xでポスト