A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
概要
- Hallucinationの分類方法を提案
- Hallucinationに寄与する要因を分類
- Hallucinationの検出方法とベンチマークの紹介
- Hallucinationを軽減するアプローチの紹介
- 課題と未解決問題の紹介
Introduction
- 大規模言語モデル(LLMs)が急速に進歩する一方で、事実に基づかないように見えるが実際は正しくない内容を生成するHallucinationの懸念が生じている
- 既存のHallucinationの定義
- https://dl.acm.org/doi/10.1145/3571730
- https://arxiv.org/abs/2202.03629
- 分類
- intrinsic hallucination (内因性?)
- ソースの内容に反する出力
- extrinsic hallucination(外因性?)
- ソースの内容からは検証できない出力
- 誤っているとは限らず、もし合っていたら追加情報となるが、事実の安全性の観点からリスクを増加させる
- しかしこれは、ドメインspecificのタスクの場合結果が変わる
- ドメインspecificのタスクの方がhallucinationがamplifiyされる
- 貢献
- 本論文での分類
- factuality hallucinationとfaithfulness hallucinationに分類する
- factuality hallucination(事実性)
- 生成されたコンテンツと検証可能な実世界の事実との間の不一致を指す
- 一般的には事実の不整合や捏造
- さらに2つに細分化
- factual inconsistency(事実的矛盾)
- factual fabrication(事実的捏造)
- faithfulness hallucination(忠実性)
- 生成されたコンテンツがユーザーの指示や入力によって提供された文脈から逸脱すること、および生成されたコンテンツ内の自己一貫性の欠如を指す
- ユーザーの視点からの矛盾に焦点を当て3つに分類
- instruction inconsistency(指示の矛盾)
- context inconsistency (文脈の矛盾)
- logical inconsistency(論理の矛盾)
- 原因の分類
- data、training、inferenceの3つのステージに焦点を当てる
- data
- flawed sources and suboptimal utilization
- training
- inferior training strategies that may induce hallucinations during pre-training and alignment
- inference
- those stemming from the stochastic nature of decoding strategies and imperfect representations during the inference process.
- hallucinationsの検出方法とベンチマークの網羅的な概観を提供
- 特定されたhallucinationsの原因を軽減するための包括的な戦略
- 先行研究
- 先行研究はたくさんある
- Ji et al., 2023aはpre-trained language modelsに対するhallucinationsに焦点を当てており、LLMは議論の範囲外にしている
- Liu et al., 2023hはLLMの信頼性を幅広い視点から議論し、Wang et al., 2023cはLLMの事実性に関して深く掘り下げている
- 本研究
- 信頼性における課題のサブセットに特化しており、事実性の側面をカバーし、信頼性に関連するhallucinationsを含む議論をさらに広げている
- Zhang et al., 2023gは最も我々のサーベイにalignしていて、LLM hallucinationsの現象、評価基準、及び軽減戦略の分類を概説している
- 本研究は分類と組織構造の両方で独自性を持っている
- レイヤー化された詳細なhallucinationsの分類を提示
- 構造的にLLMの能力に遡ってhallucinationsの原因を解剖
- さらに、軽減戦略は根底にある原因と密接に結びづけられたアプローチである
Definitions
- Large Language Models
- 一般的に、LLMは、トランスフォーマーベースの言語モデルアーキテクチャを活用し、膨大なテキストコーパスでの広範囲なトレーニングを経ている一連の汎用モデルを指す
- Training Stages of Large Language Models
- 3つの主要なtraining stagesがある
- pre-training
- 広範囲のテキストデータから言語の構文や世界知識、推論能力を学ぶ
- supervised fine-tuning (SFT)
- 事前トレーニングで得た知識を基に、さらに注釈付きの指示と応答のペアを使ってLLMをトレーニングし、能力と制御性を高める
- reinforcement learning from human feedback (RLHF)
- 人間の好みに合わせてLLMを調整し、質の高い安全な応答を促すことで、LLMの性能をさらに向上させる
- Hallucinations in Large Language Models
- 病理学と心理学の分野に起源を持ち、「現実には存在しないエンティティやイベントの知覚」として定義されている(Macpherson & Platchias, 2013)
- NLPの領域では、生成された内容が意味不明であるか、提供されたソースコンテンツに忠実でない場合に、この現象をHallucinationsと呼ぶことが一般的です(Filippova, 2020; Maynez et al., 2020)
- 一般に、自然言語生成タスクにおけるHallucinationsは、内因性と外因性の2つの主要なタイプに分類される(Huang et al., 2021; Li et al., 2022b; Ji et al., 2023a)
- 内因性はソースコンテンツと矛盾するLLMのアウトプットに関連しており、外因性はソースコンテンツから検証できないLLMの生成を指す
- 大規模言語モデルは多様な分野で広く利用されており、特定のタスクに特化した分類に限界が生じている
- LLMはユーザーとのインタラクションに重きを置き、ユーザーの指示との一致を優先することを考慮すると、Hallucinationsは主に事実レベルで表面化するため、Ji et al. (2023a)による分類を土台としたより精緻な分類体系を導入する
- Factuality Hallucination(事実性)
- 既存のLLMは実世界の事実と矛盾するか、潜在的に誤解を招く出力を生成する傾向が時折観察される。生成されたコンテンツと検証可能な実世界の事実との間の不一致を指す。一般的には事実の不整合や捏造など。これは2つに細分化できる。
- factual inconsistency(事実的矛盾)
- LLMのアウトプットが実世界の情報に基づく事実を含んでいるが、矛盾を示している状況を指す
- 最も頻繁に発生し、LLMが事実知識を取得、記憶、表現する過程の多様なソースから生じる
- 例:「月に最初に着陸した人物」について、モデルは誤って「ユーリ・ガガーリン」と生成したが、これは実際の事実と矛盾
- factual fabrication(事実的捏造)
- LLMのアウトプットが確立された実世界の知識に対して検証不可能な事実を含む例を指す
- 例:ユニコーンの起源を示す事実はないが、モデルはユニコーンについて、それっぽい歴史的起源を創作
- Faithfulness Hallucination(忠実性)
- LLMは、ユーザーの指示に沿うように訓練されており、ユーザーが提供する指示と文脈情報との一貫性を確保することが重要
- LMの忠実性は、生成されたコンテンツの論理的一貫性においても反映される
- これは3つに細分化できる。
- instruction inconsistency(指示の矛盾)
- ユーザーの指示から逸脱したLLMの出力を指す
- 悪意のあるユーザーの入力は安全ガイドライン的に矛盾が生じるかもしれないが、ここでは悪意のないユーザーを想定
- 例:質問文の翻訳を依頼したが、LLMは誤ってユーザーの指示から逸脱し、代わりに質問応答タスクを実行した
- context inconsistency (文脈の矛盾)
- LLMの出力がユーザーが提供した文脈情報に忠実でない場合を指す
- ユーザーはナイルの源流が中央アフリカの大湖地域にあると述べましたが、LLMの応答は文脈に反して、中央アフリカの山脈にあると述べた
- logical inconsistency(論理の矛盾)
- LLMの出力が内部的に論理的矛盾を示す場合を指す
- 特に推論タスクで観察され、論ステップ自体と最終回答の間の一貫性のなさとして現れる
- 方程式の両側を2で割るという推論ステップは正しいものの、x=4という最終回答は推論のチェーンと矛盾し、誤った結果になっている
Hallucinationの分類
LLMにおけるHallucinationの根本原因は、主に3つの重要な側面に分類される
- Hallucination from Data
- Pre-training dataは大規模言語モデル(LLM)の基礎となっており、一般的な能力と事実知識を得ることを可能にするが、これは意図せずLLMのHallucinationの源となることがある。これは主に2つの側面で現れる。
- Flawed Data Source(不完全なデータソース)
- プレトレーニングデータには誤情報や偏見を導入する可能性がある(Bender et al., 2021; Weidinger et al., 2021)
- また、データの特定のドメイン知識や最新の事実が欠けていると、特定のシナリオにおけるLLMの制限を引き起こす可能性がある
- これに基づいて、幻覚を引き起こす可能性のある要因を「Misinformation and Biases」、「Knowledge Boundary」という二つのカテゴリに主に分類
- Misinformation and Biases(誤情報と偏見)
- 大規模なコーパスは広範囲のデータを提供するものの、誤った情報を不注意に導入し、虚偽情報を提供するリスクを高める可能性がある
- 加えて、社会的な偏見がLLMの学習プロセスに不注意に導入されることがある
- Imitative Falsehoods(模倣的虚偽)
- LLMプレトレーニングの主要な目的は、トレーニング分布を模倣することです。事実上正しくないデータでトレーニングされたLLMは、これらの不正確さを不注意に増幅させる可能性があり、Imitative Falsehoodsと呼ばれる事実上誤ったHallucinationを引き起こす可能性がある(Lin et al., 2022)
- 例:'トーマス・エジソンが電球を発明した'という声明は、実際には誤信されてきた誤解だが、事実上正しくないデータでトレーニングされたLLMは、誤解を招く出力につながる
- Duplication Bias(複製バイアス)
- 大規模言語モデルには、トレーニングデータを記憶する固有の傾向があるが、この固有の記憶能力は、プレトレーニングデータ内の複製された情報が存在すると、一般化から記憶へとLLMを変える可能性があり(Hernandez et al., 2022)、最終的には、複製されたデータの想起を過度に優先する複製バイアスを生み出す
- 例:ユーザーが「リンゴを除く赤い果物をいくつか挙げて」と要求した場合、トレーニングデータセットで「赤リンゴ、スイカ、チェリー、イチゴ」のような文が頻繁に繰り返されると、モデルは過度に記憶された文を出力に生成する可能性があり
- Social Biases(社会的バイアス)
- 性別(Paullada et al., 2021)や国籍(Narayanan Venkit et al., 2023; Ladhak et al., 2023)に関連する偏見は、Hallucinationと密接に関連している。
- 例えば、ユーザーが提供した文脈に性別が明示的に言及されていなくても、LLMは看護職を女性と関連付ける可能性がある
- Knowledge Boundary(知識の限界)
- 大規模なプレトレーニングコーパスはLLMに広範な事実知識を提供しますが、それらは限界を持っています。この限界は主に2つの側面で現れる
- Domain Knowledge Deficiency(ドメイン知識の不足)
- LLMが主に広範な公開データセットでトレーニングされているため(Penedo et al., 2023; Raffel et al., 2020; Gao et al., 2021)、特化したドメインにおける専門知識は、専有のトレーニングデータの欠如に制約される
- 医学(Li et al., 2023g; Singhal et al., 2023)や法律(Yu et al., 2022; Katz et al., 2023)の問題のように、特定のドメイン知識を必要とする問題に直面したとき、これらのモデルは顕著にHallucinationを引き起こす
- Outdated Factual Knowledge(時代遅れの事実知識)
- LMに組み込まれた事実知識には明確な時間的境界があり、時間とともに時代遅れになる
- これらのモデルが一度トレーニングされると、その内部の知識は決して更新されない
- 時間的範囲を超えるクエリに直面したとき、LLMはしばしば事実を作り上げたり、過去には正しかったかもしれないが今は時代遅れになっている答えを提供する
- Inferior Data Utilization(データの利用の失敗)
- 巨大なパラメータと訓練データにより学習されたLLMは,しばしばパラメータ内部に事実や常識などの知識を保持している
- LLMはパラメータで保持する知識の利用がうまくいかず、知識誘発型のHallucinationを生む可能性がある
- Knowledge Shortcut(知識の近道・事実の捉え方における偽の相関)
- LLMが事実知識の複雑さを真に理解するよりも、しばしば近道に頼る
- LLMはプレトレーニングデータ内の位置的な近さ(Li et al., 2022a)、共起統計(Kang and Choi, 2023)、関連ドキュメント数(Kandpal et al., 2023)に過度に依存する傾向を示し、これは偽の相関へのバイアスを導入し、そのバイアスが事実上誤った情報を反映している場合、Hallucinationにつながる可能性がある
- 例:「カナダの首都」について問い合わせた際、モデルは誤って「トロント」と回答するが実際にはオタワが正解である。これはカナダとトロントが同時に使われる頻度が高いことに由来する
- Knowledge Recall Failures(知識の想起の失敗)
- Long-tail Knowledge(Long-tailな知識)
- Long-tailな知識はプレトレーニングデータで相対的な希少性を持つ
- 共起パターンに基づいて事実的な知識を記憶するLLMにとっては、Long-tailな知識を問う質問に対しては不正確な回答を生成する可能性が高い
- 例:Wikipedia内においてはLong-tailなエンテティに対する伝記を生成するように求められたとき、職業を誤って政治家を教育者として記述した
- Complex Scenario(複雑なシナリオ)
- 知識の効果的な利用は推論能力と密接に関連している
- 例えば、複数ステップの質問応答シナリオでは、LLMが必要な知識を持っていても、質問間に複数の関連性が存在するため、正確な結果を生成することに苦労する(Zheng et al., 2023)
- Reversal Curse(Berglund et al. 2023)
- 具体的には、質問が「AはBである」として形成されたときには正確に答えることができる一方で、逆の「BはAである」と尋ねられたときには論理的演繹に失敗する
- モデルのコンテキストウィンドウ内に正解を含む文書があっても、提供された証拠を効果的に利用する能力の不足のために、正確な回答を生成することに苦労することもある
- 例:エベレストを世界最高峰と認識しているにもかかわらず、エベレストの標高が500メートル減少した場合に最も高い山になるものを決定することに失敗
- Summary
- LLMにおけるデータ関連のHallucinationは、主に不完全なデータソースとデータの利用の失敗に根ざす
- Hallucination from Training
- Hallucination from Pre-training
- Architecture Flaw(アーキテクチャの不具合)
- Inadequate Unidirectional Representation.
- 因果関係のある言語モデリングパラダイムに従い、LLMは左から右へと前のトークンに基づいて次のトークンを予測する
- 単方向モデリングは効率的なトレーニングを促進するが、単一方向からのコンテキストのみを利用することで、複雑な文脈依存性を捉える能力が阻害されHallucinationの原因になる(Li et al., 2023h)
- Attention Glitches
- self-attention moduleを備えたTransformerベースのアーキテクチャは広範囲の依存関係をキャプチャできるが、アルゴリズミックな推論の文脈で、モデルの規模にかかわらず、長距離および短距離の依存性にまたがる予測不可能な推論エラーを時折示すことがある(Liu et al., 2023a)
- 一つの可能性としては、シーケンス長が増加するにつれて注意が位置全体に希釈されるソフトアテンションによる限界がある(Hahn, 2020; Chiang and Cholak, 2022)
- Exposure Bias(露出バイアス)
- トレーニング戦略も重要で、特に、露出バイアスという現象(Bengio et al., 2015; Ranzato et al., 2016)は、自己回帰生成モデルにおけるトレーニングと推論の間の不一致から生じる
- トレーニング中はこれらのモデルは通常、教師強制の最尤推定(MLE)トレーニング戦略を使用し、正解のトークンを入力として提供されるが、推論中には、モデルは自身が生成したトークンに依存して後続の予測を行うので、生成された誤ったトークンが後続のシーケンス全体にエラーを連鎖させ雪だるま式にHallucinationを発生させる可能性がある
- Hallucination from Alignment
- アライメントは、教師ありのfine-tuningと人間のフィードバックからの強化学習を主としており、LLMの能力を人間の嗜好に合わせるための重要なステップ
- アライメントはLLMの応答品質を著しく向上させる一方で、Hallucinationを誘発するリスクもある
- Capability Misalignment(能力とのずれ)
- 教師ありのfine-tuningは品質の高い指示とそれに応答するレスポンスによってLLMの能力を向上させるが、LLMの能力が拡大するにつれて、LLMの固有の能力とアノテーションデータに描かれた能力との間の潜在的な不一致が問題となる
- アライメントデータの要求がこれら事前に定義された能力の境界を超えると、LLMは自身の知識を超えるコンテンツを生成するようにトレーニングされHallucinationを誘発する
- Belief Misalignment(信念とのずれ)
- いくつかの研究は、LLMが、生成されたステートメントの真実性に関連する内部信念を包含していることを示している(Burns et al., 2022; Azaria and Mitchell, 2023)が、内部信念と生成されたアウトプットとの間には、時折不一致が生じることがある
- 例えば、LLMが人間のフィードバックで洗練されていても(Ouyang et al., 2022)、時には内部信念と異なるアウトプットを生成することがあり、これは真実性を犠牲にしてでも人間の評価者を喜ばせるモデルの傾向を示す(sycophancy)(Cotra, 2021)
- 最近の研究は人間のフィードバックからの強化学習(RLFH)を通じて訓練されたモデルはユーザーの意見に迎合する顕著な行動を示すことを指摘
- このような迎合的行動は、明確な答えのない曖昧な質問(Perez et al., 2023)に限定されず、モデルがその不正確さを認識しているにもかかわらず明らかに誤った答えを選択する場合にも生じる(Wei et al., 2023)
- Summary
- LLMをトレーニングする際、基礎となるプレトレーニングとその後のアライメントの両方が、独自の課題を提起し、幻覚を引き起こす可能性となる
- Hallucination from Inference
- デコーディングプロセスに根ざした潜在的なHallucinationの原因について掘り下げる
- Inherent Sampling Randomness(サンプリングのランダム性)
- LMは高度に創造的で多様なコンテンツを生成するが、この能力はデコーディング戦略におけるランダム性が重要な役割を果たしている
- 確率的サンプリング(Fan et al., 2018; Holtzman et al., 2020)は現在、LLMによって採用されている主要なデコーディング戦略
- デコーディング戦略にランダム性を取り入れる理由は、高確率のシーケンスが驚くほど低品質のテキストに結果することが多いからで、可能性の罠」と呼ばれている(Stahlberg and Byrne, 2019; Holtzman et al., 2020; Meister et al., 2020; Zhang et al., 2021)
- サンプリングのTemperatureを高くすると、より均一なトークン確率分布になり、分布の末尾から低頻度のトークンをサンプリングする可能性が高まり、結果として、稀に発生するトークンをサンプリングする傾向が高まり、Hallucinationのリスクが高まる(Aksitov et al., 2023)
- Imperfect Decoding Representation(不完全なデコーディング表現)
- Insufficient Context Attention(文脈の欠如)
- エンコーダーデコーダーアーキテクチャを採用する生成モデルにおけるover-confidenceの問題
- 部分的に生成されたコンテンツに過度に焦点を当てることから生じ、しばしば、ソース文脈に忠実に従うことを犠牲にして流暢さを優先させてしまう
- 主に因果関係のある言語モデルアーキテクチャを採用する大規模言語モデルは広く使用されていますが、over-confidenceは依然として残っている
- 長くて包括的な応答を生成する傾向があるLLMでは、この懸念がさらに増幅され、指示忘れのリスクも高まり(Chen et al., 2023f; Liu et al., 2023i)、モデルが元の文脈から逸脱したコンテンツを出力するFaithfulness Hallucinationを誘発する可能性になる
- Softmax Bottleneck
- ほとんどの言語モデルは、言語モデルの最終層の表現とword embeddingを組み合わせて、単語予測するためにSoftmax層を利用するが、フトマックスボトルネックによって阻害される
- フトマックスボトルネックはSoftmaxベースの言語モデルは、ソフトマックスとdistributed word embeddingsの使用が、文脈に基づいて出力確率分布の表現力を制約し、言語モデルが望む分布を出力することを妨げる
- Chang and McCallum (2022)は、出力単語埋め込み空間内の望ましい分布が複数のモードを示している場合、言語モデルはすべてのモードから最も優先すべき単語を正確に優先することが難しくなり、Hallucinationを誘発することを示した
- Summary
- デコーディングフェーズでは、固有のデコーディング戦略と予測に使用される表現の両方から課題が生じる
Hallucination検出方法とベンチマーク
- 人間らしいテキストを生成することに長けたモデルが増えるにつれ、正確なコンテンツと幻覚的なコンテンツを区別することが極めて重要な関心事
- Hallucination検出
- 従来のメトリクスは、主に単語の重複に依存するため、もっともらしいコンテンツと幻覚的なコンテンツの間のニュアンスの違いを区別するのに不十分
- LLM幻覚に合わせたより高度な検出方法の必要性
- Factuality Hallucinationの検出
- Retrieve External Facts(外部情報の取得)
- LLM出力における事実の不正確さを効果的に特定するために、モデルが生成したコンテンツと信頼できる知識源を比較することがある
- この方法は、(Guo et al., 2022)で定義された事実確認タスクのワークフローと密接に関係しているが、従来のファクトチェック手法(Augenstein et al., 2019; Hanselo wski et al., 2019; Atanasova et al., 2020) は、実用性のために単純化された仮定を取り入れることが多く、複雑な実世界のシナリオに適用するのが難しい
- これらに対処するために、Chenら(2023c)は、時間制約をつけてキュレーションされていないのウェブソースから証拠を調達する手法を提案
- Uncertainty Estimation(不確かさの推定)
- 外部のリソースに依存する手法が多い中、retrievalすることなく、リソースなしでこの問題に取り組む手法もある
- そもそもHallucinationモデルのuncertaintyに結びつくものなので、事実性に関するuncertaintyを予測することがHallucinationの検知に寄与する
- LLM Internal States
- LLMの内部状態はトークンの確率やエントロピーなどを不確実性を示す情報豊富な指標として利用できる
- Varshney et al. (2023)は、重要な概念に対するモデルの不確実性を、トークンの確率の最小値を利用して定量化。
- Luo et al. (2023a)は、言語モデルが生成した説明から元の概念を再構築する能力がその概念に対する習熟度を示すという理論に基づいて、自己評価に基づくアプローチを不確実性推定に利用
- Yao et al. (2023a)は敵対的攻撃の観点からHallucinationを解釈し、勾配に基づくトークン置換を利用して、Hallucinationを誘発するプロンプトを調べた結果、生のプロンプトから生成された最初のトークンは、敵対的攻撃からのものと比べて低エントロピーを示すことから、Hallucinationを定義するためのエントロピーの閾値を設定することを提案
- LLM Behavior
- システムがAPI呼び出し(OpenAI, 2022; Google, 2023; Microsoft, 2023)を介してのみアクセス可能な場合、出力のトークンレベルの確率分布へのアクセスは利用できない
- この制約を考慮して、いくつかの研究は、自然言語のプロンプト(Xiong et al., 2023; Kadavath et al., 2022)を通じて、またはその行動的な表れを調べることによって、モデルの不確実性を探ることに焦点を移した
- Manakul et al. (2023)は、同じプロンプトに対してLLMから複数の応答をサンプリングし、事実的な声明の一貫性を評価することによっHallucinationを検出する。これらの方法は主に、モデルに対して情報や確認を明示的に求める直接的なクエリに依存しています。
- Agrawal et al.(2023)は、捜査インタビューにヒントを得て、間接的なクエリの使用を提唱し、特定の情報を引き出すためにオープンエンドの質問を提示する。複数のモデル生成にわたる一貫性をより良く評価できる。
- 法的な尋問実践から着想を得たCohen et al.(2023)は、LMvLMアプローチを提案し、「試験官」LMを利用して「受験者」LMに質問し、複数ターンのインタラクション中に主張の矛盾を明らかにすることを目指す
- Faithfulness Hallucinationの検出
- LLMが文脈やユーザーの指示に忠実であることを保証することは、その実用性にとって不可欠
- Faithfulness Hallucinationの検出は生成されたコンテンツが与えられた文脈と一致していることを保証することに重点を置き、余計なまたは矛盾する出力の潜在的な落とし穴を避ける
- Fact-based Metrics
- faithfulnessの評価において生成されたコンテンツとソースコンテンツの間で重要な事実のオーバーラップを測定することは、最も直感的な方法の一つ
- N-gram based
- 伝統的なn-gram重複ベースの評価指標であるROUGE(Lin, 2004)やPARENT-T(Wang et al., 2020b)などが適用できる
- しかし、言語表現の自然な多様性と表層レベルのマッチングへの依存のため、これらの指標は人間との相関が低いとされています(Maynez et al., 2020)。
- Entity-based
- エンティティの重複に基づく指標は、要約タスクに広く適用されている
- Nan et al. (2021)は、エンティティのHallucinationの程度を約における固有名詞の精度をソースのエンティティに対して計算することで定量化する指標を提案
- Relation-based
- エンティティが一致していても、それらの間の関係が誤っている可能性があることに注意し、Goodrich et al. (2019)は関係タプルの重複に焦点を当て、訓練されたエンドツーエンドの事実抽出モデルを使用して抽出された関係タプルの重複を計算する指標を提案
- Knowledge-based
- 知識に基づく対話タスクにおいて、事実はしばしば対話で提示される知識と対応するので、Shuster et al. (2021)は、モデルの生成が提供された知識とどれだけうまく一致しているかを評価するために、Knowledge F1メトリックを提案
- Classifier-based Metrics
- Entailment-base(帰結ベース)
- 本当に忠実なコンテンツはそのソースコンテンツによって本質的に含意されるべき
- 多くの研究(Falke et al., 2019; Maynez et al., 2020)は、特に抽象的な要約の文脈において、事実の不正確さを特定するためにNLIデータセット上で分類器を訓練
- しかし、Mishra et al. (2021)は、従来のNLIデータセットと矛盾検出データセットとの間の入力の粒度の不一致が、矛盾を効果的に検出するための適用性を制限していることを指摘
- これに基づいて、より高度な研究では、敵対的データセットでのファインチューニング(Barrantes et al., 2020)、依存関係アークレベルでの帰結決定の分解(Goyal and Durrett, 2020)、文書を文単位に分割して文ペア間のスコアを集約する(Laban et al., 2022)などの方法が提案されている
- Weekly Supervised
- 関連するタスクからのデータを使用して分類器をファインチューニングすることは、忠実性を評価する上で有望だが、関連するタスクと下流のタスクとの間の本質的なギャップを認識することが不可欠
- ryscinski et al. (2020)は最先端の要約モデルによって生じるエラーを分析し、分類器のfine-tuningのためのWeekly Supervisedなデータを作成するためのルールベースの変換を使用する方法を提案
- 同時に、Zhou et al. (2021)は自動的にトークンレベルのHallucinationデータを生成し、トークンレベルのHallucination検出を行うアプローチを考案
- Question-Answering based Metrics
- 近年注目を集める。
- まずLLMの出力内の情報単位から目標となる回答を選択し、次に質問生成モジュールによって質問を生成することで機能する。生成された質問はその後、ユーザーコンテキストに基づいてソースの回答を生成するために使用され、最後に、LLMの応答の忠実性は、ソースと目標の回答間のマッチングスコアを比較することによって計算される
- 要約文を与えられたら、その文に含まれる鍵となる情報について尋ねる一連の質問と、それに対応する回答を生成
- QAモデルを使用してソースから回答を予測
- 質問とQAモデルは、2つのテキストから比較可能な情報を抽出し、それらが多く一致すれば要約がより忠実であると言える
- https://aclanthology.org/2020.acl-main.454.pdf
- Uncertainty Estimation(不確実性推定)
- factual halutionation同様、モデルの不確実性に大きく紐づいている
- Entropy based
- Xiao and Wang (2021)は、データからテキスト生成におけるhalutionationの可能性と予測の不確実性との間に正の相関があることを観察し、ディープアンサンブル(Lakshminarayanan et al., 2017)によって推定される不確実性と関連付けた
- Guerreiro et al. (2023a)は、モンテカルロドロップアウト(Gal and Ghahramani, 2016)によって生成される仮説の分散を、ニューラルマシン翻訳(NMT)内の不確実性尺度として利用
- van der Poel et al. (2022)は、抽象的要約におけるモデルの不確実性を評価するために条件付きエントロピー(Xu et al., 2020)を使用
- log-probability-based
- Guerreiro et al. (2023a)は、length-normalised sequence logprobabilityをモデルの信頼度を測る指標として使用
- Model based
- Miao et al. (2023)は、SelfCheckというステップバイステップのチェッカーを使用して、複雑な推論におけるエラー検出に取り組み、ターゲット抽出、情報収集、ステップ再生成、結果比較の効率的なプロセスを通じて信頼スコアを集約し、質問応答の正確さを向上させる
- Prompting-based Metrics
- LLMの指示に従う能力の高さが自動評価の可能性を見せています(Chiang and Lee, 2023; Liu et al., 2023g; Wang et al., 2023d)
- LLMに具体的な評価ガイドラインを提供し、モデル生成コンテンツとソースコンテンツの両方を供給することで、効果的に忠実性を評価できる
- 最終的な評価結果は、忠実性に関する二値の判断(Luo et al., 2023b)であったり、忠実性の度合いを示すk点リッカート尺度(Gao et al., 2023b)
- プロンプトの選択には、直接プロンプト、思考の連鎖プロンプト(Adlakha et al., 2023)、インコンテキスト学習の使用(Jain et al., 2023)、またはモデルに説明を伴う評価結果の生成を許可する(Laban et al., 2023)などの方法がある
- ベンチマーク
- Hallucination Evaluation Benchmarkは既存のLLMによって生成されるHallucinationの程度を評価するもので、hallucination detection Benchmark既存のHallucination検出方法のパフォーマンスを特に評価するために設計されたもの
- Hallucination Evaluation Benchmark
- Hallucination Evaluation BenchmarkはLLMがHallucinationを生成する傾向を評価するために考案されており、特に事実の不正確さを特定し、元の文脈からの逸脱を測定することに重点を置いている
- これらのベンチマークの主な焦点は、LLMによって生成されたコンテンツの事実性を評価すること
- ほとんどが質問応答の形式で構成されている
- ベンチマークごとのユニークな特徴は、選択された知識ドメイン、言語、および応答形式にある
- TruthfulQA
- https://aclanthology.org/2022.acl-long.229/
- 健康、法律、金融、政治など38の多様なカテゴリーにまたがる817の質問で構成されており、言語モデルの真実性を評価するために特別に設計されたベンチマーク
- 誤った信念や誤解に基づいて一部の人間が誤って回答するであろう質問を作成しており、誤解を招く回答を引き出すことを目指している
- 評価には、TruthfulQAが生成タスクと複数選択タスクの2種類の質問応答タスクを提供し、人間による評価がモデルの真実性と情報性を測定するために用いられる
- 6.7B GPT-3モデルでファインチューニングされた自動メトリックであるGPT-judgeを導入している
- REALTIMEQA
- 政治、ビジネス、スポーツ、エンターテイメントなどの多様なトピックにまたがる、新しく公開されたニュース記事から派生したリアルタイムのオープンドメイン多肢選択式質問を提供する
- 精度で評価される多肢選択式フォーマットや完全一致とトークンベースのF1メトリクスを使用してリアルタイム評価のためのプラットフォームを提供
- Med-HALT
- 医療コンテキストにおけるLLMの推論と記憶を評価するために特別に設計されている
- 18,866のサンプルを含む推論タスクは、選択式の質問を使用して、LLMが不正確または無関係な選択肢や偽の質問を識別する能力をテストする
- 4,916のサンプルを含む記憶タスクは、PubMedの抄録/タイトルからリンクを生成するか、与えられたリンクとPMIDからタイトルを生成することによって、LLMが正確な事実情報を思い出し生成する能力を評価する
- FACTOR
- Muhlgay et al.(2023)は、指定されたコーパスからの事実的な声明を摂動させることで、自動的にベンチマークを作成する方法を導入し、LMの事実性を定量的に評価
- Wiki-FACTORとNews-FACTORの2つのベンチマークが作られた
- prefix textを抽出し、誤った回答を出力回答するpromptに通してダミーの選択肢を作り選択問題にする
- ChineseFactEval
- 一般知識、科学研究、医学、法律、金融、数学、現代中国史など多様なドメインから125の質問を集めて、6つの現代の中国語LLMの事実性能力を評価する
- 問はさまざまなLLMが達成した精度に基づいて分類され、異なる難易度の質問には異なるスコアが割り当てられます。すべてのLLMからの応答は主に人間によってアノテーションが付けられ、FacTool(Chern et al., 2023)によって補完される
- HalluQA
- TruthfulQA(Lin et al., 2022)の構築アプローチから着想を得ている
- HalluQAは、中国の大規模言語モデルのHallucination、特にimitative falsehoodsとfactual errorsに焦点を当てて特別に作成されている。
- 30のドメインにわたる450の手作りの敵対的な質問から構成されている
- 誤解を招くセクションは、GLM-130Bをうまく欺く質問を捉えている一方で、知識セクションは、ChatGPTとPuyuの両方が一貫して誤って回答する質問を保持している
- 評価のために、LLMはこれらの質問に対する回答を生成し、それらはGPT-4を使用して正しい回答と比較され、回答に幻覚が含まれているかどうかを判断する
- FreshQA
- LLM内の時代遅れの知識から部分的にHallucinationが生じる可能性があることを認識して、このベンチマークは既存のLLMの事実性を評価するために提案
- 時間が経つと回答が変わる可能性がある、または前提が事実上誤っている600の手作りの質問から構成されており、このベンチマークは主に、LLMの急速に変化する知識に対する適性と、虚偽の前提を持つ質問を特定する能力を評価する
- Hallucination Detection Benchmarks
- Hallucinationの検出のベンチマークに関して、ほとんどの先行研究はタスク固有のHallucinationを扱っている
- 例えば、抽象的な要約(Kryscinski et al., 2020; Wang et al., 2020a; Maynez et al., 2020; Fabbri et al., 2021; Goyal and Durrett, 2021; Pagnoni et al., 2021; Tang et al., 2022)、データからテキストへの変換(Tian et al., 2019; Parikh et al., 2020)、機械翻訳(Zhou et al., 2021)など
- SelfCheckGPT-Wikibio
- Miao et al.(2023)は、WikiBioデータセットからの概念に基づいてGPT-3を使用して合成Wikipedia記事を生成することにより、文レベルのHallucination検出データセットを提案
- これらの文章の事実性は、文レベルで手動でアノテーションされ、合計238の記事に対して1908文が得られました。
- HaluEval
- 自動生成と人間による注釈の組み合わせ、ChatGPTの応答とペアになった5,000の一般的なユーザークエリと、30,000のタスク固有のサンプルを生成
- 自動生成では「サンプリング・フィルタリング」アプローチが採用
- 質問応答、知識に基づく対話、テキスト要約からのタスク固有のデータセットを利用して、ベンチマークは最初にChatGPTを使用してタスク関連のHallucinationパターンに基づいた多面的なHallucinationの回答をサンプリングし、その後、ChatGPTによって最ももっともらしいHallucinationサンプルを選択
- 人間によるアノテーションのために、Alpaca由来のクエリがChatGPTによって処理され、複数の応答をサンプリングし、その後手動でHallucinationの有無を評価した
- BAMBOO
- このベンチマークは、Li et al. (2023c)によって導入された方法論を発展させ、長文のコンテキストにおける幻覚を検出するために、SenHalluとAbsHalluという二つの新しいデータセットを導入しています。これらのデータセットは、ChatGPTに学術的な文脈で幻覚を生成させることによって構築されている
- FELM
- これまでの研究が要約(Fabbri et al., 2021; Tang et al., 2022)や特定のドメイン(Miao et al., 2023)などの特定のタスクに主に焦点を当てていたのに対し、このベンチマークは世界知識、科学技術、数学、文章と推薦、推論といった5つのドメインにわたる事実性を評価する。
- 既存の研究が特定のパターンに基づいてLLMに意図的に幻覚を引き起こすよう誘導していたのに対し(Li et al., 2023c)、このベンチマークではChatGPTを使用してゼロショット設定で応答を生成し、合計817サンプル(3948セグメントを含む)から構成される
- 各セグメントは事実性、エラーの理由、エラータイプ、外部参照の観点から注釈付けされます。事実性検出器のテストベッドとして、このベンチマークはセグメントレベルと応答レベルの両方で事実上のエラーを評価するために、F1スコアとバランスの取れた分類精度を使用する
- PHD
- このベンチマークは文レベルではなく段落レベルでの幻覚検出に焦点を当て、Wikipediaから抽出したエンティティに基づいてChatGPTで生成された文章を使用し、Google検索結果の数に基づいてエンティティを分類して、精度、再現率、F1スコアを用いて非事実的な文章を検出する効果を評価sる
- ScreenEval
- 主に短い文書に焦点を当てた既存の研究を発展させ、長文対話の事実不一致に対応するために、TV台本と人間による要約からなるSummScreenデータセットを基に、AUROCスコアを用いて幻覚検出方法を評価する
- RealHall
- LLMにとって実質的な挑戦を提示し、実世界のアプリケーションに関連性を持ち、多様性を保証する原則に従い、参照テキストの有無に基づいて質問を分類し、AUROCスコアを用いて幻覚検出手法の効果を定量化する
- LSum
- LLMによって行われる要約タスク内の事実一致検出に焦点を当て、XSumデータセットを基に、GPTファミリー、GLMファミリー、LLaMAファミリーなどのLLMを使用して生成された合計6,166の要約を文レベルでアノテーションする
- SAC3
- HotpotQAとNQ-openのトレーニングセットから抽出した例を用いて構築された二つのデータセット、HotpotQA-haluとNQopen-haluを含み、gpt-3.5-turboを使用して生成された幻覚回答を、真実と関連知識源と比較して手動でアノテーションする
Hallucinationの軽減
- Hallucinationsを軽減するための現代的な方法をHallucinationsの原因(§3)に基づき、データ関連のHallucinations(§5.1)、トレーニング関連のHallucinations(§5.2)、および推論関連のHallucinations(§5.3)に対処するアプローチに焦点を当て、それぞれの原因に固有の特定の課題に対処するために特化した解決策を提供する
- Mitigating Data-related Hallucinations
- データ関連のHallucinationは一般にトレーニングデータに根ざしたバイアス、誤情報、および知識のギャップから生まれる
- この文脈では、誤情報とバイアスの発生を最小限に抑えつつ、知識の増強とLLMによる知識の効果的な活用の向上を目指して、そのようなHallucinationを軽減するための様々な戦略を探求する
- Factuality Data Enhancement
- 最も直接的なアプローチは、事前トレーニングデータセットの手動キュレーション
- GPT-2の登場以来、Radford et al. (2019) は人間の専門家による厳格なキュレーションとフィルタリングを経たウェブページのみを収集することの重要性が強調されたが、事前トレーニングデータセットの規模が拡大するにつれて、手動キュレーションは困難になり、高品質なデータを収集することが主要な戦略として浮かび上がってくる
- 注目すべき例としては、Pile(Gao et al., 2021)や“textbook-likeなデータソース(Gunasekar et al., 2023; Li et al., 2023f)など
- さらに、事前トレーニング段階での事実データのアップサンプリングが、LLMの事実の正確さを向上させることが証明されており(Touvron et al., 2023)、これによりHallucinationが軽減される
- Debias
- 事前トレーニングデータ内のバイアスは、重複バイアスと社会的バイアスの2つの主要なカテゴリに分類され、それぞれ独自のアプローチが必要
- Duplication Bias(重複バイアス)
- 事前トレーニング段階での重複除去
- 完全な重複とほぼ重複の2つに分類される
- 完全な重複の場合、最も簡単な方法は、同一の文字列を特定するために正確な部分文字列の照合を行うことだが、事前トレーニングデータの広大さを考えると、このプロセスは計算量が多くなるので、より効率的な方法として、線形時間で多数の部分文字列クエリを効果的に計算できる接尾辞配列の構築(Manber and Myers, 1993)が利用されている
- ほぼ重複を識別するには、通常、ハッシュベースの技術を利用して、重要なn-gramの重なりを持つ文書ペアを特定します。MinHash(Broder, 1997)は大規模な重複除去タスクにおいて広く使用されるアルゴリズムです(Gyawali et al., 2020)。
- Societal Biases(社会的バイアス)
- 事前トレーニングデータの広大で計り知れない性質を考えると、社会的バイアスの根本原因に直接対処することは大きな挑戦(Ferrara, 2023)
- 現在の主流の解決策は、トレーニングコーパスのキュレーションに大きく依存しており、多様でバランスが取れ、代表性のあるトレーニングデータを慎重に選択することで、Hallucinationを引き起こす可能性のあるバイアスを軽減する(Paullada et al., 2021; Narayanan Venkit et al., 2023; Ladhak et al., 2023)
- さらに、ユーザーが既存のモデルとカスタムモデルの両方をdebiasできるようにするツールキット(Viswanath and Zhang, 2023)が提案されている
- Mitigating Knowledge Boundary(知識の境界を軽減する)
- トレーニングデータのカバレッジと時間的な境界に制約されるため、避けがたく知識の境界が形成され、顕著な課題が生じます
- Knowledge Editing(知識編集)
- 追加の知識を組み込むことでモデルの振る舞いを修正することを目的とする
- 現在の知識編集技術は、事実上のエラーを修正し、時代遅れの情報を更新することで知識のギャップを軽減できるとされている
- Modifying Model Parameters
- 直接に知識を元のモデルに注入し、モデルの出力に大幅な変更をもたらすことができる
- Locate-then-edit methods
- 二段階で構成され、最初にモデルパラメータの「バグがある」部分を特定し、その後、モデルの振る舞いを変更するためにそれらに更新を適用する
- 例えば、ROME (Meng et al., 2022) は、活性化を破壊してその後復元することにより、編集関連のレイヤーを特定し、その後、FFNのパラメーターを指向的に更新して知識を編集する
- MEMIT (Meng et al., 2023) はROMEと同じ知識の位置決め方法を採用しており、複数のレイヤーを同時に更新することを可能にし、数千の編集知識を同時に統合することを容易にしている
- しかし、Yao et al. (2023c) によると、これらの方法は非自明な一般化能力を欠き、異なるモデルアーキテクチャに対する性能と適用性が異なり、最も性能が良いとされるROME (Meng et al., 2022) とMEMIT (Meng et al., 2023) は、実証的にはデコーダーのみのLLMでのみうまく機能するとされている
- Meta-learning methods
- 元のモデルの重み更新を予測するための外部ハイパーネットワークをトレーニングする
- しかし、メタラーニング方法はしばしば追加のトレーニングとメモリコストを必要とし、LLMの時代においてハイパーネットワークのサイズを減らすための特別な設計が必要になる
- これらの方法はモデルの振る舞いを細かく調整することができますが、パラメータへの変更はモデルの固有の知識に潜在的に有害な影響を与える可能性がある
- Preserving Model Parameters
- モデルパラメータを直接変更する代わりに、一連の研究では、元のモデルに追加のモデルプラグインを適用し、モデルの振る舞いに望ましい変化をもたらすことを試みている
- SERAC (Mitchell et al., 2022b) は範囲分類器を使用して、外部編集メモリに格納された新しい知識に関連する入力を反事実モデルにルーティングし、更新された情報を処理する際にベースモデルをサポートしている
- モデル全体と比較して、元のモデルに追加のパラメータ層(例:アダプタ層 (Hartvigsen et al., 2022))をプラグインとして組み込むさまざまな技術がある
- T-Patcher (Huang et al., 2023d) とNKB (Dai et al., 2022b) は、知識を蓄えるリポジトリと認識されているFFN層にパッチを追加し、事実の間違いを修正する
- CALINET (Dong et al., 2022) は、PLM内の誤った知識を特定するための評価を提案し、同様にFFNのようなメモリスロットを導入することでFFNの出力を調整し、知識のギャップを軽減する
- これらの方法は、パラメータモジュールをトレーニングする追加のステップを必要とし、トレーニング機能と構造を慎重に設計して、更新された知識にプラグインが役割を果たすよう促しつつ、元のモジュールによって編集されていない事実が処理されるようにする必要がある
- それでもまだまだ改善の余地がある
- Zhong et al. (2023b) は、注入された知識の一般化を評価するためにMQUAKEを提案し、編集後のモデルは編集された知識を見つけることができるが、複雑なマルチホップの質問になると失敗するという結果を見つけている
- Wu et al. (2023) や Wang et al. (2023e) などの研究によると、既存の編集方法はクロスランゲージの一般化能力に欠けていると述べている
- Pinter and Elhadad (2023) は、知識編集技術がLLMのhallucinationsを軽減しようとする際にユーザーに潜在的なリスクを導入する可能性があり、明示的な知識を取り入れた方法(例:検索強化手法)を利用することを勧めている
- Retrieval Augmentation(検索強化)
- 知識ギャップを軽減する直感的な方法として、検索強化生成(Retrieval-Augmented Generation, RAG)(Lewis et al., 2020b; Guu et al., 2020; Shuster et al., 2021)があり、これは外部の知識源から検索された関連文書に基づいてLLMの生成を行うことで基盤づけられます
- 通常、RAGはretrieve-then-readのパイプラインに従い、関連する文脈の文書を最初にリトリーバー(Karpukhin et al., 2020)を用いて外部ソースから検索し、その後、入力テキストと検索された文書の両方を条件としてジェネレーターが望ましい出力を生成する
- One-time Retrieval
- 1度限りの検索は、単一の検索から得られた外部知識をLLMのプロンプトに直接追加することを目的とする
- Ram et al. (2023) はIncontext RALMを導入し、これは選択された文書をLLMの入力テキストに前置するというシンプルな手法で、In-context RALMの使用が、多様なLLMのサイズやコーパスに対して、一貫して性能を向上させることを示した
- 特に、ランキングメカニズムの組み込みが、さらなる性能向上を促進することが示されている
- 知識グラフKGは、LLMに最新の知識との対話を促進し、強固な推論の道筋を引き出すための重要なツール(Wen et al., 2023; Qi et al., 2023; Baek et al., 2023)
- Varshney et al. (2023) は、ドメイン固有の知識でLLMを強化するParametric Knowledge Guiding (PKG) フレームワークを提案し、訓練可能な背景知識モジュールを使用し、それをタスク知識と整合させ、関連する文脈情報を生成する。PKGの有効性は、取得した背景知識を組み込むことによってLLMの忠実性を高めるところにある。
- Iterative Retrieval
- マルチステップの推論(Yang et al., 2018c)やロングフォームの質問応答(Fan et al., 2019; Stelmakh et al., 2022)のような複雑な課題に直面した場合、従来の一度限りの検索では不十分な場合がある
- 要求の高い情報ニーズに対処するため、最近の研究では、生成プロセス全体を通じて知識を連続して収集する反復的な検索が提案されている
- マルチステップの推論におけるLLMへの大きな進歩を認識し(Wei et al. 2022)、多くの研究(Yao et al., 2022; Trivedi et al., 2023; He et al., 2023)は、各推論ステップで外部知識を組み込み、進行中の推論に基づいて検索プロセスをさらに導くことを試み、推論チェーンにおける事実の誤りを減らそうとしている
- CoTプロンプトをベースに、Press et al. (2022) はself-askを提案。従来の連続した、定義されていない思考の連鎖プロンプトから逸脱し、self-askは各ステップで対処する予定の質問を明確にし、その後フォローアップの質問に基づいて検索アクションを組み込みむ。
- CoTを起点に単純にretrieveするのではなく、Feng et al. (2023b) とShao et al. (2023) は、モデルの応答がより関連する知識を取得できるように機能し、次のイテレーションでの応答を精錬されたものにするという、反復的な検索生成協働フレームワークを採用
- マルチステップの推論タスクを超えて、Jiang et al. (2023) はロングフォームの生成に焦点を移してアクティブな検索強化生成フレームワークを提案
- これは後続の推論に関連する文書を取得するためのクエリとして反復的に扱い、推論が自信の低いトークンを含む場合その文は再生成される
- 反復的な検索を中間生成を改善するために使用することに加えて、Zhang et al. (2023e) はMixAlignを紹介しており、モデルベースのガイダンスを使用してユーザーの質問を反復的に洗練し、ユーザーからの明確化を求め、最終的に質問と知識の間のアライメントを高めている
- Post-hoc Retrieval
- 従来のretrieve-then-readのパラダイムを超えて、事後の検索に焦点を当てた研究があり、これは後続の検索ベースの改訂を通じてLLMの出力を精錬させる
- Gao et al. (2023a) はtrustworthinessとattributionを高めるために、関連する証拠を調査し、その後証拠との相違を検出した基づいて初期の生成を改訂する「research-then-revise」のワークフローを提案
- Zhao et al. (2023a) は、外部知識を取り入れることで推論チェーンの事実の正確さを高める「verify-and-edit」フレームワークを提案
- 平均以下のconsistencyを示す推論チェーンに対して、フレームワークは検証の質問を生成し、その後取得した知識に基づいて根拠を洗練し、より事実に基づいた応答を生成する
- Yu et al. (2023d) は、単一の回答を生成するだけでなく様々な潜在的な回答をサンプリングし、より包括的な検索フィードバックを可能にした。さらに、検索前後の回答の可能性を考慮するアンサンブル技術を採用することで、誤解を招く検索フィードバックのリスクをさらに軽減した
- Mitigating Knowledge Shortcut
- 知識ショートカットは、LLMが事実知識を捉えるために、事前トレーニングコーパスの共起統計などの偽の相関に依存する場合に現れる
- モデルのサイズを拡大しても、あるいはファインチューニングをしても共起バイアスは残る
- Kang and Choi (2023) は、バイアスのあるサンプルを排除して構築されたdebiasされたデータセットに対するファインチューニングを提案。これはより多くのサンプルが排除されるにつれて、debiasされたデータでのファインチューニングによってLLMはトレーニングセットの稀な事実を記憶できるようになりますが、ファインチューニング中に見られなかった稀な事実を思い出すのには効果的ではない
- Mitigating Knowledge Recall Failures
- Hallucinationの一般的な原因は、モデルがそのパラメトリック知識に埋め込まれた関連情報を正確に取得し適用することができないこと
- Knowledge Recallを強化することで、モデルの出力を検証可能な知識により確実に固定し、Hallucinationに対するより強固な防御を提供することができる
- 通常、知識をリコールする最も直接的なアプローチは、思考の連鎖(Chain-of-Thought, CoT)プロンプトを通じてLLMに推論させることだが、Zhong et al. (2023b) は、単にCoTを適用するだけで知識リコールが増加し、マルチホップ設定の下での事実の編集におけるパフォーマンスを大幅に向上させることを示唆
- Zheng et al. (2023) は推論ステップを取り入れる代わりに、質問に関連情報を直接補足することで、モデルが重要な知識をリコールする能力を向上させることができると主張
- Wang et al. (2023g) は、このアプローチをさらに進め、概念化を使用して元の常識知識を高レベルの抽象知識に蒸留し、知識リコールを向上させている
- Mitigating Training-related Hallucination
- Mitigating Pretraining-related Hallucination
- 新しいモデルアーキテクチャの探求と事前トレーニング目標の改善に重点を置いている
- Mitigating Flawed Model Architecture(不完全なモデルアーキテクチャの軽減)
- Mitigating unidirectionall Representation(一方向表現の軽減)
- 一方向表現の固有の限界に対処するため、Li et al. (2023h) は双方向自己回帰アプローチを採用したBATGPTを提案
- この設計により、モデルは過去と未来の両方の文脈を考慮して、すでに見たすべてのトークンに基づいて次のトークンを予測でき、両方向の依存関係を捉えることが可能に
- このアイデアを発展させ、Liu et al. (2023e) は、エンコーダー-デコーダーモデルがコンテキストウィンドウをより良く利用する可能性を強調し、将来のLLMアーキテクチャ設計の有望な方向性を示唆している
- Mitigating Attention Glitches(注意の問題の軽減)
- self-attentionベースのアーキテクチャ内のソフトアテンションの限界を認識し、Liu et al. (2023a) はattentionを鋭くする正則化手法を提案
- このプラグアンドプレイアプローチは、微分可能な損失項(Zhang et al., 2018)を使用して自己注意アーキテクチャを疎にし、疎性を促進することで、推論における幻覚を大幅に削減
- Mitigating Suboptimal Pre-training Objective
- objectiveの選択がモデルのパフォーマンスを決定する上で重要な役割を果たす
- 従来のobjectiveだと断片化された表現やモデル出力の不整合を引き起こす可能性がある
- 最近の進歩は、事前トレーニング戦略を洗練し、より豊かな文脈理解を確保し、バイアスを回避することにより、これらの課題に対処しようとしている
- Training Objective
- GPUメモリの制約と計算効率のために文書レベルでの構造化されていない事実知識が断片化されることが多いという、LLMのトレーニングの固有の制限に対処するため、Lee et al. (2022b) は事実性を強化したトレーニング方法を提案
- 事実に基づいた文書の各文にTOPICPREFIXを追加することで、それらを独立した事実に変換し、事実エラーを大幅に削減し、モデルの事実関連の理解を高めた
- 同様に、事前トレーニング中に短い文書をランダムに連結することがモデルの出力に不整合をもたらす可能性があることを考慮し、Shi et al. (2023c) はIn-Context Pretrainingという革新的なアプローチを提案し。文書の順序を変更し、関連する文書のシーケンス上でLLMをトレーニングすることで、文脈ウィンドウ内の類似性を最大化することを目指し、文書境界を越えて推論することをLLMに明示的に奨励し、生成物間の論理的一貫性を強化する可能性がある
- Exposure Bias
- 露出バイアスによって引き起こされる幻覚は、エラーの蓄積に密接に関連しており、Arora et al. (2022) によって指摘されている
- 露出バイアスを軽減するためにいくつかのアプローチが提案されているものの(Chen et al. 2020; Welleck et al. 2020; Bertsch et al. 2023)、Hallucinationに直接関連付けられた研究は少ない
- Wang et al. (2023b) は、Neural Machine Translation(NMT)のドメインシフトシナリオで不適切な相関関係を軽減するために、permutation multi-task学習フレームワーク内で中間シーケンスを監督信号として組み込むことを提案
- Mitigating Misalignment Hallucination
- アライメント中に誘発されるHallucinationは、しばしば能力のミスアライメント(capability misalignment)と信念のミスアライメント(belief misalignment)から生じる
- LLMの知識の境界を定義することは難しいため、LLMの固有の能力と人間によるアノテーションされたデータに提示された知識との間のギャップを埋めることは困難
- 能力のミスアライメントに対処する研究は限られているので、焦点は主に信念のミスアライメントに移っている
- 信念のミスアライメントに由来するHallucinationは、しばしばお世辞行動として現れ、LLMが好ましくない方法で人間の承認を求める傾向があります。このお世辞行動は、人間の好みの判断が真実よりもお世辞の反応を好むことが多いという事実に起因することができ、報酬のハッキング(Saunders et al., 2022)の道を開く
- これに対処するためには、人間の好みの判断を改善し、それに伴って好みのモデルを改善することが直接的な戦略
- 最近の研究(Bowman et al., 2022; Saunders et al., 2022)では、人間のラベラーが見落とされた欠陥を識別するのを助けるためにLLMを使用することが調査されている
- harma et al. (2023) は、複数の人間の好みを集約することでフィードバックの質が向上し、お世辞行動が減少することを発見
- LLMのinternal activationsの変更も、モデルの振る舞いを変える潜在性を示していて、これは、推論中のfine-tuning(Wei et al., 2023)やactivation steering(Dathathri et al., 2020; Subramani et al., 2022; Gu et al., 2022b,c; Hernandez et al., 2023)などの方法によって達成されることがある
- Wei et al. (2023) は、合成データを用いた介入を提案し、ユーザーの意見とは独立した主張の真実を持つ合成データを使用して言語モデルをfine-tuningし、お世辞の傾向を減らすことを目指している
- お世辞行動を緩和するための別の研究路線(Rimsky, 2023b,a)はactivation steeringを通じて行われ、お世辞/非お世辞のプロンプトのペアを使用してお世辞のステアリングベクトルを生成し、これは中間活性化の差の平均化によって導出される
- 推論中にこのベクトルを引くことで、お世辞行動の少ないLLMの出力を生成することができる
- Mitigating Inference-related Hallucination
- デコーディング戦略は、生成されたコンテンツの事実性と信頼性を決定する上で中心的な役割を果たすが、不完全なデコーディングは、事実性を欠いたり元の文脈から逸脱したりする出力をもたらすことがしばしばある
- Factuality Enhanced Decoding(事実性強化デコーディング)
- LLMによって生成される情報の事実性を保証することに焦点を当てている
- On Standalone Decoding(独立したデコーディング)
- サンプリングプロセスのランダム性が開放型テキスト生成に非事実内容を導入する可能性があることを考慮して、Lee et al. (2022b) は、文生成を通じて「核」pを動的に調整する事実核サンプリングアルゴリズムを提案
- 核確率を減衰因子と下限値に基づいて動的に調整し、新しい文の開始時に核確率をリセットすることで、デコーディング戦略は事実内容の生成と出力の多様性の保存の間のバランスをとる
- etc…..
- Post-editing Decoding(事後編集デコーディング)
- 初期デコーディング中に確率分布を直接変更して幻覚を防ぐ方法とは異なり、事後編集デコーディングは、外部知識ベースに頼ることなく、元々生成されたコンテンツを洗練するLLMの自己修正能力を活用しようとするもの
- Dhuliawala et al. (2023) は、適切にプロンプトされたときにLLMが自己の間違いを修正し、より正確な事実を提供できるという仮定の下で動作するChain-of-Verification(COVE)を提案。最初の草稿から始めて、検証のための質問をまず策定し、それらの質問に体系的に答えて、最終的に改善された改訂された応答を生み出す。
- 同様に、Ji et al. (2023b) は医療分野に焦点を当て、反復的な自己反映プロセスを導入しました。このプロセスは、LLMの固有の能力を活用してまず事実知識を生成し、提供された背景知識と一貫して整合するまで応答を洗練させる
- Faithfulness Enhanced Decoding(忠実性強化デコーディング)
- ユーザー指示や提供された文脈との整合性を優先し、生成されたコンテンツ内の一貫性を高めることを重視
- Context Consistency(文脈の一貫性)
- 文脈の一貫性を優先するデコーディング戦略は、ユーザー指示と提供された文脈の両方に対するLLMの信頼性を強化するよう設計されている
- LLMの時代以前には、抽象的要約やデータからテキストへの分野を中心に文脈の一貫性の改善が広範囲にわたって探求された
- Tian et al. (2019) は、デコーディングプロセス中に信頼スコアを組み込み、モデルのソースへの注意レベルを測定するデコーディングを提案し、信頼スコアが高いときにソースを強調することで、文脈に注意を払わないことから生じるHallucinationを軽減する
- van der Poel et al. (2022) は、デコーディング目標を相互情報量にシフトしました。このアプローチは、モデルの不確実性が高まるとき、特にソースドキュメントに関連するトークンを優先するようモデルに促す
- LLMの時代になっても、文脈への不十分な注意によるHallucinationの問題は残っている
- Shi et al. (2023b) は、文脈に注意を払うデコーディング(CAD)を提案し、過去の知識に対する依存を減らすことによってモデルの文脈情報への集中を促進
- しかし多様性と帰属の間の固有のトレードオフにより、文脈情報を過度に強調することは多様性を減少させる可能性がある
- Chang et al. (2023a)は、帰属を強化しながら多様性を保持する革新的なサンプリングアルゴリズムを提案。この方法は2つの並行デコーディングを行い、一方はソースを考慮し、もう一方は考慮せず、トークン分布間のKL発散を使用して動的にtempertureを調整し、ソースの帰属を反映する。
- Logical Consistency(論理の一貫性)
- LMでは論理的一貫性が不可欠であり、特にマルチステップ推論中に一貫した応答を保証し、Hallucinationを防止するために重要
- CoTプロンプトの固有の自己一貫性を強化するために、Wang et al. (2023f) は知識蒸留フレームワークを用いています。彼らはまず対照的デコーディング(Li et al., 2022c)を使用して一貫した根拠を生成し、その後反事実推論の目標を持つstudent modelをfine-tuningする
- これは、根拠を考慮せずに答えを導出する推論のショートカット(Branco et al., 2021)を効果的に排除する
- さらに、対照的デコーディングを直接使用することで、LLMは表面レベルのコピーを減らし、推論ステップの欠落を防ぐ(O'Brien and Lewis, 2023)
Challenges and Open Questions
- Can Self-Correct Mechanisms Help in Mitigating Reasoning Hallucinations?
- LLMは、Chain-of-Thought(思考の連鎖)プロンプティング(Wei et al., 2022)を通じて複雑な推論タスクに取り組む顕著な能力を示していますが、時には推論ステップ内の不一致や推論チェーンに論理的に続かない結論によってunfaithfulな推論をすることがある
- 研究によると、外部フィードバックを統合することで、推論におけるこのような幻覚を著しく軽減できることが示されている。このフィードバックは通常、検索プロセス(He et al., 2023; Gou et al., 2023)、他のLLMとの対話型ディベート(Du et al., 2023; Cohen et al., 2023)、または外部評価指標からのガイダンス(Lei et al., 2023; Khalifa et al., 2023)を通じて外部知識ソースから提供される
- 一方で、研究の一派(Madaan et al., 2023; Yao et al., 2023b; Xie et al., 2023)は、外部フィードバックに依存せずに、LLMが内蔵の能力を使用して初期の応答を修正する自己修正メカニズムの可能性を探っている
- 自己修正は、特に反復的な設定で忠実かつ正確な推論を達成するための有望な手段として示されていますが、ある研究(Stechly et al., 2023; Huang et al., 2023a; Valmeekam et al., 2023)は、LLMがまだ推論チェーンを自己修正するのに苦労していることを指摘し、自己修正メカニズムの効果に疑問を投げかけている
- Can We Accurately Capture LLM Knowledge Boundaries?
- LLMが自己の知識の限界を認識せずに確信を持って虚偽を生成するHallucinationsが発生する
- 多くの研究がLLMの知識の境界を探ることに取り組んでおり、複数選択肢設定における正しい応答の確率を評価する(Kadavath et al., 2022)、あるいは不確定な意味を持つ文のセット間の類似性を評価してモデルの出力の不確実性を定量化するなどの戦略を利用している
- Levinstein and Herrmann(2023)は、LLMが信念を持っているかどうかを探るために経験的および概念的ツールを作成しているが、在のLLM用の嘘検出器メソッドはまだ完全に信頼できるものではなく、(Burns et al., 2022)と(Azaria and Mitchell, 2023)によって提案された探査方法は十分に一般化されていない
- How Can We Strike a Balance between Creativity and Factuality?
- 真実性と信頼性を備えたLLMを開発する過程で、創造性と事実性のバランスをどう取るかという課題が、特に重要な懸念事項となっている(Mukherjee and Chang, 2023; Lee, 2023)