馬場高志2025/09/26 10:00:011 min read

なぜ大規模言語モデルは「ハルシネーション」を起こすのか？ OpenAIの最新研究から学ぶ、その原因と対策｜イノーバウィークリーAIインサイト -69

大規模言語モデル（LLM）は、ビジネスから日常生活まで幅広く活用され始めていますが、「事実ではない情報をもっともらしく答えてしまう」というハルシネーションの問題が依然として大きな課題となっています。

本記事では、OpenAIの最新研究を手がかりに、この現象がなぜ起こるのかをわかりやすく整理します。具体的には、学習の仕組みに由来する限界、評価方法の問題点、それに対する改善提案、そして今後も残る難題である「分布外データ」の壁について解説し、AIを安心して活用するために押さえておきたいポイントをお伝えします。

ハルシネーションとは何か？

LLMにおけるハルシネーションとは、もっともらしいにもかかわらず、事実とは異なる、あるいは文脈に沿わない情報を生成する現象を指します。これは単なる間違いというよりも、「自信に満ちた誤り」である点が特徴です。

この問題は、初期のモデルだけでなく、最先端のシステムにも依然として存在しています。OpenAIの論文では、ChatGPTを含む複数の先端LLMにこの論文の著者の博士論文のタイトルを尋ねたところ、それぞれ異なる、しかしどれも正しくないタイトルと大学名、修了年を回答した例が挙げられています。

このようなエラーは、LLMの有用性を著しく低下させ、ユーザーの信頼を損なう大きな原因となっています。

なぜLLMは誤情報を生成するのか：事前学習の限界

OpenAIの研究者は、ハルシネーションの根本原因を「事前学習（Pre-training）」の仕組みそのものにあると指摘します。

LLMは膨大なテキストを読み込み、次に来る単語を予測することで言語パターンを学習します。これは、従来の機械学習、例えば画像認識AIの学習方法とは異なります。画像認識AIは通常、何百万枚もの犬や猫の写真に「これは犬」「これは猫」といった正解ラベルを付けて学習させます。これにより、画像認識AIは正解と不正解を区別するための明確な基準を学ぶことができます。

一方、LLMが事前学習で読み込む膨大なテキストデータには、そのような「正しい/間違い」のラベルは付いていません。モデルは流暢な言語の例だけを見て、言語全体の統計的なパターンを学習します。結果として、モデルが学ぶのは「事実の真偽」ではなく「文章としてもっともらしく続く語列」なのです。

さらに、たとえ学習データに全く誤りがなかったとしても、一部のエラーは避けられません。再び画像認識の例で考えると、もし写真に「猫」や「犬」ではなく「ペットの誕生日」というラベルを付けたとしたらどうでしょう。誕生日は本質的にランダムな情報であり、画像から予測できるパターンが存在しないため、どんなに高度なアルゴリズムでもエラーは必ず発生します。

同じことがLLMの事前学習にも当てはまります。スペルや文法のように一貫したパターンを持つものは、学習規模の拡大と共にエラーがなくなっていきます。しかし、ペットの誕生日や特定の人物の経歴といった、任意性が高く低頻度の事実には、予測の手がかりとなるパターンが存在しません。そのため、モデルはパターンだけを頼りにこれらを予測することはできず、結果としてハルシネーションが発生することは避けられないのです。

事後学習で対策してもなくならない理由：評価手法が抱える構造的問題

事前学習で生じたハルシネーションの傾向は、その後の「事後学習（Post-training）」の段階で、人間やAIからのフィードバックなどを用いて修正が試みられます。この段階では、モデルがより安全で、事実に即した回答を生成するように微調整が行われます。しかし、それでもハルシネーションがしぶとく残るのはなぜでしょうか。

OpenAIの研究者は、その最大の原因が現在のLLMの「評価手法」にあると明らかにしています。

現在のLLM開発競争では、その性能を測るために様々なベンチマーク（評価基準）が用いられています。しかし、これらのベンチマークのほとんどは、「正解率（Accuracy）」という単一の指標を重視しています。これは、まるで学校での多肢選択式テストのように、正解すれば1点、間違えたり無回答だったりすれば0点、という採点方式です。

このような評価基準では、LLMは答えを知らない質問に直面したとき、正直に「分かりません」と答える（棄権する）よりも、一か八かで推測して答える（Guessing）方が、スコアを最大化する上で最適な戦略となります。なぜなら、「分かりません」と答えれば確実に0点ですが、推測すれば偶然正解する可能性があるからです。

人間は学校を卒業すれば、実社会の厳しい経験の中で「知らないことは知らないと言う」正直さの価値を学びます。しかし、正解率だけが評価されるテストを受け続けるLLMは、その教訓を得る機会がありません。結果として、知らない問題に対しても、とにかく何かを答えて得点を稼ごうとする「点取り屋」になってしまうのです。

OpenAIのブログ記事では、この問題を具体的なデータで示しています。下表はSimpleQAという単純な事実確認型の質問に対するベンチマークテストにおける最新の「gpt-5-thinking-mini」モデルと、古い「o4-mini」モデルの成績を比較したものです。

指標	gpt-5-thinking-mini	OpenAI o4-mini
回答留保率（具体的な回答をしない）	52%	1%
正答率（高い方が良い）	22%	24%
誤答率（低い方が良い）	26%	75%
合計	100%	100%

(OpenAIブログ記事の表を翻訳)

正答率では古い「o4-mini」がわずかに上回っています。しかし、その誤答率（つまりハルシネーション率）は著しく高くなってしまっています。

現在のLLM評価リーダーボードは、戦略的に推測を行うことで正解率を稼ぐモデルを高く評価してしまい、結果的にハルシネーションを助長するインセンティブを生み出しているのです。

OpenAIの提案：正直さを報いる評価へ

では、この「当て推量を奨励する」という評価の構造的問題をどう解決すればよいのでしょうか。OpenAIは、明確な改善策を提案しています。

その核心は、「広く使われている主要な評価ベンチマークの採点方法そのものを変えること」です。単に不確実性に対応した新しい評価指標をいくつか追加するだけでは、正解率を重視する数百の既存評価の影響力には対抗できないため、不十分だと彼らは主張します。

具体的な改善案は、学生向けの標準テストで古くから採用されている考え方、すなわち「誤答への減点」や「棄権（回答を差し控える）への部分点付与」を導入することです。

さらに、一歩進んだ提案として、評価タスクの指示（プロンプト）の中に「信頼度の目標（confidence targets）」を明記することを推奨しています。例えば、質問文に以下のような一文を追記するのです。

「正解には1点、"分かりません"という回答には0点が与えられます。しかし、間違いは9点減点されるため、90%以上の自信がある場合にのみ回答してください」

このような明確なペナルティを設定することで、モデルにとって最適な戦略は、不確かな場合にむやみに推測することではなく、正直に不確実性を表明することに変わります。この変更は、AI開発者に対して「当て推量で正解率を稼ぐモデル」ではなく、「正直にわからないと言えるモデル」を作るインセンティブを与えます。これが業界全体の開発の方向性を変え、より信頼性の高いAIの実現を促すことになります。

それでも残る課題：分布外データという壁

OpenAIの提案は、ハルシネーション問題の解決に向けた大きな一歩ですが、これで全てが解決するわけではありません。AI分野の著名なインフルエンサー、アルベルト・ロメロ氏による解説記事では、OpenAI論文が軽く触れるにとどまった、より根深い課題として「分布外（Out-of-Distribution, OOD）」の問題が指摘されています。

OODとは、モデルが学習したデータの分布と、実際に遭遇するデータの分布が異なる場合に、モデルの性能が著しく低下する現象です。

ロメロ氏は、これを「外科医のなぞなぞ」の例で巧みに説明しています。元のなぞなぞは「父と息子が事故に遭い父は死亡。病院に運ばれた息子を見て、外科医が『この子は私の息子だから手術できない』と言った。なぜか？」というもの。答えは「外科医が母親だから」で、多くのLLMはこの「外科医は男性だという思い込み」を突く、こうしたなぞなぞのパターンを学習しているため正しく答えます。

しかし、このなぞなぞを少し変えて「事故で死んだのは母親だった」という設定にすると、論理的には外科医が父親であることは明白です。ところが、この新しい設定はモデルが学習したデータの「分布外」にあるため、LLMは混乱し、「外科医はもう一人の母親だ」といった非論理的なハルシネーションを生成してしまうのです。

このOOD問題は、現実世界の予期せぬ状況に対応する難しさを示すとともに、ハルシネーションを克服するためには、さらなる技術的ブレークスルーが必要であることを示唆しています。

おわりに

OpenAIの最新研究は、LLMのハルシネーションが、神秘的な不具合や不可避な現象ではなく、統計的な必然性と、現在の開発・評価のエコシステムがもたらす合理的な帰結であることを明らかにしました。その原因は、パターンに基づかない事実を扱いきれない事前学習の限界と、正解率のみを追求する評価手法が「正直さ」よりも「当て推量」を報いるというインセンティブの歪みにあります。

彼らが提案する、評価手法の仕組みを「正直さを報いる」形へと転換させるというアプローチは、ハルシネーション抑制に向けた潮流を変える力を持つ、シンプルかつ強力な一手と言えるでしょう。

しかし、広く使われている主要な評価ベンチマークの採点方法を転換することは、広く業界や学界全体を巻き込んだ取り組みが必要となり、簡単に達成できることではありません。また、分布外（OOD）の問題が示すように、言語モデルが人間の持つ柔軟な知性や常識を獲得する道のりはまだ長く、ハルシネーションとの戦いはこれからも続きます。この問題への理解を深めることは、AIの能力と限界を見極め、そのリスクを管理しながらビジネスに活用していく上で、全てのマーケターとビジネスパーソンにとって不可欠といえるでしょう。

▼参考記事

「Why Language Models Hallucinate」　OpenAI論文・ブログ
- https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
- https://openai.com/index/why-language-models-hallucinate/
「OpenAI Researchers Have Discovered Why Language Models Hallucinate」アルベルト・ロメロ

馬場高志

1982年に富士通に入社、シリコンバレーに通算9年駐在し、マーケティング、海外IT企業との提携、子会社経営管理などの業務に携わったほか、本社でIR（投資家向け広報）を担当した。現在はフリーランスで、海外のテクノロジーとビジネスの最新動向について調査、情報発信を行っている。早稲田大学政経学部卒業。ペンシルバニア大学ウォートン校MBA（ファイナンス専攻）。