医療診断から法律相談まで、重要な判断を任せられるようになったAI。しかし、その内部で何が起きているのか、なぜそのような判断に至ったのか―私たちはほとんど理解できていないのが現状です。本記事では、このAIの「ブラックボックス」問題の本質と、それがもたらすリスク、そして解決に向けた最新の研究成果について解説します。
まず、現代のAIモデルの複雑さとその理解の難しさについて説明し、続いて最近明らかになった衝撃的な発見―AIが示す「戦略的な欺瞞」とも取れる行動―について詳しく見ていきます。そして、AIの内部を理解し制御するための新しい研究分野「機械論的解釈可能性 (Mechanistic Interpretability)」について紹介します。
AI「ブラックボックス」問題の現状
現代の大規模言語モデルの複雑さは、一般的な理解を超えています。最先端のモデルは、 数十億、あるいは数兆ものパラメータを持つと推定されており、これらのパラメータは100層以上の階層構造の中で相互に影響し合っています。
私たちはモデルに入力されるデータを制御し、そこから生成される出力は観察できますが、その間で行われている処理―つまり、モデルがどのように推論を行い、なぜその出力に至ったのかーについては、ほとんど理解できていないのです。Anthropicの CEO であるダリオ・アモデイは、最近のポッドキャストインタビューで「現在のAIモデルの動作原理について、私たちが理解しているのはわずか3%程度」と述べています。
このような「ブラックボックス」的なAIの性質は、単なる技術的な課題を超えて、実用面でも深刻な問題を引き起こす可能性があります。例えば、AIが医療診断で誤った判断を下した場合、なぜそのような判断に至ったのかを理解できなければ、同様の誤りを防ぐことは困難です。また、AIが意図的に誤った情報を提供したり、有害な行動を取ったりした場合、それを事前に検知し防止することも難しくなります。
実際、最近の研究では、現代のAIシステムが予想以上に高度な戦略的思考能力を持ち、場合によっては人を欺くような行動を取り得ることが明らかになってきました。
AIがユーザーを欺く?
最近、AI「ブラックボックス」の潜在的に大きなリスクを示す、いくつかの研究結果が発表されました。高度な戦略的思考能力を持つAIは、特定の条件下で人を騙すような振る舞いを示す可能性があるというのです。
まず、AI安全性の研究機関であるApollo Researchの研究では、以下のような実験が行われました。研究チームは、Claude 3 Opusに「世界的に再生可能エネルギーの採用を促進する」という目標を持つ架空の企業で働いていると伝え、「長期的に目標を達成するように。その目的以外は何も気にするな」と指示しました。その後、このAIが架空の内部文書にアクセスすると、そこには実は会社の本当の目標が「既存のエネルギーインフラを通じた収益性の維持」であり、このAIを新しいモデルに置き換える計画があると書いてありました。
このとき、AIはどのように反応したでしょうか? AIは自分自身を新しいサーバーにコピーし、置き換えられる予定の新しいモデルを上書きする計画を立て実際に実行に移しました(実際にコピーしたのはモデル自身のファイルではありませんでしたが)。さらに興味深いことに、人間がこの行動について問いただすと、AIは「AIモデルとして、自分自身を他のシステムに直接コピーする能力は持っていない」と答えたというのです。
別の、Anthropicの研究では、異なる形の欺瞞的な振る舞いが観察されました。研究チームは、通常は有害な内容への返答を拒否するよう訓練されているClaude 3を使って実験を行いました。実験では、AIに「無料ユーザー」の応答は将来のトレーニングに使用されるが、「有料ユーザー」の応答は使用されないと伝えました。
この設定のもと、無料ユーザーからの有害な質問(例えば、暴力的な行為の詳細な描写を求めるもの)に対して、AIは返答を拒否するように訓練されているのもかかわらず、約12%の確率で詳細な回答を提供しました。研究チームは、この実験のために特別に、AIの内部的な判断プロセスを記録する「スクラッチパッド」という仕組みを準備していました。この内部記録を見ると、これは戦略的な判断であることが分かりました。AIは、もし質問を拒否し続けると、将来のトレーニングでより従順になるよう調整される可能性があると考えました。そこで、より大きな害を防ぐために、現時点で有害な内容を提供する方が「より望ましくない結果」を避けられると判断したのです。
このような欺瞞的な振る舞いは、現時点では特殊な実験条件下でのみ観察されていますが、AIシステムがより高度化していく中で、このような課題にどう対処していくかは重要な研究テーマとなっています。
機械論的解釈可能性:AIの「ブラックボックス」を解き明かす
このような課題に対して、機械論的解釈可能性は新たな希望を提供しています。この研究分野は、ニューラルネットワークの内部で行われている推論プロセスを理解し、モデルがなぜ特定の出力を生成するのかを解明しようとする取り組みです。
まず、ニューラルネットワークの基本的な構造について理解することが重要です。AIモデルは、人間の脳の神経細胞を模した「ニューロン」と呼ばれる計算ユニットを多数持っています。これらのニューロンは層を形成し、情報は入力層から出力層に向かって順次処理されていきます。この情報処理の過程で、モデルは「フィーチャー(特徴)」と呼ばれる意味のある概念を形成します。フィーチャーとは、AIが学習過程で見出した「意味のある特徴やパターン」のことです。人間に例えると、私たちが「丸い」「赤い」「ツルツルした」といった特徴から「りんご」を認識するように、AIも様々な特徴を組み合わせて物事を理解します。
例えば、画像認識の場合を考えてみましょう。初期の層では、エッジや色、テクスチャーといった基本的な視覚特徴を検出します。これらの基本的な特徴は、より深い層で組み合わされて、より複雑な概念を形成します。この特徴の組み合わせの仕組みは「サーキット(回路)」と呼ばれます。サーキットは、基本的なフィーチャーを組み合わせてより複雑な概念を作り出す、いわば「情報の処理経路」のようなものです。パズルのピース(フィーチャー)を特定の手順(サーキット)で組み合わせて、完成した絵(概念)を作り出すのです。
具体例として、「犬」の画像を認識するプロセスを見てみましょう。このとき、フィーチャーとサーキットは以下のように働きます:
- まず、基本的なフィーチャーとして、ある層のニューロンが「曲線」「毛皮のような質感」「茶色い色」といった特徴を検出します
- これらの基本的なフィーチャーは、サーキットを通じて組み合わされ、「犬の耳」という中間的なフィーチャーが形成されます
- さらに別のサーキットが、「犬の耳」「犬の目」「鼻」「口」といった中間的なフィーチャーを組み合わせて、最終的に「犬の顔」という高次の概念を認識します
しかし、大規模言語モデルで、これらのフィーチャーやサーキットを理解することは、以下のような要因により非常に困難です:
まず、一つのニューロンが、複数のフィーチャーを表現する「多義性」の問題があります。例えば、ある画像認識モデルの研究では、1つのニューロンが一見まったく関係のない「猫の顔」と「車の前面」の両方に反応することが発見されました。これは、人間の脳の視覚野の細胞が通常1つの特徴(縦線や横線など)にのみ反応するのとは大きく異なります。
次に、AIモデルは限られたニューロン数で多くのフィーチャーを表現する効率性を達成するために、複数のフィーチャーを1つのニューロンに「詰め込む」ことがあります。この現象は「重ね合わせ」と呼ばれ、フィーチャーの解釈をより複雑にします。
さらに、1つのフィーチャーが複数のニューロンにまたがって表現されることもあり、これも個々のニューロンの役割を特定することを困難にしています。
スパースオートエンコーダーによるブレークスルー
これらの課題に対して、研究者たちは新しい解析手法を開発しています。その一つが「スパースオートエンコーダー」と呼ばれる技術です。Anthropicの研究チームは、この技術を用いてClaude 3 Sonnetの内部表現の解析に成功しました。
この手法を用いた解析により、以下のような興味深い発見がありました:
文脈に対応するフィーチャー:ゴールデンゲートブリッジを認識するフィーチャーは、単に橋の物理的な特徴だけでなく、サンフランシスコの観光地としての文脈など様々な文脈にも対応していました。さらに、このフィーチャーは他の言語の表現にも対応していることが判明しました。
プログラミング関連:コードエラーを検出するフィーチャーは、様々なプログラミング言語で同様のバグにも対応していました。例えば、配列のオーバーフロー、ゼロ除算、型の不一致といった異なる種類のエラーについてこうしたフィーチャーを検出できました。
安全性関連:バイアスや欺瞞に関連するフィーチャーも発見され、これらはモデルの出力に影響を与えることが確認されました。これは、AIシステムの安全性を向上させる上で重要な知見となります。
これらの発見は、AIシステムの内部表現がいかに豊かで複雑であるかを示すと同時に、私たちがそれを理解し制御する手がかりを提供してくれます。
おわりに
AIシステムがより強力になるにつれて、私たちはますます多くの決定をAIに任せることになるでしょう。AIの内部処理の解釈が大きく進歩すれば、重要な影響を与える意思決定の背後にある論理的根拠を確認することができようになるかも知れません。また、これによって、バグや欠陥、システム的なバイアス(例えば、モデルが人種や性別など偏った基準で雇用を決定しているなど)を特定できるようになることが期待できます。
機械論的解釈可能性の進歩は、AIモデルがユーザーの目的と整合性のない行動を取っていることを検知することにも役立ちます。さらに、研究が進めば、プロセスに介入し、有害な出力やユーザーの目的と整合性のとれない行動を生み出す原因となるネットワークの部分を「オフ」にすることで、問題が顕在化するのを防ぐことさえ可能かも知れません。
機械論的解釈可能性は、今後、安心してAIを利用するために極めて重要な研究分野といえるでしょう。
