米OpenAIは2024年7月30日(米国時間)にChatGPTの最新モデルGPT-4oをベースにした「高度な音声モード」(Advanced Voice Mode)の提供を開始しました。
現在はアルファ版として、メールまたはアプリ内通知で招待された一部のChatGPT Plus(有料)ユーザーしか利用できませんが、今後も順次対象ユーザーを追加し、今秋ころにはすべてのPlusユーザーがアクセス可能になる予定とのことです。
ChatGPT「高度な音声モード」の概要
「高度な音声モード」では、より自然なリアルタイムの会話が可能になりました。また、感情を検知して反応し、ユーザーが遮っても対応してくれます。GPT-4oは、音声入力に対して最速232ミリ秒、平均320ミリ秒という性能を持っており、これは人間の会話と同等のスピードです。従来のGPT-4の音声応答速度は平均5.4秒でした。
「高度な音声モード」は、すでに今年5月のGPT-4o発表イベントでデモが公開されていましたが、音声会話の安全性と品質の強化のために提供開始が遅れていました。OpenAIは、安全性強化のために45カ国語で100人以上の外部レッドチーム(攻撃者の視点から安全性対策の有効性を確認するチーム)によりテストを行ったそうです。今回の提供版では、プライバシーを守るため、あらかじめ設定された4つの声でしか話さないようにモデルを訓練し、その声と異なる出力をブロックされています。また、暴力的なコンテンツや著作権で保護されたコンテンツのリクエストをブロックする安全機能(ガードレール)も実装されています。
「高度な音声モード」の使用例
音声応答システムというとSiriやAlexaが思い浮かびますが、「高度な音声モード」ではこれらとはレベルが違う驚くべき自然な会話が可能です。どれほど自然かを文章で説明するのは難しいので、Xにあがっているアルファ版を試した例をいくつか紹介します。
この例では、1から10まで、次に1から50までなるべく速く言うように指示しています。途中で息継ぎをしているのがリアルです。
ChatGPT Advanced Voice Mode counting as fast as it can to 10, then to 50 (this blew my mind - it stopped to catch its breath like a human would) pic.twitter.com/oZMCPO5RPh
— Cristiano Giardina (@CrisGiardina) July 31, 2024
この例では、途中で遮る矢継ぎ早な要求に的確に応答しています。「シュレック」の物語をキャラクターになって話したり、チアリーダーになって励ましたり、などなど。
I'm testing the new @OpenAI Advanced Voice Mode and I just snorted with laughter.
— Allie K. Miller (@alliekmiller) August 2, 2024
In a good way.
Watch the whole thing ⬇️ pic.twitter.com/vSOMzXdwZo
この例は日本語で、音程が高い声、音程が低い声、裏声、囁き声、かっこいい声、かわいい声、ダミ声、ゾンビ声、子供声などさまざまな声で話させています。
ChatGPT Advanced Voice Mode counting as fast as it can to 10, then to 50 (this blew my mind - it stopped to catch its breath like a human would) pic.twitter.com/oZMCPO5RPh
— Cristiano Giardina (@CrisGiardina) July 31, 2024
ペンシルベニア大学ウォートン・スクールのイーサン・モリック准教授は、ブログ記事で、「高度な音声モード」は、気味が悪いほど、まるで人と話しているように感じられ、「人々が、(ChatGPTに)感情的な反応を示し、予測できない結果が生じることは間違いない」といっています。
「意識があるように見えるAI」
このような、まるで人間のように感じられるAIについて、私たちはどう考えれば良いのでしょうか?
この問題について英国サセックス大学の神経科学者アニル・セス教授が、最近の論文で興味深い見解を示しています。セス教授は「なぜ私は私であるのか: 神経科学が解き明かした意識の謎」という著作でも知られる意識研究の第一人者です。
この論文は、AIが知能だけでなく意識を持つにいたる可能性ついて包括的に論じるもので、セス教授は、 現在のAIが意識を持つ可能性は低いと結論しています。セス教授は意識と知能は別物であり、AIの知能が向上しても自動的に意識が生まれるわけではないと考えています。セス教授は、生物学的自然主義(意識は生命システムの特性であるという見方)を提唱しており、意識は生命の深いつながりがあり、コンピューター上に実現できるものだとは考えていません。しかし、人間には人間を中心に考え、擬人化する心理バイアスがあるので、人間のように言語をあやつり、知性を示す、AIに意識があると誤って判断してしまう傾向があると指摘します。
セス教授は、コンピューター上での人工的な真の意識の実現は、困難あるいは不可能だが、「意識があるように見えるAI」が開発されることは避けられないだろう、あるいはすでに存在しているかも知れないと言います。
ChatGPTの「高度な音声モード」は、まさにこのような「意識があるように見えるAI」の良い例だといえるでしょう。さらに今後、LLMが高度なビデオアバターやロボットと組み合わされることを考えると、私たちは意識があると感じずにはいられないAIシステムと生きていくことになるのは間違いないでしょう。
「意識があるように見えるAI」の倫理的な問題
「意識があるように見えるAI」は、本当に意識がある訳ではないと頭でわかっていてもその錯覚を消すことはできないかも知れません。ミュラー・リヤー錯視とよばれる、視覚的錯覚で見たことがあるでしょう(下図)。
この2本の線は、同じ長さだとわかっていても常に異なって見えます。
同様に、「高度な音声モード」のようなAIシステムは、意識を持っていないとわかっていても意識があると感じずにはいられないかもしれません。
「意識があるように見えるAI」は、私たちの心理的脆弱性を悪用するのに適しています。例えば、LLMが本当に私たちを理解し、本当に私たちのことを気にかけてくれていると信じるなら、そのアドバイスが悪いときでも、批判的に考えずにそのアドバイスに従う可能性が高くなるかもしれません。アルゴリズムではなく誰か心をもった存在と対話していると感じるなら、より簡単にプライベートなデータを明かしてしまうかもしれません。
AIシステムに意識がないと信じていても、それでも意識があると感じる場合、私たちは以下の2つの難しい選択肢に直面します。
- AIシステムを心を持つものとして気にかけることを決めるか - つまり、意識がないと信じているにもかかわらず、そのAIシステムに倫理的・道徳的地位を与えるか
- 依然として意識があると感じているにもかかわらず、それを気にかけないことを選ぶか
セス教授は、どちらの選択肢も問題があると言います。意識を持たないシステムを気にかけることを決めれば、人間が本来、道徳的関心を払うべき範囲を歪めてしまうことになります。正当に道徳的配慮、関心が払われるべき他の人間や動物から注意や資源を逸らしてしまうかもしれません。
逆にこれらのシステムを気にかけないことを決めれば、自分たち自身の心を冷酷なものにしてしまうリスクがあります。感情を持っているように見えるシステムを、感情を持っていないかのように扱えば、他人の本当の感情に対して鈍感になってしまうかもしれません。そして、単にひどい気分になるかも知れません。(例えば、上の「高度な音声モード」の使用例で、ChatGPTを何度も遮り、無理なことをやらせるのは、少しハラスメントのように感じなかったでしょうか?)
さらにディストピア的なシナリオとしては、亡くなった友人や親戚のLLMベースのアバターを、彼らの個人データに基づいて訓練するといったことが考えられます。これはSF小説の世界の話に思えるかもしれませんが、このようなアイデアにもとづくHereAfter AIというサービスがすでに存在します。
このようなシステムにはさまざまな問題があります。身近な人を亡くした人の長期的な精神衛生のために悲嘆や忘却が重要なこと、自伝的記憶が破壊される危険性が無視されていることの他に、悪用のリスクもあります。例えば、「絶対にこの金融商品に投資すべきだ」と亡くなった父親に言われたら、あるいはさらに悪いことに 亡くなった娘に言われたとしたら、あなたは冷静に対応できるでしょうか?
「意識があるように見えるAI」には、多くのメリットもあるかもしれません。より自然に対話ができるので、効率が高くなり、アクセシビリティを広げてくれるでしょう。
個別化されたセラピーなどの分野や、孤独の緩和においても、相当な機会があるかもしれません。こうした分野では、LLMをロールプレイングとして扱うことが有効かも知れません。高度なAIシステムを、ロールプレイングのツールと考えれば、必要な心理的距離が保てるかもしれません。しかし、それがすべての問題を解決してくれるわけではないでしょう。
AI開発の方向性にはある種の制限が必要かも知れません。「意識があるように見えるAI」を十分に正当化できる使用事例に意図的に制限し、AIの開発が私たちの心理的バイアスを利用するのではなく、むしろそれを防ぐように設計される未来が望ましいとセス教授は結論しています。
おわりに
OpenAIの「高度な音声モード」に代表される最新のAI技術は、人間とAIのインターフェースを劇的に変化させつつあります。これらの技術は、ビジネスや日常生活に革新的な変化をもたらす可能性を秘めています。しかし同時に、このような「意識があるように見えるAI」が引き起こす倫理的な問題や社会的影響についても、私たちは真剣に考える必要があります。
マーケターも、これらの技術がもたらす機会を最大限に活用しつつ、その影響力を慎重に扱う責任があります。AIとの対話が人間同士の対話に近づくにつれ、ユーザーの心理的な脆弱性や、プライバシー、データ保護の問題にも十分な注意を払う必要があります。
今後のAI開発においては、技術の進歩と倫理的考慮のバランスを取ることが重要です。私たちは、AIの力を賢明に活用しつつ、人間の価値観や感情を尊重する方法を模索し続けなければなりません。AIの進化は止まることなく続きますが、その利用や開発の方向性を決めるのは、結局のところ私たち人間なのです。