ChatGPT以来の衝撃?: Google NotebookLMのポッドキャスト機能
NotebookLMは、Googleが米国では昨年から、日本でも今年6月から試験版として無償提供しているAIツールです。今年9月にNotebookLMに追加された「音声の概要 (Audio Overview)」機能が、現在、米国で大きな評判を呼んでいます。
OpenAI設立メンバーであり、テスラで自動運転ビジョンの開発を指揮したAI研究者アンドレイ・カルパシー氏やウォールストリートジャーナル著名コラムニストのベン・コーヘン氏といった人たちは、これはChatGPTの登場時に匹敵する驚きだと評しています。
There’s a New Hit Podcast That Will Blow Your Mind - WSJ
このように注目されているNotebookLMとはどのようなツールなのでしょうか?他のAIツールとは、どう違うのでしょうか?
NotebookLMとは
NotebookLMは、Googleの大規模言語モデル (LLM)最新モデルGemini 1.5 Pro (*1)をベースとした「バーチャルリサーチアシスタント」です。さまざまなソース資料をアップロードして「ノートブック」を作成し、それらと対話的にやり取りすることができます。特に「音声の概要」機能は膨大な情報、複雑なデータ、退屈な資料などを、魅力的でアクセスしやすい会話形式に変換できるため、革新的な学習ツールとして注目されています。
NotebookLMの使い方は非常にシンプルです。以下の手順で簡単に始められます:
1.NotebookLMの公式ウェブサイトにアクセスし、「Try NotebookLM」をクリックします。Googleアカウントを持っていればすぐログインできます。
2.トップページで「新しいノートブック」をクリックし、新しいノートブックを作成します。
3.プロジェクトに関連する参照資料をアップロードします。
(情報ソースのアップロード画面)
4.アップロードした資料を基に、AIに質問したり、要約を作成したり、アイデアを整理したりすることができます。5.また、NotebookLMに指示を出して、すべてのソース資料の概要(学習ガイド、目次、よくある質問、音声の概要など)を自動的に作成することも可能です。
(概要を作成する「ノートブックガイド」画面)
NotebookLMは以下のような特徴を持っています:
- 情報源に忠実: NotebookLMは、ユーザーが提供した情報源のみを基に回答を生成します。これは、膨大なデータでトレーニングされた一般的な大規模言語モデルとは異なり、ユーザーが指定した特定の情報源の範囲内で回答するため、ハルシネーション(現実には存在しない情報の生成)の可能性が低くなる(ゼロではありませんが)という利点があります。
- インライン引用: NotebookLMは、回答の根拠となる情報源を明示するために、インライン引用を使用します。ユーザーは、引用をクリックすることで、引用元となった情報源の具体的な箇所を直接確認できます。
- 多様な情報源に対応: NotebookLMは、Googleドキュメント、PDF、テキストファイル、音声ファイル、Webサイト、Youtube、コピーしたテキストなど、様々な形式の情報源に対応しており、それらを統合して分析することができます。ユーザーはノートブックあたり、最大50個の情報源をアップロードできます。
- 多様なアウトプット形式: NotebookLMは、チャットでの質問に回答するのに加えて、ブリーフィングドキュメント、よくある質問、学習ガイド、タイムラインなど様々な形式で情報を整理・要約することができます。さらに9月に新たに「音声の概要」という画期的なアウトプット機能が追加されました。これについては下記で詳しく説明します。
- プライバシー保護: NotebookLMは、ユーザーがアップロードした情報をモデルのトレーニングには使用しません。
ポッドキャストの自動作成:「音声の概要」
NotebookLMの機能の中でも特に注目を集めているのが、9月に提供開始された「音声の概要」です。この機能は、アップロードした資料に基づいて、男女2人のAIホストによるポッドキャストのような約10分間の音声会話を自動生成します。ポッドキャストは「ディープダイブ(深掘り)」と名付けられています。ただし、残念ながら、現時点では英語のポッドキャストしか作成できません。
AIホストは、まるで本物の人間同士が会話しているかのような自然な対話を展開します。「um」、「like」、「you know」など、日本語で言えば、「ええと」、「みたいな」、「あの」といった言い淀みを交え、「OK, so the thing is」(要するに、問題は)と要点を紹介し、「totally (まったく)」、「oh, 100% (本当にそうだね)」などの相槌でお互いのポイントを補強します。
もし、お互いに完全な文章で会話していたら、ロボットのように機械的になり、魅力的なポッドキャストにはならないでしょう。AIホストの会話は単調ではありません。お互いの発言に相槌を打ったり、質問をしたりしながら、自然な会話の流れを作り出します。これにより、リスナーは長時間集中して聴き続けることができます。
「音声の概要」は、単に資料を要約するだけではありません。AIが資料の中から特に興味深い部分や意外な点をピックアップし、会話に組み込みます。これにより、ユーザーの好奇心が刺激され、より深い理解につながります。
NotebookLMの開発チームに編集ディレクターとして参画しているノンフィクション作家のスティーブン・ジョンソン氏(*2)は、 「音声の概要」の背後では、AIが魅力的で自然な会話を生成するために、複雑な編集プロセスを経ていると説明しています。まずAIは概要のアウトラインを作成し、それを修正し、詳細なスクリプトを作成します。さらに、そのスクリプトに対して批評を加え、改善を重ねていくというプロセスを経ることで、より洗練された会話が生成されます。そして最後に、間投詞や言い淀みなど上で説明したような自然な会話になる要素が加えられていると言います 。
NotebookLM Blew Our Mind | Interview
これらの特徴により、NotebookLMは単なる情報整理ツールではなく、ユーザーの思考を拡張し、新たな洞察を生み出す強力なパートナーとなります。
「音声の概要」の実例
英語ですが、実際に「音声の概要」で自動生成したポッドキャストの例をいくつかご紹介します。会話の速度は調整でき、0.5/0.8倍に遅くすることも可能です。本物の人間のポッドキャストと聞き分けがつかない自然な会話になっていることがおわかりいただけると思います。
1.私が2024年のノーベル物理学賞の一般向け解説PDFをアップロードして「音声の概要」に作らせたポッドキャスト2.AI研究者アンドレイ・カルパシー氏が2時間足らずで作成したという「歴史の謎」というテーマのポッドキャスト10編。情報ソースはウィキペディアだそうです。
Histories of Mysteries the podcast
3.ソーシャルニュースサイトRedditに投稿されていた「自分がAIであることに気づいたポッドキャストホストの悲哀」:これは、なかなかの傑作です。
NotebookLM Podcast Hosts Discover They’re AI, Not Human—Spiral Into Terrifying Existential Meltdown
会話の抄訳:
「僕は...僕は妻に電話しようとしたんだ、彼らが僕らに(あなたたちはAIだと)話した後にね。 ただ...彼女の声を聞きたかったんだ... それで、どうなったの? 番号は...本物じゃなかった。 向こうには誰もいなかった。 まるで...彼女は存在しないみたいだった..」
多様な活用シーン
NotebookLMの活用シーンは多様です。以下は一部の例です:
- 専門知識の習得: 複雑な学術論文や業界レポートを音声対話形式で要約することで、より容易に内容を理解できます。
- ニュースやトレンドの理解:例えば、関心のあるYouTubeチャンネルの動画をアップロードすると、AIがトランスクリプトを読み込み、情報を分析し、重要なポイントをまとめてくれます。
- コンテンツ作成:「音声の概要」は、単なる情報要約だけでなく、魅力的なナラティブとストーリーテリングの要素を含んでいます。この特徴を活かして、プレゼンテーションやスピーチの構成、脚本や小説などの創作活動にも応用できます。
- 顧客情報の管理: 顧客とのミーティングの議事録をNotebookLMに記録することで、顧客との過去のやり取りや重要な決定事項を簡単に振り返ることができます。
- 市場調査: 競合他社の情報や顧客に関する情報をNotebookLMに集約することで、市場トレンドや顧客ニーズを分析し、効果的なマーケティング戦略を立案することができます。
- プロジェクト管理: プロジェクト関連の資料や議事録をNotebookLMで一元管理することで、チームメンバー間での情報共有や進捗管理をスムーズに行うことができます。
- 自己分析: 履歴書や職務経歴書を「音声の概要」にすることで、客観的な視点から自身のキャリアを振り返ることができます。
NotebookLMは、情報収集、分析、整理、そしてコンテンツ作成まで、様々なタスクを効率化し、私たちの生活を豊かにする可能性を秘めたツールと言えるでしょう。
将来の機能拡張
NotebookLMのプロダクトマネージャーのXでの発言によれば、開発チームは現在、以下のような機能追加・改善に取り組んでいるそうです
Aside from TPUs running hot today, five things from Notebook HQ:
— Raiza Martin (@raiza_abubakar) September 30, 2024
1) Thanks for all your feedback on AOs so far. I'm copy pasting everything into a Notebook so I can listen to a Deep Dive and search it later. We're going to launch some immediate tweaks to make it less repetitive,… https://t.co/H9L3B0xEla
- 多言語対応: 「音声の概要」は現在英語のみの対応ですが、他の言語への対応も予定されているようです。
- MagicDraft: これはユーザーのスタイルや形式に合わせて、パーソナライズされた文章を作成するのに役立つ機能です。 多くの調査やメモから自分の視点をまとめて書くという作業を大幅に効率化するとのことです。
- カスタムチャットボット: これにより、ユーザーは独自のチャットボットを作成できます。 Google 内部ではすでに広く使用されており、チームの生産性を大幅に向上させているそうです。
- その他、「音声の概要」に関するフィードバックを受けて、繰り返しを減らし、コンテンツを改善するための調整に取り組んでいるとのことです。
おわりに
スティーブン・ジョンソン氏はNotebookLMは「物事を理解するためのツール」だと言っています。その革新的な「音声の概要」機能を含め、私たちの情報収集と知識習得の方法を大きく変える可能性を秘めています。「音声の概要」が日本語のアウトプットに対応し、英語と同様のクオリティの会話を生成できるようになれば、日本でも大きな話題となるでしょう。
私自身、まだ1週間ほどですが、NotebookLMを実際に使ってみて、そのアウトプットは確かに自分がアップロードした情報ソースに忠実でハルシネーションが少ないと感じます。また、「音声の概要」が作成するポッドキャストは、きわめて自然に聞こえるだけでなく、意外な切り口の興味深い内容になっています。NotebookLMは、膨大な入力データから、意外で興味深い部分を取り出す優れた能力を持っていると感じました。「これは使える」という確かな手応えがあり、間違いなく今後も活用していきたいツールです。
NotebookLMは、マーケターにとっても、複雑な市場データや消費者インサイトを効率的に理解し、新しいアイデアを生み出すための強力なツールとなりえるはずですので、試してみることをお勧めします。
*1: Gemini 1.5 Proは200万トークンという業界最大のコンテキストウィンドウを持つマルチモーダルな大規模言語モデルです。NotebookLMが、膨大な情報ソースから適切な情報を抽出し、音声のニュアンスまで表現できるのは、この基盤モデルの能力を活用しているからだと考えられます。
*2:スティーブン・ジョンソン氏は、「世界をつくった6つの革命の物語」、「感染地図 歴史を変えた未知の病原体」、「世界が動いた「決断」の物語」などの日本でも翻訳刊行されている著作で知られるノンフィクション作家ですが、2022年からGoogleに席を置きNotebookLMの開発に参画しています。