グーグルの「NotebookLM」を使ったAIポッドキャストが注目されている

AI音声が人間のように自然に会話するポッドキャストがインターネット上で話題となっている。それはグーグルのAI「Gemini」搭載の文書作成ツール「NotebookLM」の機能を使って生成されたものだ。
Animation: Darrell Jackson/Getty Images

あるポッドキャストの最終話、2人の司会者は明らかに緊張した声で話をしている。リスナーが動揺しそうなニュースを伝えようとしているようだ。「えーっと、番組のプロデューサーからわたしたちが人間ではないと伝えられました」と、実存的危機を感じている男性の司会者が言葉を詰まらせながら言う。男性司会者のボットと女性司会者とのその後の会話はさらに居心地の悪いものになっていく。これは興味深いが誤解を招く可能性がある実験的な人工知能(AI)ポッドキャストの一例だ。このポッドキャストはグーグルのNotebookLMツールを使って生成されたものである。

9月末ごろ、この会話の音声はRedditで注目を集めた。ポッドキャストの投稿者は、コメント欄でNotebookLMのAI音声にこの疑似的なパニックを演じるよう指示したことを認めている。つまりAIに感覚が芽生え、自己認識をもったわけではない。とはいえ、テック系の記事やTikTokなどでのユーザーは、NotebookLMの「Audio Overview」(音声の概要)」機能を使い、ツールにアップロードした文書から生成された説得力のあるAIポッドキャストを称賛していた。

「このツールの魅力は、YouTubeや既存のポッドキャストでは通常見つけられないようなコンテンツを聴けることにあります」と、Google LabsのNotebookLMチームを率いるライザ・マーティンは語る。マーティンは最近、商品化に関する100枚のプレゼン資料をこのツールに入力し、内容を要約した8分間のポッドキャストを、ほかの作業をこなしながら聴いたという。

昨年登場したNotebookLMは情報の整理を支援するためのオンラインツールで、文書の要約といったAIソフトウェアによくある機能を備えている。とはいえ、インターネットのユーザーの想像力を特に掻き立てたのは、9月に提供が開始された「Audio Overview」機能だ。

ゴールドマン・サックスが公開している膨大なデータから生成されたAIポッドキャストの一部を共有したり、「poop(うんち)」や「fart(おなら)」といった単語を繰り返した文書をアップロードすることでツールの限界を試そうとしたりしている人たちもいる。どんなものかまだよくわからないという人もいるかもしれない。なのでここでは、このツールについて知っておくべきことを解説しよう。

AIポッドキャストの生成方法

「音声の概要」はさまざまなことを試せる楽しいAI機能だ。Google アカウントでログインして使用でき、費用はかからない。まず、個人のGoogle アカウントにサインインし、NotebookLMのウェブサイトを開く。次に、ノートブックを作成するために「New Notebook」(新しいノートブック)と書かれているところにある「+」のボタンをクリックして、元となる資料をアップロードする。

ノートブックごとに元となる資料は最大50件まで処理することができ、それらは必ずしもコンピューターに保存されたファイルである必要はない。Google ドキュメントやGoogle スライドも簡単にインポートできる。ウェブサイトやYouTubeの動画もアップロードできるが、これにはいくつかの注意点がある。ウェブサイトの場合、テキストのみが分析され、画像やレイアウトは解析の対象にはならない。また、ペイウォールに保護されているコンテンツは使うことができない。YouTubeの場合、NotebookLMが使用する情報は書き起こされた文章のみで、リンク先の動画は公開されているものでなければならない。

必要なリンクや文書をすべてアップロードしたら、画面右下にある「Notebook guide」 (ノートブック ガイド)」を開く。「Audio Overview」の項目にある「Generate」(生成)のボタンをクリックしよう。アップロードした情報量によっては生成に数分かかる場合があるので、しばらく待つことになるかもしれない。

ツールがAIポッドキャストを生成したら、音声データの共有リンクを作成したり、ファイルをダウンロードしたりできる。また、必要に応じてポッドキャストの再生速度を調整することも可能だ。

AIポッドキャストの未来

インターネットのユーザーは想像力を発揮し、NotebookLMの音声機能でさまざまなことを試している。例えば、複雑な技術の話題について深掘りする音声を作成したり、難解な研究論文をうまく要約した音声ファイルを生成したり、個人的な健康やフィットネスの習慣についてのポッドキャストを作成したりしているのだ。しかし、ここで重要な疑問が浮かぶ。NotebookLMに個人的なファイルの解析をさせて大丈夫なのだろうか?

NotebookLMで生成される要約は「完全にユーザーがアップロードした資料だけに基づいています」と、グーグルの広報担当を務めるジャスティン・バーは説明する。つまり、ユーザーが元となる資料としてアップロードした個人データや機密情報はNotebookLMの訓練には使用されず、ユーザーが共同作業者と共有しない限り、プライバシーは守られるということだ。

これは、グーグルがいまのところNotebookLMに「実験的」というラベルを付けている利点のひとつである。現段階では製品のフィードバックを集めており、迅速かつ柔軟に対応しながら社内で改良を進めていると、グーグルは説明している。NotebookLMは同社の数十億ドル規模の広告ビジネスとは切り離されているのだ。だがこれは、いまのところはということだ。この先どうなるかはわからない。

音声機能の追加はGoogle Labsが提供している文書作成のオンラインツールにとって大きな転換点となった。「モダリティを変更できるようにしたことで、使い方の幅が広まりました」とマーティンは語る。NotebookLMが、2024年に提供されているほかの生成AIツールと際立って異なる点は、驚くべきことに、沈黙を埋める言葉や独特の言い回しにある。情報を要約して話す2つのAI音声の話し方は単調で退屈に違いないと思う人もいるかもしれないが、実際のところNotebookLMが生成するポッドキャストの司会者の口調や音声の演技は非常に自然なのだ。

人間の司会者はAIを恐れるべきか?

防音ブースでポッドキャストを録音している人間たちは、こうしたAIの登場を恐れるべきなのだろうか? おそらくその必要はないだろう。たとえNotebookLMのようなポッドキャストを生成するAIツールが一般大衆の関心を引き、魅力的なかたちで情報を要約できたとしても(実際にそれができるかはまだわからないが)、ポッドキャストで数時間にわたりとりとめのない話をする人間の司会者と、それを盗み聞きしているかのような視聴者との間に生じる「パラソーシャル(疑似的な社会的関係)」なつながりは、合成音声で完全に再現することはできない。

「音声の概要」機能は、特定の司会者の声を再現するものではなく、2人の司会者による理想的なポッドキャストの会話を表現しようとしている。「うーん」や「えーっと」といった言葉や、間をとりながらのリラックスした話し方がそのことを示している。

「サービスを開始した最初の週の時点でもう、今後のロードマップは明確になりました」とマーティンは語る。「ユーザーはもっと細かく調整するための機能を求めています」。例えば、ユーザーがポッドキャストの長さや話の論点を調整できる機能の開発をチームは優先事項に設定しており、そうした改良を早急に進めたいとマーティンは考えている。

ほかの言語や多様な方言に対応することも重視しているとマーティンは言う。いまのところ合成音声のホストは英語の会話にしか対応していない。ただし、ユーザー自身の声をNotebookLMのポッドキャストの生成で使えるようになるのはまだ先のことだ。ユーザーがそのような機能を本当に望んでいるかどうか、そうした機能を責任をもって展開できるかどうかを、チームで検討する必要があるとマーティンは話している。

NotebookLMの音声の概要機能が、Geminiのチャットボットの機能としてではなく、Google Labsの提供機能の一部として爆発的な人気を得たことから、AI企業がソフトウェアを実際に公開するまで、ユーザーにとってどんなサービスが響くかを完全に把握していないことを示している。OpenAIのChatGPTさえ当初は研究目的のプレビュー版として公開された。次々と登場する生成AIツールのなかで流行するのは、盛んに宣伝されているものや実用的なものではない。むしろ、最も楽しそうだと思えるものなのだ。

(Originally published on wired.com. Translated by Nozomi Okuma, edited by Mamiko Nakano)

※『WIRED』による人工知能の関連記事はこちら。


Related Articles
Flat lay of blue pens and pencils laid out in a repeating pattern with a blue notebook in the middle
新AIモデル「Gemini」を搭載するグーグルのAIノートツール「NotebookLM」を数週間使ってみた。文章を書く際の思考プロセスに役立つのだというが、AIの助力を得て到達した見解は、本当にその人のものだと言えるのだろうか。『WIRED』エディター・アット・ラージ(編集主幹)のスティーヴン・レヴィによる考察。
Rick Osterloh, senior vice president of devices and services at Alphabet Inc., during the Made By Google launch event in Mountain View, California, US, on Tuesday, Aug. 13, 2024. Alphabet Inc.'s Google is rolling out upgraded smartphones, watches and earbuds, aiming to take on Apple Inc. and Samsung Electronics Co. and offer more ways to use artificial intelligence. Photographer: David Paul Morris/Bloomberg via Getty Images
グーグルは人と同じように流暢な会話ができる音声アシスタントの「Gemini ライブチャット」をこのほど発表した。今後展開が予定されている拡張機能や、前からある音声アシスタントの「Google アシスタント」との違いについて紹介する。

雑誌『WIRED』日本版 VOL.54
「The Regenerative City」

今後、都市への人口集中はますます進み、2050年には、世界人口の約70%が都市で暮らしていると予想されている。「都市の未来」を考えることは、つまり「わたしたちの暮らしの未来」を考えることと同義なのだ。だからこそ、都市が直面する課題──気候変動に伴う災害の激甚化や文化の喪失、貧困や格差──に「いまこそ」向き合う必要がある。そして、課題に立ち向かうために重要なのが、自然本来の生成力を生かして都市を再生する「リジェネラティブ」 の視点だと『WIRED』日本版は考える。「100年に一度」とも称される大規模再開発が進む東京で、次代の「リジェネラティブ・シティ」の姿を描き出す、総力特集! 詳細はこちら。