善用も悪用もできてしまう声の技術ーー「ボイスクローン技術」の最新情報
2023.6/02 TBSラジオ『荻上チキ・Session』OA
Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、合成音声をめぐる技術について、最新情報をお伝えします。
◾Appleが発表「Live Speech」機能
合成音声に関しては、等ラボでも紹介してきたように、様々な発展がなされています。そんな中Appleは2023年5月16日、認知や発話、視覚のアクセシビリティを向上するためのツールを今年の後半に、iPhoneやMacといったApple製品に搭載すると発表。中でも、自分の声を合成音声化し、コミュニケーションに利用する「Live Speech」という機能が注目されています。
Live Speechは、iPhoneやiPadなどから指示された文章を約15分間読み上げることで、声の情報を分析し、ユーザー個々人のパーソナルボイスを作成します。そして、発話したい文章をタイプすれば、それを合成音声で読み上げてくれるというものです(いわゆる「Text-to-Speech」機能)。
Live Speech機能は今年後半にApple製品に搭載予定ということですが、ALS(筋萎縮性側索硬化症)など、将来的に発話能力を失う可能性のあるユーザーに向けられたものです。
この他にも、視覚障がい者向けに、人やドア、ラベルの文字等を検出して声で伝える「Point and Speak」機能なども同時に発表されています。Appleの他、これまでMicrosoft等も障がいのある人に向けたツールの開発を進めています。
◾合成音声技術の犯罪利用
一方、合成音声をめぐっては、この技術を悪用した犯罪が深刻化しています。
以前も紹介したように、合成音声を利用し、有名人の声で不適切な発言をさせたり、また合成音声を利用した電話詐欺に用いられる「ボイスクローン技術」が、世界中で問題となっています。
アメリカのサイバーセキュリティ企業「Recorded Future」によれば、闇サイトでは合成音声を利用した犯罪に関する言及が増えているという報告もあります(はやければ2015年からサイバー犯罪者の間でボイスクローン技術に関する話題が確認されています)。特に、犯罪集団が独自の音声クローンツールを開発・提供する事例があるとのことで、これを「サービスとしての音声クローン」(Voice Cloning-as-a-Service=VCaaS)と呼んでいます。
https://go.recordedfuture.com/hubfs/reports/cta-2023-0518.pdf
また、アメリカのサイバーセキュリティ企業の「マカフィー」が2023年4月に、日本を含む世界7カ国の18歳以上の成人7,054人を対象に、AIを利用した音声詐欺についての調査をしました(対象国は日本、米国、英国、ドイツ、フランス、インド、オーストラリア)。
調査によれば、平均で10%が自身がAI音声詐欺に遭遇、15%が知人が遭遇したと回答しました。
ただし、日本は7カ国の中で音声詐欺の遭遇率が最も低く、自身が詐欺に遭遇した人は3%、知人が遭遇した人は5%と、世界平均の3分の1という結果になりました。
これはおそらく、日本語の壁、つまりユーザー数も英語等に比べて少なく、またそれ故に、良い悪いは別に、技術的にも発展が遅れている可能性が考えられるように思われます。逆に7カ国で最も被害が多いのがインドで、自分が詐欺に遭遇したという人は20%、知人が遭遇したという人は27%となっています。
また、対象者に自分の声をウェブ等に共有しているかと聞いたところ、7カ国平均では52%が週に1回以上、また全体の10%は週に5回以上、SNS等を通して自分の声をオンライン上に共有していると答えています。おそらく犯罪者は、こうした声を悪用しているものと思われます。また、ここでも日本は音声データのオンライン共有割合が低く、世界平均の半分程度でした(週1回以上の共有が28%、週に5回以上は5%で)。
回答者の7割はクローン音声と本物の音声の識別に自信がないと答えていますが、ボイスクローン技術による詐欺は今後も増加すると考えられます。合成音声は善用も悪用も可能な技術ですが、等ラボでは引き続き関心をもって注目していきます。