第428回:“歌声”の最先端技術を集めたシンポジウム

～「ぼかりす2」も発表された「歌声情報処理最前線! 」～


歌声に関連する論文発表やデモが行なわれた「歌声情報処理最前線! 」

　20日程前の7月28日～30日の3日間、筑波山の山麓にあるホテルで情報処理学会・音楽情報科学研究会による第86回目となる研究発表会=シンポジウムが行なわれた。その初日はスペシャルセッションということで「歌声情報処理最前線! 」と題され、すべて歌声に関連する論文発表やデモが行なわれ、ここに参加してきた。

　やはり学会というだけに、難しい技術や理論がいっぱい登場したが、ほとんどがデモを交えての発表であるだけに、何を目指していて、どんなことができるようになっているのかは、素人にも分かる非常に面白い研究発表だった。そして、まさに最先端で近未来を感じさせるすごい内容ばかり。そこで、この「歌声情報処理最前線! 」でどんな発表が行なわれたのか、あまり難しい理論は抜きにして2回に分けて紹介する。

■ ボーカルを抽出し、「似ている声」を探せる技術など

　世の中さまざまな分野の学会があるが、コンピュータの世界で大きな役割を果たしているのが情報処理学会。個人的にも大学が情報処理出身だけになんとなく馴染みがあるというか親しみを感じるところだが、この研究会のひとつに「音楽情報科学研究会(通称：音情研、SIGMUS)」というユニークなものが存在する。その名前のとおり、コンピュータと音楽とが関わり合うあらゆる場面を活動対象とする学際的研究会で、学術的な研究活動はもとより、音楽創作・演奏などの芸術的活動、チュートリアル開催や出版物の企画・編集などさまざまな活動を行なっている。

産業技術総合研究所の後藤真孝氏

　10年以上前から、そのメーリングリストには参加させていただいているので、なんとなくどんな発表が行なわれているのか知ってはいた。またDTMマガジンで音情研の連載もされているので、これまでもパラパラと眺めてきてはいたものの、実際のシンポジウムに参加したことはほとんどなかった。そんな中、音情研の運営委員であり、今回の進行役を務めていた産業技術総合研究所の後藤真孝氏から「歌声情報処理最前線! 」に参加しないか、とのお誘いをいただいた。テーマも面白そうなので、日帰りで出席してみた。

　スペシャルセッション「歌声情報処理最前線! 」は13:25～18:00という時間で、以下の9つの発表が行なわれた。

ニコ生やUSTでも生中継されていた

　1つの発表の持ち時間は25分というタイトなスケジュール。ただ、難しい理論の説明が延々と続くのではなく、デモを交えてコンパクトにプレゼンテーションされたので、予想していた以上に面白く、分かりやすいものだった。実は、このシンポジウムはニコニコ生放送とUSTREAMによる実況中継も行なわれていたので、ご覧になった方もいるかもしれない。また、それぞれの動画はアーカイブされており、現在もニコニコ動画およびUSTREAMのサイトで見ることができるので、興味のある方はそちらをご覧になるといいだろう。

　では、ここからそれぞれの発表内容を紹介していきたいと思うが、1番から順番に紹介していくよりも、まずこれまでの産総研における歌声情報処理の歴史をまとめた4番の「歌声情報処理: 歌声を対象とした音楽情報処理」から紹介していくのが分かりやすそうなので、ここから見ていくことにしよう。プレゼンテーションを行なったのは、全体の進行役でもある後藤氏だ。


歌声情報処理における3つのカテゴリ	1999年に発表された「自動ボーカル抽出手法」がベースとなっている

　歌声を対象とした音楽情報処理といっても、実はいくつものカテゴリがある。産総研ではこれを「歌声を聴いて理解するシステム」、「歌声に基づく音楽情報検索システム」、「歌声合成システム」の3つに区切っている。そして、それらの多くに利用されているベースとなる技術が、1999年に発表された「自動ボーカル抽出手法」。さまざまな楽器音が含まれる混合音からボーカルを抜き出す技術で、たとえば市販のCDからボーカルだけを抽出できるというものだ。いわゆるセンターキャンセルなどを使うのではなく、「メロディー音高推定手法(PreFEst)」という技術によってモノラルのサウンドであっても、そこからボーカルを抜き出すことができる。デモでは当時のプログラムによって抽出した音を流していた。

　さすがにMTRからボーカルトラックだけを抜き出したというほどハッキリはした音ではなかったものの、確かにボーカルが抜き出されている。後藤氏によると、ボーカルを抜き出す精度は11年前と比較して、かなり向上しているという。

　このようにして抜き出した歌声を元に、歌声の音質モデリング手法も確立されている。これは、歌声らしさの高いフレームの特徴量(LPMCC)を用いて歌手をある程度特定するという技術だ。これにより、音楽データにタグを入れなくても、ある程度歌手の判別が可能になるというわけだ。

　この技術をさらに応用して、検索するプログラムを作るとすぐにでも商品化できそうなシステムができあがってくる。デモでは、数多くのCDを読み込ませて音質モデリングを行なっておいたデータベースを利用し、よく似た声の歌手の楽曲を選び出すという実験を行なった。具体的にはまず平井堅の「POP STAR」という曲を元に似た曲を探すと、やはり平井堅の曲がズラリと並ぶ。ただ、この中には平井堅以外のアーティストの曲もあり、これを再生してみると、確かに平井堅っぽく聴こえるから面白い。さらに宇多田ヒカルの「SAKURAドロップス」という曲を元に検索すると、なぜか1位に加藤ミリヤの「ジョウネツ」がランキングされる。試しに聴いてみると、これが宇多田ヒカルの声にしか聴こえないのだ。このデモはなかなか衝撃的だった。


平井堅の曲から、「似ている他のアーティストの曲」も検索された	宇多田ヒカルの「SAKURAドロップス」から検索すると、1位に加藤ミリヤの「ジョウネツ」が

■ 声色の変化もVOCALOIDのパラメータにする「ぼかりす2」発表


VocaListener(ぼかりす1)では、歌声のデータからVOCALOIDのパラメータを推定でき、歌唱力を補正しながら歌声合成することが可能

　一方、産総研の技術として、これまでも注目を集めてきたのが「VocaListener」(通称：ぼかりす)という技術。こちらはユーザーの歌声の音高(FO)と音量を真似るように、初音ミクなどのVOCALOIDのパラメータを推定するというシステムだ。

　ご存知のようにVOCALOIDは、楽譜と歌詞を入力すれば歌を歌ってくれるソフトであり、まさに「歌声情報処理」における大ヒット製品。ただし、単純に入力しただけだと、どうしても機械っぽい歌になってしまうため、ユーザーは「調教」といわれる非常に細かく地道なエディットをして、より自然な歌声にしている。

　そこで、ぼかりすは、人間が歌った歌を元に音の高さと音量の変化を割り出し、それをVOCALOIDのパラメータにしようというもの。つまり、細かなエディットをしなくても、初音ミクなどに歌わせたいように自分でマイクに向かって歌えば、うまく抑揚やビブラートを当てはめて調教できるというものなのだ。ニコニコ動画で「ぼかりす」として検索すれば、産総研で作った初音ミクに、ぼかりすを適用させた曲がすぐに見つかるはずだ。ぼかりすは現在、ヤマハのY2 PROJECTが産総研からライセンスを受ける形で、簡易版「Netぼかりす」の開発を行なっているので、近い将来、一般ユーザーも使えるようになりそうだ。

産総研の中野倫靖氏

　そのぼかりすの新バージョンとなる「VocaListener2(ぼかりす2)」も今回発表された。この発表を行なったのは産総研の中野倫靖氏。前述のとおり、ぼかりすでは、自分の歌声から音高と音量を分析し、それをVOCALOIDのパラメータを作り出すものだったが、ぼかりす2では音高、音量に加えて声色変化も真似るというシステムになっている。

　実際の歌声というのは力を込めて歌ったり、優しく歌ったり、明るく歌ったり、暗く歌ったりと歌い方によって声色は変化する。この声色の違いを表現するための製品として、今年4月30日に、クリプトン・フューチャーメディアからは「初音ミク・アペンド」が発売された。ここにはDARK、LIGHT、SOFT、SWEET、SOLID、VIVIDという6種類の初音ミクの声色が収録されているので、ユーザーはこれを切り替えて使うことができる。

　ただし、普通は単純にSingerを切り替えるしか方法がなく、滑らかに声色変化をさせることができない。そこでたとえば、DARKからLIGHTへ、SOFTからSWEETへというように、緩やかに変化させられるようにしたのが、ぼかりす2なのだ。

　でも、声色の違いとは、情報処理的にみて、どのように捉えられるものなのだろうか? ぼかりす2ではこれを「スペクトル包絡(声道特性)形状の違い」としている。スペクトル包絡(ほうらく)とはまた聞きなれない言葉だが、歌声をスペクトル分析した結果の頂点をつないでいったもの。このスペクトル包絡の形によって声色の違いが見えてくるのだそうだ。そして時間にともなって自分で歌った声色=スペクトル包絡がどう変化するかを捉えるとともに、初音ミクのオリジナル音と、アペンドの6つの音のどれに近いかを分析。その結果を元に、初音ミク、アペンドの7つの音の間を緩やかに変化させていくことで、声色を真似させることができるという。


ぼかりす2の特徴	「スペクトル包絡」の形によって声色の違いがわかるという	初音ミクのオリジナル音と、アペンドの6つの音から、どれに近いかを分析

スペクトル変形曲面(相対的な違い)を利用する

　この緩やかに変化というのが非常に難しいところだが、スペクトル包絡の差分(正しくは相対的な違い)であるスペクトル変形曲面を利用して行なう。細かい理論に入ってくると、やはり難解。ただデモを見る限り確かによりリアルに声色が表現されており、スムーズに変化していく。ここまでくると、職人的なVOCALOID2ユーザーであっても、まったく真似することはできないだろう。

　また、初音ミクと初音ミク・アペンドのそれぞれの差分であるスペクトル変形曲面を鏡音リンに適用させると、「鏡音リン・擬似アペンド」ができてしまうのも面白いところ。ぼかりす2と鏡音リン・擬似アペンドを利用したデモは産総研のWebページにアップされており、動画とともに見ることができるので、興味のある方はぜひご覧いただきたい。これが初音ミクや鏡音リンの歌だとは思えないくらいリアルな歌い方になっているのが分かるはずだ。

■ 別のボーカリストの声質に変えられる技術も

「混合音中の歌声スペクトル包絡推定に基づく歌声の声質変換手法」について説明した藤原弘将氏

　産総研では、ぼかりす2のほかにも、もうひとつ声色に関する発表が行なわれた。7番目の藤原弘将氏による「混合音中の歌声スペクトル包絡推定に基づく歌声の声質変換手法」というプレゼンテーションである。

　見るからに難しそうなタイトルではあるが、これがまたとんでもなく面白い技術なのだ。誤解を恐れずに意訳すると、CDなどの楽曲におけるボーカルを別のボーカリストの歌声に変化させてしまうという技術だ。もちろん、DAWやMTRにおいてボーカルトラックを差し替えるというわけではない。さまざまな楽器の音がバックに入った楽曲において、ボーカルだけを変化させるのだ。変化であって差し替えではないというのもポイントだ。

　つまり、現在のボーカルを一旦消し去ってカラオケ化してから、別のボーカルを入れるのではない。あくまでも声色を変化させるだけなので、発音のタイミングやピッチなどは完全に元のままとなる。別のボーカリストにするための情報としては、そのボーカリスト単独歌唱のオーディオデータを与えればいい。この際、異なる曲でもいいのだ。デモにおいては、お約束の初音ミクへの変換もされ、確かに声色が完全に初音ミクになっていることが確認できた。実は、このデモ、産総研のWeb上にも公開されているので、一度聴いてみることをお勧めしたい。

W-PST法

　この声質変換には、W-PST法という2009年に発表された技術が使われている。これは声質の変換のために操作が必要な周波数帯域とその操作量を推定するというものとのこと。この変換の過程においては、ボーカルキャンセルによるカラオケ化も行なわれるのだが、先ほどのWebページにはカラオケ化した結果も掲載されている。聴いてみると、本当にキレイにボーカルだけが消えたカラオケになっている。ところどころ微妙にボーカルのカケラも残っているが、これだけの精度が出せるのならカラオケ化ソフトとして十分商品価値があると思う。そうしたライセンス供与や事業化についてどうなっているのかも含め、改めて産総研に話を聞いてみたいと思っている。

　次回は、ほかの6つの発表について、どんなことができる技術なのかを紹介する予定だ。

（2010年 8月 16日）

＝藤本健＝

　リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。
　著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto。

[Text by藤本健]

第428回:“歌声”の最先端技術を集めたシンポジウム

～「ぼかりす2」も発表された「歌声情報処理最前線! 」 ～

～「ぼかりす2」も発表された「歌声情報処理最前線! 」～