藤本健のDigital Audio Laboratory

第604回:「人型ロボットのダンス」や「声の年齢制御」など、音楽情報処理の最先端をレポート

第604回:「人型ロボットのダンス」や「声の年齢制御」など、音楽情報処理の最先端をレポート

 8月23日、明治大学の中野キャンパスにおいて「OngaCREST シンポジウム2014」が開催された。「音楽情報処理研究が切り拓く未来を探る」と題されたこのシンポジウムは、最新の音楽情報処理に関する学術的な研究成果発表会でありつつ、音楽情報処理や歌声合成といった世界に興味のある人たち誰もが参加できるという、エンターテインメント性も持たせたものだった。ここでは、未来を感じさせてくれるさまざまな研究成果が発表されたので、その一部を紹介する。

会場の模様

産総研の後藤真孝氏らが発表した「人型ロボットによるダンス」

 「OngaCREST(音画CREST/おんがくれすと)」とは耳慣れない言葉だが、これは科学技術振興機構(JST) 戦略的創造研究推進事業(CREST) 研究領域「共生社会に向けた人間調和型情報技術の構築」における平成23年度採択研究課題のプロジェクト名。

8月23日に行なわれた「OngaCREST シンポジウム2014」。Twitterのハッシュタグは#ongacrest

 このOngaCRESTプロジェクトでは、音楽の聴き方・創り方の未来を切り拓く技術開発により、音楽の楽しみ方がより能動的で豊かになり、人類と音楽との関係がより良い形で発展していけるようになる情報環境の構築を目指して2011年から5年間の研究プロジェクトとして進められているもの。今年はまだ3年目という中間段階だが、いろいろな人からのフィードバックをもらう目的もあって、あえてこのタイミングでシンポジウムを開いて、成果発表をしているのだ。

 普通こうした学会、シンポジウムは、研究者たちが集まるかなりお堅いものだが、会場にはいた学術関係者は2割で、企業の人が3割、その他は一般の人とのこと。見てみると、明らかに中学生と思われる女の子が一人で参加しているなど、なんとも不思議なシンポジウムとなっていた。

産業技術総合研究所の後藤真孝氏

 冒頭のあいさつに立ったのは、これまでこの連載でも何度も登場していただいた、音楽情報処理研究の第一人者ともいうべき産業技術総合研究所の後藤真孝氏。後藤氏がOngaCRESTプロジェクトの研究代表者であり、「音楽を中心とした類似度可知化情報環境の実現」と全体統括を担当している。

 ほかに研究分担者として早稲田大学教授の森島繁生氏が「音楽連動動画を中心とした類似度可知化情報処理環境の実現」、明治大学准教授の中村聡史氏が「Webインタラクションを中心とした類似度可知化情報環境の実現」、京都大学講師の吉井和佳氏が「機械学習を中心とした類似度可知化情報環境の実現」を担当する形でプロジェクトが進められている。その4人をリーダーとする形で、今回20の研究内容が発表された。タイトルを見るだけでもワクワクするものが多いが、これらの発表のほか、クリプトン・フューチャー・メディアの社長、伊藤博之氏による「初音ミクが切り拓いてきた世界、切り拓く未来」と題した招待講演も行なわれる豪華なシンポジウムとなっていた。

早稲田大学教授の森島繁生氏
明治大学准教授の中村聡史氏
京都大学講師の吉井和佳氏
クリプトン・フューチャー・メディアの伊藤博之社長

 これらの研究成果、難解なものもあり、すべては理解できなかったが、気になったもの、面白かったものを中心に、いくつかピックアップしていこう。

 まずは、後藤氏のグループの発表内容から。1つ目は、人型ロボットによるダンスの実現。とりあえず、以下のビデオをご覧いただきたい。これは、以前にも紹介したことのある能動的音楽鑑賞サービスSongleと、人型ロボット用制御ソフトウェアであるV-Sidoとの共演。V-Sidoはロボット研究者である吉崎航氏が開発した技術だが、これがSongleが作り出す音楽地図に合わせて、リアルタイムに踊るというもの。しかもジョイスティック操作することにより、踊ったまま、歩かせるというすごい技まで実現するシステムとなっている。

「人型ロボットによるダンスの実現」の動画(YouTube)
Songleと人型ロボット用制御ソフトウェア「V-Sido」との共演
ロボット研究者の吉崎航氏がV-Sidoを開発

 あらかじめ8つのパターンがプログラムされており、音楽地図の情報に合わせて切り替わっていくのだ。吉崎氏によると、ビデオに撮影して音楽とロボットの動きだけにできれば、ピッタリのタイミングで同期させるのがいいが、実物を目の前で動かす場合、サーボ音が出るため、ピッタリだとサーボ音がリズムとズレて気持ち悪いのだとか。そのため100msecほど遅れるように同期させているのだという。

 2つ目はSongrium 3D。こちらも以前、記事で紹介した音楽コンテンツの関係性を可視化する音楽視聴支援サービスであるSongriumの音楽星図を3次元CGで表現したものだ。一人称視点での可視化により、コンテンツ表示と全体表示を両立。動画再生時にはビートや楽曲構造と連動した視覚的演出が表示される。Songriumのサイトにアクセスすれば、すぐに誰でもブラウザ上で楽しめるようになっている。

Songrium 3D

 次はAutoMashUpperというシステムで、Web上にある楽曲の中から、現在再生中の曲とマッシュアップ可能な楽曲を見つけ出した上で、自動的にリズムを合わせるとともにキーを合わせて演奏してしまう、というユニークなシステム。やはりSongleをベースに利用しており、キーやビートが合わせやすい楽曲を見つけると同時にタイムストレッチやピッチシフト処理を行なった上で、気持ちよく2つの楽曲を鳴らしてしまうのだ。いくらニコニコ動画の楽曲を利用しているからといって、勝手にマッシュアップして、著作権的に問題にならないのだろうか……と気になったが、この辺もしっかりケアされているのも面白いところ。

Songleをベースとした「AutoMashUpper」

 このシステムで行なっているのは、複数の楽曲を1つのPC上で同時に再生しているだけであり、何も手を加えているわけではないのだ。小節やパートごとに、マッシュアップする楽曲や楽曲のパートが自動的に切り替わっていくが、ユーザーの意思によって、マッシュアップする楽曲を指定したり、その位置を変更するなど編集作業ができるのも面白い。ただ、こうした編集作業もあくまでもメタ情報をいじっているだけで、原曲にはなんら手を加えていないというのも、なかなかのアイディアだと思った。

 AutoRhythmGuitarは、まただいぶ違ったシステムとなっている。これはコード譜を入力するとともに、特定のアーティスト名を指定すると、そのアーティスト風な演奏をするための楽譜&TAB譜が表示されるという画期的システム。たとえばジョン・レノンとか、エリック・クラプトンというように、特定のアーティストがプレイする譜面をあらかじめ情報として学習させておくと、コードを指定するだけで、その人風な譜面を作り出してくれるわけだ。最終生成物はMusicXMLというデータ形式なのだが、現在多くの譜面ソフトはMusicXMLに対応しているため、それらに読み込ませれば立派な譜面として表示可能になるのだ。

AutoRhythmGuitarは、あるアーティストがプレイする譜面を情報として学習させると、コードを指定するだけで、その人風な譜面を作り出してくれる

“声の年齢制御”や、自由な楽曲生成システムなどユニークな発表が続々

 続いて、個人的には即欲しいと思ったのが「歌唱音声の統計的知覚年齢制御」というシステムだ。タイトルは、ずいぶん難しそうな名前となっているが、これはある歌声を入力した上で、その人が若いころの歌声や、年を取ったときの歌声を再現しようというもの。男性、女性に分けた上で、数多くのデータを蓄積・分析した結果、どのような変化をするのかシミュレーションしているのだ。実際デモを聴かせてもらったが、確かにその人でありつつ、若返ったり、年取った声になるのは面白いところ。人間の歌声に処理するだけでなく、もちろんVOCALOIDによる歌声に対しても処理できるなど、なかなかユニークな効果が出せそうだ。現在DAW用に存在するボーカル用のエフェクトにおいて、フォルマントを調整して、女性っぽい声にするとか、より男性っぽい声にするシステムはあるが、年齢で変えていくといったシステムは見たことがない。いまのCPU処理能力があれば、リアルタイム処理できるエフェクト化も可能とのことだったので、ぜひ、そうした製品化を期待したいところだ。

歌唱音声の統計的知覚年齢制御

 次は「自由なテンポで演奏した複数の演奏データから楽曲を生成するシステム」。これは、従来の音楽と映像の同期や音楽同士での同期の仕方から脱却して、もっと自由な同期を実現しようというシステム。普通はガイドリズムのクリック音や既存の演奏のテンポに合わせて演奏を行なう必要があり、奏者ひとりひとりのテンポの緩急によって生じる音楽表現は犠牲にされてきた。そこで、各パートの奏者が自由なテンポで録音した演奏データを統合したり、ユーザーが選んだパートのテンポに合わせて合奏をおこなっているような楽曲を生成できるシステムを作ったというのだ。

自由なテンポで演奏した複数の演奏データから楽曲を生成するシステム

 例えば、シーケンサを使わず、生で演奏したテンポに揺れがある音楽と、それとは無関係の語りを録音した素材があったとしよう。これに、それぞれテンポに合わせる形でマークを付けていくと、そのマークで合うようにタイムストレッチされて自然にピッタリとあうのだ。その結果、語りがラップのように再生されるし、映像のトラックがあれば、シーンが切り替わる度に、音楽も合わせて小節が変わったり、展開が変わったり……といったことが可能になる。プロトタイプなので、とってもシンプルな画面になっているが、だからこそ、非常に分かりやすいシステムになっていた。

「統計的機械学習に基づく音楽解析」は、自動採譜などへの活用が見込まれる

 次の「統計的機械学習に基づく音楽解析」は、Web上にある膨大な音楽データを自動的に解析して、音楽的な構造がどうなっていくか学習しようというチャレンジングなシステムだ。ここでいう音楽データはMIDIデータなどではなく、普通のオーディオデータ。当然、ここにはさまざまな楽器、パートが含まれているが、これを分離した上で譜面化していこうというのだ。確かに、全体を周波数解析することで、どんな音高が出ていることまでなら判別可能そうだが、どれがピアノでどれがギターの音であるかを判断するのは非常に困難。これをスペクトル包絡の違いによって、分離していこうというのである。その後、それぞれの成分を譜面化することで、学習するということを目指しているが、現在はまだ発展途上のようだ。これが実現すれば、まさに夢のコンピュータ耳コピシステム。実現への道のりは近くはなさそうだが、今後の発展が非常に楽しみなシステムだ。

スペクトル包絡の違いによって、それぞれのパートに分離。それらを譜面化して学習することを目指す

 「音楽音響信号中の調波音の周波数特性およびドラムの音色置換システム」は、先ほどの「統計的機械学習に基づく音楽解析」とは手法が違うが、特定の楽器を抜き出すという考え方としては近いものであり、それを現実的なシステムとした研究だ。これはタイトル通り、抜き出すのは任意の楽器というわけではなく、ドラム。オーディオ信号からドラムだけを狙って消した上で、別のドラム音と差し替えてしまうというシステム。実際のデモにおいては、ビートの効いた楽曲からドラムパートがすべて消えた上で、スネアの部分が別の曲で使われていたパーカッションの音へと置換されていた。それぞれ、ステレオミックスされた楽曲であり、マルチトラックのデータを用いたわけではないので、ちょっと魔法のような感じのデモになっていた。もちろん、ヘッドフォンを用いてよく音を聴くと、ドラムの音も微妙に残ってはいるが、誰が聴いても明らかに置換されたと思えるサウンドになっていた。

音楽音響信号中の調波音の周波数特性およびドラムの音色置換システム

 最後に紹介するのは「音楽音響信号中の歌声F0軌跡に対する歌唱表現の転写システム」。これは個人的には今回あった20の研究発表の中で一番インパクトのある内容だと思ったが、まずは以下のビデオをご覧いただきたい。

「音楽音響信号中の歌声F0軌跡に対する歌唱表現の転写システム」の説明動画(YouTube)

 お分かりいただけただろうか。まずベースにあるのは、ボーカルに対してビブラートをつけたり、こぶしによって抑揚をつけたり、グリスダウンやグリスアップといったピッチの変化をつけるという技術。この研究自体は、以前「歌声情報処理最前線!!!」の記事においても取り上げたことがあった。しかし、今回はさらにもう一歩進んだ内容になっている。伴奏なしのボーカルに対して、こうした効果をかけるだけでなく、ステレオミックスされた、普通の楽曲に対しても、同様の効果を加えることを実現しているのだ。

ステレオミックスされた楽曲のボーカル部分にも、様々な編集が行なえる
ボーカルと伴奏の入ったオーディオに「定Q変換」を行ない、歌声と伴奏に分離するという

 なぜ、そんな魔法のようなことができるのか。ここでは、ボーカルと伴奏の入った一般のオーディオに対して「定Q変換」というものを行なうことによって、スペクトル的に見て歌声と伴奏に分離する。全部のパートをキレイに分離させるのは、かなり難しいが、ボーカルのみを取り出すのであれば、ある程度可能になっているからだ。その上で、分離したボーカルパートに対し、歌唱表現の転写を行ない、最後にミックスすることで、この魔法が実現されているわけだ。

 こうした技術を一般のユーザーが使えるようになるまでには、まだ時間がかかるのかもしれないが、非常に楽しみな技術。歌声と伴奏の分離はともかく、ビブラートやこぶしなどの抽出し、転写する機能が実現すると、VOCALOIDによる歌声合成の世界での表現力が格段に向上しそうだ。

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。EPUBマガジン「MAGon」で、「藤本健のDigital Audio Laboratory's Journal」を配信中。Twitterは@kenfujimoto