国立音楽大学(東京都立川市)は2023年4月に「音楽データサイエンス・コース」を新設する。音楽大学がデータサイエンスに特化したコースを設置するのは国内初の試みだという。楽曲の波形データから特徴を解析してレコメンドシステムの開発に生かしたり、楽器の演奏姿勢をデータ化して奏法の改善につなげたりする。最近の音楽産業ではデータ解析やサウンドデザインができる人材のニーズが高まっており、これに適応できる人材の輩出を狙う。
「音楽大学の学生にデータサイエンス分野を学んでもらうことで、新たな人材を社会に輩出できるのではないか」。教壇に立つ国立音楽大学音楽学部の三浦雅展音楽文化教育学科准教授はコース新設の狙いについてこう話す。
コースは3年次から選択できるもので、選抜試験に合格すれば入学時の学科や専修は関係ない。受講者は基礎から数理データサイエンスを学び、データ分析を用いた研究ができる。使用言語を固定する予定はないが、AI(人工知能)のプログラミングに使われることの多いPythonやシステム開発に使われるJava、数値解析に使われるMATLABなどを扱う用意があるという。初年度の受講者数は数人程度を予定する。
レコメンドシステム開発の天井を破る可能性
音楽データサイエンス・コースで研究できる内容は主に音楽データ分析と演奏科学の2点だ。
音楽データ解析では楽曲の持つ特徴量を機械学習によって分析し、傾向把握や予測を行う技術を研究する。消費者向け音楽配信サービスなどで使われる、よく聴く楽曲の傾向を把握し、好みと思われる曲をより的確に薦める「レコメンドシステム」の開発への貢献が期待できる。
現在のレコメンドシステムは「天井に当たっている」(三浦准教授)。コンピューターは音楽を単なる波形データとしか認識できず、中身を解釈するのは難しい。「激しい」「軽やか」といった曲調をはじめ曲の解釈ができないため、歌詞やタイトルに含まれるキーワードからお薦めとして提示することが多いが、それだけではうまくパーソナライズできないという。
どのような点が難しいのか。一例として拍の推定が挙げられる。楽曲をサンプリングすると音声は離散信号、すなわち波形データとなる。音が重なると波の形状は複雑化し、拍頭を認識することが困難になる。「(音楽を実際に聴けば)人間にとっては意味を成すが、波形から判断するコンピューターには意味がない。人間はかなり難しいことをやっている」(三浦准教授)。
具体的には「この曲は懐かしい感じがする」といった感性によるところを科学的に証明する「年代推定」技術での活躍が期待されているという。音響波形データからスペクトル重心、スペクトルフラックス、スペクトルロールオフといった音響指標値を特徴量として抽出。これらを計算し、機械学習を施したAIが何年代の曲か推定できる。
しかし、パラメーターを1000個使ったとしても「楽曲と関係のないノイズの影響を受けてうまくいかない」(三浦准教授)ため、パラメーターの精査が必要になる。そこで音楽的知識や感性を持つ音大生がチューニングできるようになれば、レコメンドシステムが高精度になり、より消費者に合ったレコメンドがかなうわけだ。
コンピューターではなく人間が解釈を担当すればよいといっても、プログラマーや音楽理論・演奏経験をほとんど持たない専門家にいきなり音楽的知識を求めることは難しい。そこで、「音楽配信サービス業界では『音楽が分かっているプログラマー』のニーズが高まっている」(三浦准教授)。習得の難度が比較的低いとされるPythonなどの登場で、初学者に学びやすい環境になってきたことも追い風となると考える。