音楽好きのための音楽生成AIサービス最強決定戦~Suno、Udio、Tunee、Stable Audioいちばん狙った音が出るのはどれ!?(インスト曲)

画像生成等に比べるとまだマイナーな音楽生成AIサービスですが、BGM用など用途を選べばわりと実用レベルだと感じます。
例えばこの動画のBGMは全てUdioというサービスで作っています。

同様のサービスがいろいろ出てきているので、このへんでいちど比較してみたいと思います。
対象は、Suno、Udio、Tunee、Stable Audioの5つ。

想定用途としては、ちゃんとこだわって動画のBGMを作りたいです。もっと細かく言うと

  • インスト曲前提
  • こだわってプロンプトでいろいろ書きたいし、「楽しい曲」とかじゃなくてちゃんと狙ったサウンドを出したい
  • プリセットのジャンルから選ぶだけじゃなくてオリジナリティも出したい
  • とはいえ細かいところは勝手にいい感じにやってほしい
  • 細かいところ触りだすときりがないので今回はほぼデフォルトの設定で一発出しで比較

という感じ。

たぶん普通の「明るくて派手なEDM」とかは当然できると思うので、今回はちょっとひねったプロンプト5つをサンプルとして用意しました。同じプロンプトを5つのサービスに投げて、それぞれできた曲を評価します。

なおSuno、Udio、Tuneeに関しては1回で2曲できるので、独断で出来のいい方を選びました。
Udioのみ有料プラン、他は無料プランです。

※Udioの課金有無によるクオリティの差はないと思います、ただ一発で出力できる曲の長さが違います。無課金は30秒まで。続きを再生成(Extend)で30秒ずつ延長可能

留意点として、今回のサンプルは無選別の一発出しなので、各サービスともクオリティ面で十分に実力を発揮できているわけではない(時間かければもっといいのができる)です。「AI音楽生成ってこの程度か…」とガッカリはしないでほしいなと思います。

①三拍子のローファイヒップホップ。フルートのフレーズを使ったループ。ラップや歌を含まないインストゥルメンタル。

※翻訳による差が生まれないように、プロンプトは英訳してから投げています。
Lo-fi hip hop in triple meter. Features a looping flute riff. Purely instrumental, no singing or rapping.

参考音源

※プロンプトの意味が分からないと聴き比べようがないと思うので、ベンチマークとして参考音源を貼っておきます。
あくまで一例を挙げて音楽ジャンル全体を説明するためのものであり、特定のアーティストを模倣する目的で生成していわけではありません。

ローファイヒップホップはこういうの
www.youtube.com

Stable Audio


3拍子指定をガン無視した4拍子。フルートループはOK。
フォーマットとしてはローファイヒップホップなんだけどウェットさがなくて無機質な感じ。雰囲気まで指定してないからしょうがないか。

Suno


3拍子、フルートループともにガン無視。
ローファイヒップホップっていうよりブレイクビーツのエレクトロポップって感じで、ちょっと違うかな。

Udio


3拍子、インスト指定をガン無視。フルートループについても怪しい(それっぽい音は鳴ってるけどフルートっていうよりシンセっぽい、フレーズも地味で主役っぽくない)
ただ雰囲気はかなりいい。ローファイヒップホップが何かちゃんと知ってる感じ。

Tunee

www.tunee.ai
※Tuneeは埋め込みできないのでリンク先で聴いてください。
3拍子を無視。フルートは吹いてるけどループ素材っていう感じではないので微妙か。
Udio同様、雰囲気含めローファイヒップホップがどういうものかちゃんと知ってて作ってる感じがする。

総評

実は最初からけっこう難問です。なぜか知らないけど音楽生成サービスで3拍子を作るのはかなり難しく、プロンプトで指定してもたいてい4拍子か、よくて6/8拍子になります。ここを今回クリアできたサービスはゼロ。
曲の雰囲気等は指定してないのであまり細かいことは言えないけど、おまかせの状態でローファイヒップホップの典型的な感じを出してきたUdioとTuneeは優秀。

②スペーシーなスピリチュアルジャズ。鈴の音が印象的。オルガンとエレピのソロあり。コーラス隊による歌詞のない、力強いコーラスを含む。静かに厳かに始まりだんだん盛り上がっていく。

Spacey spiritual jazz. Distinctive bell sounds. Includes solos on organ and electric piano, plus a powerful wordless chorus. Begins quietly and solemnly, gradually building in intensity.

参考音源

スピリチュアルジャズはこういうの
www.youtube.com

Stable Audio


スピリチュアルジャズを知らない人が作った感じ。ジャズかどうかも怪しくてどっちかというとニューエイジっぽい。気まぐれでつけた「Spacey」に引っ張られたかな…。

Suno


90年代の映画音楽っぽい??なにひとつ合ってないな…。

Udio


どスピリチュアルかはわからないけど少なくともフリーかスピリチュアル寄りのジャズではあるので好印象。鈴は鳴ってない。ソロの指定もあんまり従ってくれてない。
コーラスもないんだけど、これはInstrumentalを選んだせいかもしれない。

Tunee

www.tunee.ai
ローファイヒップホップではあれだけ勘が良かったのに、こっちは急に90年代のクリスチャンバラードみたいになってしまった。コーラス入ってるのはポイント高いけどガッツリ歌詞あるし、メインボーカルが高らかと歌い上げてしまっている。

総評

スピリチュアルジャズっていうジャンルがニッチだからよくなかったのか、Udio以外ついてきてくれない結果に。でも他の3つもせめてもう少しジャズに寄せてくれても良かったと思うが。

③インストゥルメンタルのドリーム・コア。懐かしい感じと浮遊感。柔らかいシンセの音色でメロディを奏でる。深めのリバーブ。

Instrumental dreamcore. Nostalgic and airy mood. Soft synth tones carry the melody, drenched in deep reverb.

参考音源

ドリームコアはこういうの
www.youtube.com

Stable Audio

なぜかこのプロンプトだけ何回やってもエラーになって生成できませんでした。

Suno


これはけっこうイメージどおり!でも曲として単調であんまり面白みがない印象はあるかも。

Udio


イメージ通りだし、Sunoと違って聴ける曲になってる。ベースのグルーヴ感とかちゃんとあるのもいい。しいて言えばそのグルーヴ感が裏目に出て浮遊感はあんまりないかも。

Tunee

www.tunee.ai
バンドサウンドで来たか。ドリームコアってサウンドスタイルというよりも雰囲気系のジャンルという印象なので、こういうのも含めてOKなんじゃないでしょうか。
曲に展開もちゃんとあるし、けっこう好きな感じ。シンセのメロディという指定が無視されてるのは難点。

総評

Tuneeのコメントにも書いたけどドリームコアってサウンドスタイルというよりも雰囲気系のジャンルという印象なので、わりとお任せ度の高い課題だったと思う。それぞれが「私の考えるドリームコア」を出してきた感じでおもしろかった。
見方を変えるとジャンル指定は3者とも満たしていただけに、クオリティ面での作曲力の違いがあらわになった気もする。

④ヴォーカル曲もインストゥルメンタルも含むざまざまな曲からカットアップしたようなコラージュ系のエレクトロニカ。BPM140くらい。ビート強めで実験的なサウンドながら踊れる感じ。

An experimental electronica collage. Chopped from diverse vocal and instrumental sources. Driving beats at roughly 140 BPM, balancing avant-garde textures with dance energy.

参考音源

特になにかの曲を意識したわけではないのですが、あとから考えるとこれとかが近い?
www.youtube.com

ただ上のはハウスなので、エレクトロニカってどういうものかだけ補足しておくと典型的なのはこんな感じ
www.youtube.com

Stable Audio


エレクトロニカって言ったのに90年代後半~2000年代前半あたりのトランスっぽいテクノが出てきた。
コラージュではないけどカットアップっぽい声ネタが入ってるのは評価できるポイントか。

Suno


90年代前半くらいの初期のテクノって感じがして謎のノスタルジーはあるのですがプロンプトで意図したものより10年古いんだよな。

Udio


ボイスサンプルが入ってたりしてエクスペリメンタル感を出したい気持ちは伝わってくるため「わかる~」という謎の感情移入が生まれてしまう。でもしかしカットアップコラージュではないよなこれは。BPMも遅い。

Tunee

www.tunee.ai
こういうのなんて言うんでしょうか、グリッチハウス?
ゴリっとしててかっこいいのですがリクエストしたのとは全然違う、でもかっこいいからいいか……。
ボーカルチョップがちゃんと使われてるという意味では一番評価できるかも。

総評

これも難題でした。
コラージュ系の曲って音楽生成AIでは全然うまくできないので、無理を承知でやってみました。きれいに狙い通り作ってくれたのは一個もなくて、どれも部分点という感じです。
裏を返せばこういうばらつきがAI音楽生成の面白さではあるのかも……。

⑤ロマ音楽とクラブミュージックの融合。バイオリン、ツィンバロム、ギター、コントラバスを含むアコースティックのジプシーバンドにドラムンベースのビート。

A fusion of Romani music and club beats. Acoustic gypsy band with violin, cimbalom, guitar, and double bass, layered over drum & bass rhythms.

参考音源

ロマ音楽はこういうの
www.youtube.com

ドラムンベースはこういうの
www.youtube.com

Stable Audio


一瞬ロマっぽくなる瞬間もありつつケルトっぽくなる瞬間もあったりして安定しない気持ち悪さがある。メロディも曲全体もメリハリがない感じ。ドラムンベース要素はゼロですね。

Suno


なんかエスニック感出してはいるけどこれはロマ音楽ではなくない??ドラムンベースでもない。何。

Udio


うーん、ロマっぽくはあるのですがビートの方がハウスになってしまった。楽器もバイオリンもツィンバロムもコントラバスも入ってない。あとインスト指定してるのに歌入ってきたな。

Tunee

www.tunee.ai
これこれ!出してほしかったロマ音楽こっちです!!!!
なんですけどクラブミュージックのドラムンベースではなくて、生ドラムが激しいロマ音楽になってしまった。人力ドラムンベースと思えばこれもありなのか!?

総評

ワールドミュージックの中でもロマ音楽というちょっとニッチっぽいところを選んでみました(個人的な趣味もある)。
ロマ+ドラムンベースってたぶん世の中にほとんどない音楽なので学習されていないと思われ、そういうのを作るのはやっぱ難しいんだろうかと素人ながらに思いました。

各サービスごとの講評

Stable Audio

リリースされたばっかりということで生成物の前にそもそも動作が不安定。
で、うまくいった生成についても正直、曲としてそんなに魅力的ではない印象でした。Stable Diffusionの開発元のサービスということで期待しましたが、ちょっと様子見ですかね。これからいい感じに育ってほしい。

Suno

歌モノ生成してる人にはすごく人気のサービスですがインスト勢としてはあまりいい出力が得られた覚えがなく、言い方は悪いですが「なんでこんなに人気あるんだろう?」と感じています。
再現できないジャンルが多かったりして、単純に音楽に関する知識が足りていない感じがする。ジャンルが反映できた場合でものっぺりした曲になることが多い。

Udio

使い慣れているせいもあるかもですが、プロンプトの意図を汲んで狙ったサウンドを出してくれます。それって別に忖度がうまいとかじゃなくて、「ジャンル名書いたらそれをちゃんと知ってて典型的なサウンドを返してくれる」みたいな背景情報の多さによるものな気がします。
いっぽうでインスト指定してるのにヴォーカルやコーラスが入りがちだったり、決して完璧ではないです。あとライブラリ整理がめちゃくちゃやりにくい(使い込んでるので指摘が具体的)。
Udioについて詳しい使用感はこちらも読んでください。

nomolk.hatenablog.com

Tunee

初めてちゃんと使いましたがこれはいいですね!Udioと同じく音楽の知識がちゃんとあってこちらの意図を汲んでくれる感じがする。
ChatGPTみたいな対話型で、AIと話しながら曲を育てていくのが特徴のサービスなので、この操作感の違いが使い分けのポイントかも。
ただ、対話型だからといってスルスル思い通りの曲ができていく……というほど甘くはない感じでした。
個人的にはUdioでいっぱい生成して良いのを選ぶのに慣れている(し楽しい)のですが、こちらの方がやりやすいという人はいるかも。

以上です。個人的には今後もUdioを使い続けつつたまにTuneeの方も触ってみようかなという感じでした。

そんなUdioを使って作った動画も見てね。
www.youtube.com

おまけ:その他のサービス

今回比較するにあたって除外したサービスもあります、下記に列挙しておきます。俺はプリセットのジャンル選択じゃ満足できねえ、プロンプトで細かくリクエストしたいんやという強い願望を反映しています。

  • boomy … 初手でジャンル選択が出てきたので除外
  • SOUNDRAW … 初手でジャンル選択が出てきたので除外
  • TopMediAi … 初手で歌詞入力が出てきたので除外
  • AIVA … 初手でスタイル選択が出てきたので除外
  • Mubert Music … 無料生成だとphotostockの透かしみたいな感じで「Mubert」っていうボイスが入ってしまう&クオリティもイマイチな感じだったので除外

nomolk.hatenablog.com
nomolk.hatenablog.com