サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
CES 2025
createwith.ai
TOP PAPER GAN を使って音楽ジャンルを変換 – Symbolic Music Genre Transfer with CycleGAN GAN によるドメイン変換・スタイル変換の技術を使って,音楽のジャンルを変換する研究です.音楽でドメイン変換する研究は今までにも興味深い研究がありました (このサイトでも紹介された A Universal Music Translation Network など).この研究では,MIDI 形式データを扱って音楽をシンボルレベルで操作し,楽曲を別のジャンルに自動的にアレンジすることを試みています. 早速,有名曲の1つとして,”Let It Be” のジャンル変換を聞いてみましょう (上が変換前,下が変換後). これは Pop から Classic へのジャンル変換の一例です.変換結果の曲としての良し悪しは個々人それぞれかもしれませんが,”Let
WaveNetを使ったAutoencoderで音楽のドメイン間の変換を可能に! – A Universal Music Translation Network 交響曲、ピアノ曲、コーラス、口笛などの異なる「ドメイン」の間で、音楽を自在に変換するという野心的な研究. 音楽を変換するといってもMIDIなどのシンボルレベルでのスタイルの変換ではなく、音の波形そのものを扱っています。 ベースになっているのはNSynthの論文の中で提案されているWaveNetをつかったAutoencoderです(NSynthについてはこのサイトでも取り上げたことがあります). Encoderは全ドメインで共通、Decoderは各ドメインごとに用意しています (ひとつのdecoderをドメインごとに条件付け(conditioning)する方法だとうまくいかなかったそうです)。Decoderには、NVIDIAが提供する
音と動画の関係を学習するモデルは、動画を扱う3次元のCNNと波形を扱う一次元のCNNの二つから構成されています。学習にはAudioSetの750000の動画を利用しました。 画面内と外の音源の分離には、pix2pixなどでも使われているU-netのアーキテクチャに基づいたencoder-decoderのアーキテクチャを使っています。encoderのアウトプットに、上で挙げた音と動画が同期しているかを識別するモデルのアウトプットを連結することで、同期関係の情報をdecoderに与えています。 本研究の発表に前後して、The Sound of Pixels や Looking to Listen: Audio-Visual Speech Separation といった関連研究が複数発表されています。これまで別々に扱うことが多かった音と映像を同時に扱うことで、いままでできなかった様々なタスクが
絵を描くのは得意、という方でも3Dモデルを作成したことがある方は少ないのではないでしょうか。一方、近年UnityやAppleのARKitなど、3Dモデルの活用の場はますます広がっています。このギャップを埋めるのに、ニューラルネットワークが一役かってくれるかもしれません。 “Neural 3D Mesh Renderer“は、二次元の画像から3Dのメッシュモデルの作成を可能にします。それだけでなく、Googleが公開し話題になったStyle Transferのように好みの画像を使いメッシュのスタイルをコントロールできます。 この研究では、二次元の画像を元に3Dモデルを作成し、作成したモデルのシルエットを本物シルエットと比較することで学習を行っています。 ただ、この過程において一つ問題になるところがあります。それが上図の「シルエットを生成」というプロセスです。3Dモデルから2D画像(シルエット
TOP PAPER 過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms 過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms このサイトでもおなじみのGANを用いて、アート(抽象絵画)を生成するという取り組み. 「過去」のアート作品を学習するだけで、真に創造的なな「新しい」アートを作れるのか? というもっともな問いに向き合った論文です. この研
GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection – 当ブログでも最近何度も登場しているGANですが、主に画像生成に使われるGANを、画像の顕著性マップの生成に使用している研究がありました。 顕著性マップ(Saliency Map)とは? 人が画像をみたときに注目しやすい場所を推定したヒートマップのことで、その歴史は非常に長く、簡単な所ではエッジなどのローレベルな特徴量を用いたり、様々な計算モデルが提案されています。 一方、GANは画像の生成部分と、生成された画像と訓練画像を見分ける認識器を同時に学習させる仕組みで、よりリアルな画像生成を行えるようになっています。 それらを組み合わせたのが今回提案されているSAN(Supervised Ad
TOP DEMO 機械学習による、「演奏」の学習 – Performance RNN: Generating Music with Expressive Timing and Dynamics – 機械学習に「楽曲」を学習させて生成させる試みは今までもありましたが、「演奏」を学習させるという試みが行われました。それが、今回ご紹介する”Performance RNN: Generating Music with Expressive Timing and Dynamics“になります。こちらは、機械学習をアートの分野に活用しようというMagentaプロジェクトの成果の一つとなります。 まずは、公式サイトにて公開されている実際に生成された演奏をお聴き頂ければと思います。 何でしょうか?とても「らしい」感じになっていると思います。 演奏においては単純に音符の連なりを予測するだけでは不十分で、鍵盤
TOP PAPER 連想の学習 – See, Hear, and Read: Deep Aligned Representations 「波打ち際を歩く人」という文、波打ち際を歩く人の写真、波の音に混じる砂を踏む足音。テキスト、画像、音声とそれぞれモダリティ(感覚)は違いますが、これらに共通する意味、コンセプトを人は簡単に見出すことができます。こうした感覚の枠をこえて共通するコンセプトを、統一したかたちで表現できないか、という研究。 いったんこういう表現が出来れば… 文からそれに対応する画像、画像から文、音声から文といった具合に、感覚を超えた検索が可能になります。結果は、プロジェクトページの例を見てもらうのがわかりやすいでしょう。コンピュータが連想することを覚えたと言ってもいいかもしれません。 学習データとしては、Flickrからダウンロードしたビデオのフレームの画像と音、COCOなどのデ
TOP DEMO 機械学習を用いたシンセサイザーが持つ可能性 – Making a Neural Synthesizer Instrument – 様々な楽器の音を機械学習で学習させたら、「覚えた音」同士を混ぜたりすること、例えば「トロンボーンとエレキギターの中間の音」を生成するということも可能ではないか・・・というアイデアに、一つの答えが示されました。 機械学習の技術をアート分野に応用するGoogle BrainのプロジェクトMagentaから、また非常に面白い研究成果とデモが発表されました。まずはデモを試してみていただくのが一番良いのではないかと思います。 AI Experiment/NSYNTH: SOUND MAKER ここでは、事前に学習された様々な音同士をミックスさせることができます(牛や猫の鳴き声、雷の音なんてものまで用意されています)。Max MSP/Ableton Liv
私達がペンを持って絵を描くとき、それは様々な軌跡の線(ストローク)で表現されます。そして、書き上げられた絵は実際の写真とは異なるものの、非常によく対象の特徴(ネコのひげ、人の顔、車の形など・・・)を捉えています。 このプロセスを、機械学習により再現できないかという試みが、表題の「A Neural Representation of Sketch Drawings」となります。 これは、GANなどのピクセル単位の画像(ラスタライズ画像)を生成するのとは異なり、ストローク単位の画像(ベクター画像)を生成するという点で、既存の画像生成とはアプローチが大きく異なります。 その手法の中核となるのは、ストロークを生んでいる「ペンの状態」に着目し、その状態遷移を学習させるというアイデアです。 論文では、ペンの状態を以下のようにモデル化しています。 Quick, Draw!というAIに何を書いているか当て
CycleGAN 対訳がなくても画像を翻訳(変換) – Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 画像の世界にも「翻訳」があるのはご存じでしょうか。通常の翻訳と同じように、「意味」(=画像に写っているもの)を維持したまま別の「形や様式」に変換を行うという技術です。この「画像の翻訳」はpix2pixという研究が発表されてから、にわかに注目されるようになりました。以下は、pix2pixで行われた「画像の翻訳」の実例です。 「画像に写っているもの」を維持したまま、別の「形や様式」になっているのがわかるかと思います。これが画像の翻訳です。以下のサイトではオンラインで試せるデモが提供されています。SNS上などでかなり拡散されたため、ご存じの方も多いかもしれません。 Image-to-
ピカソ風、ゴッホ風の絵に変換できるというので一躍有名になった Style Transferの手法を「写真」に応用した研究. 雪山が見事に緑に溢れた写真に変換されているのがわかる. 他の例がこちら. 左の二つが入力写真、スタイルを規定する写真. 次の二つが既存手法 (Style Transfer, CNNMRF) で、一番右が提案手法. 写真らしさをたもつために、一般的なStyle Transferの考え方に加えて、画像の変化を色空間のなかでのローカルなアフィン変換に制限すること、さらにその変換をCNNのレイヤーとして実装することでバックプロパゲーションできるようにしている点が新しい. Matlabのコードが公開されているので、Pythonなどに移植してみると面白いと思います! This paper introduces a deep-learning approach to photogr
学会用のポスターを作るのが面倒くさいという科学者共通の悩みから生まれた、ある意味不真面目(?)な試み。 論文のテキストからコンテンツを抽出した後、各パネル要素(Abstruct, Conclusionなど)の大きさやアスペクトなどを、要素の文字数などを入力として学習済みのベイジアンネットワークに推論させて、読みやすいパネルレイアウトを自動生成することができるらしいです。 コンテンツ抽出後の全体の処理を、 ・大雑把なパネル要素の推定 ・パネルレイアウトの生成 ・各パネルの装飾 の3つに分けて、それぞれで違うアルゴリズムを使って学習させているのが肝みたいです。 下画像の真ん中のポスターが、このシステムで生成したポスターみたい。 下の2つ動画にある、漫画のレイアウトの自動生成の研究が先行研究らしく、こちらも面白いです! Researchers often summarize their work
Copy<!-- Typekit: Update the link below with your Typekit ID --> <link rel="stylesheet" href="https://use.typekit.net/gnx8fcu.css"> <!-- Add your analytics script here --> <!-- I use Fathom, it’s a great alternative to Google Analytics with a minimal dashboard and a focus on privacy. Please consider using my referral link when creating an account: https://usefathom.com/ref/CSKBJR --> <!-- Favicon:
このページを最初にブックマークしてみませんか?
『Create with AI』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く