アニメ制作のためのAI開発を考えるアニメチェーン構想の中核メンバー、AIHUB CTO・新井モノとアニメ関係者の対談企画第2弾。今回はスタジオジブリ作品などにも参加する撮影監督・コンポジッターの泉津井陽一を迎え、制作現場でAIがどのような働きができるかについて語り合う。
■プロフィール
泉津井陽一(せんずい・よういち)
撮影監督、コンポジッター。1997年よりスタジオジブリで「CG」「エフェクト」「撮影」などを担当。『ホーホケキョ となりの山田くん』(1999)、『千と千尋の神隠し』(2001)、『風立ちぬ』(2013)、『かぐや姫の物語』(2013)などを担当。
ジブリ作品以外でも『電脳コイル』(2007)、『ジャーニー 太古アラビア半島での奇跡と戦いの物語』(2021)で撮影監督を務めるほか、『モノノ怪 第一章「唐傘」』(2024)ではビジュアルディレクターを担当する。著書に『OpenToonzではじめるアニメーション制作』(工学社、2016年)がある。
新井モノ(あらい・もの)
AIHUB株式会社 代表取締役CTO/アーティスト/エンジニア
PM/PdM/アーキテクトとして、エンタメ×Tech領域を中心に数多くの起業/プロジェクトを手掛ける。日本Linux協会、日本医師会ORCA管理機構"ORCA Project"の立ち上げに参画。AIHUB株式会社の設立以降は、生成系AI研究開発、ユースケース開発、社会実装、責任あるAIとweb3技術の融合に力を注ぐ。生成系AIのクリーンな基盤学習モデルを作るアニメチェーン構想の設立メンバー。
取材/執筆:藤津 亮太
■AI産業革命、アニメーション制作現場での活用は
――泉津井さんは、数年前にAIをアニメ制作に活用する試みにアドバイザー的に関わられたことがあるそうですね。
泉津井そうですね。もともとドワンゴさんがそういう研究を進めていて、人づてでアドバイザー的に関わることになりました。2017年か2018年ごろで、まだ生成AIがこれほど話題になる前のことです。当時はディープラーニングを使って、なにかできないかという段階で、その成果はシグナル・エムディで制作した『フリクリ プログレ』第5話に反映されることになりました。
――こちらで紹介された話題ですね。(「原画の絵をそのまま画面に出す」という「フリクリ プログレ」第5話でのシグナル・エムディの取り組みとは)
泉津井ただ当時は、本当に手探りでした。AI関連の作業をやっていたのがお一人だったんで、学習に使う絵を取り込むだけでも手間だったし、解像度の問題もあった。本当は300dpiで取り込みたかったけれど、それだけの時間もハードウェアの環境も足りていなくて。最終的に、原画の絵をクリーンナップに使うという方向になったのも、試行錯誤の中で、「そこならいけるんじゃないか」と方向を定めた感じでした。一応、中割ソフト(動きのキーとなる原画と原画の間を埋める絵を描くソフト)も出来上がりましたが、計算時間がすごくかかると聞きました。
――なかなか難しいものですね。
泉津井AIというと、なんとなく世間は「コンピューターが考えている」というふうに思うのかもしれませんが、決して思考しているわけじゃないんですよね。別に絵を理解しているわけではない。たとえば体の前で腕を交差させている絵があっても、当時は「右手が前」「左手が後ろ」のように理解できないから、そこが変な形になってしまう。そのあたりは今、どういう形になっているのかは、もうちょっと知りたいところですね。
――新井さんは、泉津井さんの体験を聞いてどう思われましたか。
新井お話が、2018年ごろということですが、ちょうど2017年にトランスフォーマーという、ディープラーニングの手法のひとつが登場しまして、これが生成系AIにつながっていく大きな分岐点だったんです。
泉津井そうなんですか。
新井そして2022年夏にMidjourneyとStable Diffusionが登場して、一気に原始時代から産業革命に匹敵するレベルの大変革へと状況が変わったんです。またStable Diffusionがソースコードを開放して、それで全世界の何十万人といった研究者、プログライマーが同時多発的に研究するようになった。論文も即座にアーカイブで共有されるようになった結果、新しい技術が2・3日で実装されるようになっています。
――すごいスピードで状況が変化している真っ最中なわけですね。
新井はい。そういう流れの中で、僕たちも昨年『BEYBLADE X』のエンディングテーマ曲「ZOOM ZOOM」のアニメリリックビデオを作りました。
今見ると、ちょっと手法として古い感じですが、この延長線上で何ができるかを考えていくと、トップクリエイターさんが出すクオリティはAIには難しいだろうと。ただ、トップクリエイターさんの技を学習したことで、今いろいろ練習している人をサポートできるだろうというふうには考えて、今、動いています。あと基盤学習の段階で、ネットから大量の画像を学習している仕組みだと問題があるので。アニメチェーンとしては、基礎学習の段階から問題のないデータを使うことで、アニメチェーンに参加する我々AiHUBとしては、そういう公式に使えるAIを作りましょう、という開発を行っているところです。
泉津井現状のアウトプットの目標ついては、どういうふうに考えているのでしょうか?
新井アニメーション制作のワークフローを考えた時、たとえばプロットのバリエーション探索を手伝うこともありえます。でも一番は絵コンテ以降の映像化の段階ですね。現状、手描きより3DCGで作ったほうがいいという判断があるように、ここはAIに生成させたほうがいいという状況があるだろうと考えています。特に労働集約的な部分ですね。モブシーンだとか、多くの人に張り込み素材を貼らなくてはならないとか。あるいは現在なら中割といった作業ももっといい形でできるようになると考えています。そのためにも、私たちは、クリエイターの人とのコミュニケーションが必要だと考えています。たとえば今、線をきれいに出すことに特化したAIを開発しているグループがあるんですが、クリエイターではないので、どういう線がよい線なのか、その線はどういう計算で出すことができるのか、という課題が重層的にあります。そこをいろんな方の力を借りてクリアしていきたい。そしてこうした個別に開発しているものを、最終的にひとつのプラットフォームにまとめて、みんなで使えるようにしたいというふうに考えています。
――泉津井さんとしては、アニメーションの制作現場でAIの活用にはどんな可能性があると考えていますか?
泉津井現状の制作現場で、「AIに描いてほしい」という部分は基本的に少ないです。もちろん挑戦している会社さんもあるし、製作サイド、プロデュースサイドでは関心も高いようですが、現場的には「描くのは自分」というのが前提なので。一方で既に、スクリプトやエクスプレッションを書くために使っている人はいます。いずれにせよ手描きを前提にAIの活用を考えていくと、制作現場で求める精度がどれぐらい出るのだろうかという点も無視できないんです。原動画の線は1mm以下の精度で引かれていて、そこのニュアンスがすごく重要です。これが映画館のスクリーンに投影されるとなると、ちょっとのズレもものすごく大きなものとして見えてしまう。この精度が、日本のアニメーションを特徴づけているので、果たしてそこに達しているのか、達することができるのか、ということが大きなポイントのように思います。それは背景美術も同様だと思います。そう考えるとむしろAIと相性がいいのは、手描きよりも3DCGのほうだと思います。
■生成系AIの今後について
――3DCGのルックも今、またいろいろなものが登場してきています。
泉津井たとえば最近の『ガールズバンドクライ』は3DCGでアニメっぽいキャラクターデザインではあるけれど、いわゆるセルルックに寄せているわけでもない。手描きに寄せるというより、似た方向ではあるけれど、手描きとも違う3DCGならではのルックになっていて、手描きアニメに“擬態”しているというより、もう別物の魅力として楽しめるものになっています。そう考えると、やはり3DCGの現場のほうがAIとの相性はいいように思います。……あとちょっと違う角度の話になりますが、むしろAIに入ってきてほしい部分もあるんです。
――それはどういうところですか。
泉津井工程管理の部分ですね。アニメーションの制作現場って、工程も複雑で“行って来い”も多いんです。直進性がないというか。関わっている人も多いので、1回ある程度のところまで行ってリテイクが出ると、どの段階まで遡って、それは誰の作業で、みたいなことを整理して把握するのにすごく時間がかかる。各部署の長にあたる人って、そういう工程管理も担わなくちゃならないので、純粋にクリエイティブじゃないところに時間を費やすところが多いんです。
新井ああ、制作の現場はいろいろ大変そうだなとは思っていましたが、そういう難しさがあるんですね。
泉津井リテイクを重ねたカットのバージョン管理とか本当に大変で、現状は、Excelのガントチャートを作って管理しているんですが、テイクが上がっていくと項目がガーッと増えてしまう。一時期、工程管理ソフトのShotgunやShotGridを導入した会社もあるんですが、3DCGだといいのかもしれないけど、手描きの現場だと使ってみてもなかなかうまくハマる感じも薄く。そういう状態なので、シンプルに、そこにある素材がレイアウトなのか原画なのか見分けて整理してくれるだけでぜんぜん違うんです。特にリテイク作業が入ってくると、それをやっている最中は整理が難しくなるので、「あのファイル、どこに置いたっけ」となることが多々あって。しかもどれが最新のものか、手がかりがタイムスタンプだけだったりする。そういうことは日常茶飯事なんです。
新井AiHUBでもアニメの進行管理、制作管理の手助けとなるようなAIの開発を進めています。知見を学習したAIが、制作現場で飛び交うテキスト、画像、フォルダ、メールなど様々なデータを見て、進行管理をサポートします。たとえば手順について先輩の制作進行が「これだったらこうするだろう」みたいなアドバイスもできたりできます。画像ファイルを読んで、それが最新バージョンかリストにしたりすることもできますし。AIの導入というと技術の話が多いですけれど、まず働き方改革的な側面もあるんです。今までの仕事の中で、すぐ便利に対応できる部分があると思います。
泉津井あと最近の流れでいうとインディーズでアニメを作っている方のほうが生成AIや、そういう技術について取り組みが意欲的という印象がありますね。個人かそれに近い規模でやっているから、大手の作り方に合わせる必要がないということもあるし、若い人が多いから抵抗が少ないというのもあるだろし。そういう人が気軽に使えるような、少しスペックは落ちてもいいから手軽に使えるものがある、という草の根から広がっていくようには思います。
新井僕らが今、急いでいるのは海外の状況がどんどん動いているからなんです。昨年秋にシンガポールで公演した元ドリームワークスの(ジェフリー・)カッツェンバーグは、生成AIの影響として今後3年以内に90%の時間や労力を減らせるだろうと話しました(AI Will Cut Animation Labor And Production Time By 90% Says Former Dreamworks Animation CEO Jeffrey Katzenberg)。この状況だと、これまでアニメーションを作ってこなかった海外のプロダクションが、ネットに落ちているデータで学習させて「なにかできました」「コストダウンです」と言いかねない。そういうのは違うと思うんです。ビッグテックがそういうことを始めてしまうと、流れがそっちに行ってしまうわけで。
泉津井そのあたりが動機だったんですね。
新井はい。僕は音楽産業に関わっていたことがあるんですが、日本の音楽産業がCDに拘っている間に、iTunesが登場し、iPodを経由してiPhoneでスマホの時代がきてしまった。その結果、国産の音楽配信サービスはうまくいかず、一方でアプリをリリースするとアプリストアで30%の手数料を支払わなくちゃならなくなった。これがまた繰り返されるんじゃないかと心配しているんです。ただ生成系AIの現状からすると、大規模言語モデルは厳しい状況ですが、画像生成を始めとしたマルチモーダルなAIやAIオーケストレーションの分野ならまだ国産AIがビッグテックに対抗できる余地はある。それがアニメチェーンを進めている、一番の動機なんです。
――泉津井さんは、生成系AIの今後についてどんなふうに想像していますか。
泉津井生成系AIは今、いろんなアプリやソフトウェアにも搭載されつつあります。この先、生成AIが作り出した作品と、作り手の関係がどうなっていくのか。作り手の意識や無意識が直線的に作品に結びつかくなったとき、「作者」と「作品」はどんな関係になるのか。世間がそれをどういう形で受容するのか。僕はそこが一番気になっています。
新井生成系AIの学習は基盤学習の後、追加学習という過程があります。ここでアニメ調ならアニメ調、写真風なら写真といった、もう少し具体的なことを学習させ、そうしたAIを数万回マージ(合体)させていくことで、精度を上げていきます。この時、どういう出力がよい方向なのかのAIに対するフィードバックは、1000枚単位で出力させた画像を人間が選んで、方向性をリードしているんです。画像の感性的な評価や選別ができるAIの開発を進めていますが、まだまだトップクリエイターにはまったくかないません。そういう意味で、実は学習段階にも人間のクリエイティビティは大きく影響していて、だからこそ開発の段階からクリエイターの人に関わってもらうことに意味があると思っています。
泉津井ああ、問題のないデータを学習に使うだけでなく、ブラックボックスではなく、そういうふうに人が関わっていることがちゃんとわかるAIであれば、安心する人も増えていくのではないでしょうか。
新井そうですね、日本の文化に基づきつつ、かつ倫理基準も満たしたものを作れるといいなと考えています。