いま、ここにあるエッジAI
動画編集の「VEGAS Pro 18」、エフェクトでAIを活用し、4コアでも10コアCPUに迫る性能に
2020年11月17日 09:50
独MAGIXが提供する動画編集ソフトウェア「VEGAS Pro」は、元々ソニー・アメリカの子会社だったSony Creative Software社が開発した動画編集ソフトウェア。2016年にMAGIXにその権利が譲渡され、現在はMAGIXの手により拡張が続けられている。最新版は「VEGAS Pro 18」だ。高機能だが、比較的安価な動画編集ソフトウェアとして人気を集めている。
そのVEGAS Pro 18では、今年(2020年)のバージョンアップで2つのエッジAIの機能が追加されている。それが「Style Transfer」(スタイルの変換)、「Colorization」(カラー化)の2つで、前者は有名な画家風のタッチに変更したりすることが可能で、後者はモノクロの動画に色を自動でつけることができる。
これらのAI機能は、第10世代Core(Ice Lake)や第11世代Core(Tiger Lake)から新しくサポートされたIntel Deep Learning Boostに対応しており、従来のCPUより高速に処理できるようになっている。
VEGAS Pro 18はディープラーニングを活用
日本のユーザーにとって「VEGAS」と言えば、ソニーの米国子会社ソニー・アメリカの子会社となるSony Creative Softwareが開発、販売していた動画編集ソフトウェアというイメージが強い製品となるだろう。じっさい、VEGASは日本でもソニーの4Kハンディカム「FDR-AX1」(僚誌AV WatchのFDR-AX1レビュー記事参照)に「Vegas Pro 12 EDIT」のライセンスがバンドルされるなどしており、ソニーカメラユーザーにはお馴染みのソフトウェアと言って良い。
このVEGAS Proを始めとしたSony Creative Softwareが開発、販売してきたソフトウェアの権利の大部分は、2016年にドイツ企業であるMAGIXに譲渡され、以降は同社が開発、販売を担当している。なお、日本ではソースネクスト株式会社が代理店となって販売しており、8月には最新版のVEGAS Pro 18の日本市場への投入も発表され(AIによる着色機能など追加の動画編集ソフト「VEGAS Pro 18」参照)、直販価格は17,600円となっている。
そのVEGAS Pro 18には新しくエッジAIを利用した2つの機能が追加されている。それが「Style Transfer」、「Colorization」の2つだ。それらのAI機能は、VEGAS Pro 18のインストール時に「VEGAS Deep Leaning Models」という追加モジュールを導入することで利用可能になる。
Style Transfer(スタイルの変換)に関しては、AIが学習した過去の有名な画家の画風を、動画に適用してくれるものだ。ピカソやゴッホ、葛飾北斎といった有名な画家の画風を動画に適用することができる。
Style Transferの導入にあたり、そうした画家の画風をVEGAS Pro 18のAIエンジンが事前に学習(Training)されており、その学習データがVEGAS Pro 18をユーザーがインストールするときに導入される。パソコンはその学習データを利用して、ニューラルネットワークを利用した推論(Inference)を行なうことで、各フレーム、各ピクセルごとに画風のタッチを適用していく。
Colorization(カラー化)は白黒の映像に色を自動でつけていく機能だ。一言で言えば簡単なように聞こえるかもしれないが、カラー化といは、元の写真に写っていたハズの色を再現するといよりは、人間の目に不自然にはならないように色をつける機能であり、じつは結構難しい作業だ。
このため、事前にAIが、白黒とカラーの両方のデータがある写真など学習し、その学習データをAIエンジンが推論してもとの動画に色をつけていくことになる。写真であればそんなに重たくない機能だが、動画にそれを行なうとなると1秒間に24~60フレームの変換を行なうため、負荷の高い作業となる。
これらが、Intelの新世代のCPUでは比較的低負荷で実行される。
将来のバージョンではGPUによる処理も
MAGIXによれば、これら2つのAI推論を行なうにあたり、IntelのOpenVINOツールキットを利用して、第10世代Coreや第11世代Coreなど最新のIntel CPUへの最適化を行なっている。
具体的には、いわゆるIntel Deep Leaning Boost(以下DL Boost)を活用。DL Boostはサーバー向けCPUとしては第2世代Xeon Scalable Processors(Cascade Lake)から、クライアント向けのCPUとしてはノートPC向けの第10世代Coreプロセッサ以降でサポートされており、9月に発表されたばかりの第11世代Coreプロセッサでもサポートされている、ディープラーニングを利用したAIでの処理能力を高める新しい命令セットだ。
AVX512の追加命令として、これらのプロセッサでサポートされているVNNI(Vector Neural Network Instruction)を利用する。VNNIでは従来はFP32(32bitの浮動小数点)というデータの精度で演算されてきたAIの推論処理を、INT8(8bitの整数演算)に置き換えて演算する仕組みだ。こうしたAIの推論処理ではFP32の精度を、INT8に置き換えても結果にはほとんど影響を与えないことがわかっており、FP32をINT8に置き換えることで転送するデータ量が減り、かつデータの演算効率が大きく改善する。
VEGAS Pro 18には「Accurate」(正確さ優先)と「Fast」(速度優先)と2つのモードが用意されていて、前者はFP32で演算し、後者はINT8で演算し、可能であればVNNIを利用ようになっている。
現状ではGPUを利用した処理に関しては対応していないが、現在OpenVINOを利用してIntel GPUへの最適化を進めており、第11世代CoreのGPUを利用し、推論を効率よく行なう新しい命令セットDP4aに関してもサポートする予定だという。
VNNIには対応していないCore i9-10900K(Comet Lake-S)とVNNIに対応しているCore i7-1065G7(Ice Lake)、Core i7-1185G7(Tiger Lake)、さらにはCore i7-1185G7にはDG1ことIris Xe MAXの外付GPUを追加した状態も含め、同社がテストした結果が以下の表だ。
CPUでの処理 | GPUでの処理 | CPU+GPUでの処理 | |||||
---|---|---|---|---|---|---|---|
CPU | GPU | FP32 | Int8 | FP32 | Int8 | FP32 | Int8 |
Core i9-10900K | Intel UHD Graphics 630(iGPU、Gen9 GPU) | 29.8 | 58.6 | 10.44 | 10.39 | - | - |
Core i7-1065G7 | Iris Plus Graphics(iGPU、Gen11 GPU) | 6.07 | 24.76 | 13 | 24.76 | - | - |
Core i7-1185G7 | Iris Xe Graphics(iGPU、Xe-LP) | 11.45 | 45.9 | 35.26 | 127.42 | - | - |
Core i7-1185G7 | Iris Xe MAX(dGPU、Xe-LP) | - | - | 33.3 | 131.24 | - | - |
Core i7-1185G7 | Iris Xe Graphics(iGPU、Xe-LP)+Iris Xe MAX(dGPU、Xe-LP) | - | - | 68.65 | 257.25 | - | - |
Core i7-1185G7 | Iris Xe Graphics(iGPU、Xe-LP)+Iris Xe MAX(dGPU、Xe-LP) | - | - | - | - | 70.86 | 274.55 |
これを見てわかるように、VNNIを利用すると4コアのCore i7-1185G7(Tiger Lake)は、10コアCPUを持つCore i9-10900Kに近い性能を発揮できる。GPUを利用した場合はさらに圧倒的で、Tiger LakeのGPUでDP4aの命令セットを利用してINT8の精度で演算すると127.42fps、さらにはTiger LakeのCPU、内蔵GPU、さらにIris Xe MAXの外付GPUを利用した場合には274.55fpsとなっており、その性能は圧倒的になっている。
このように、今後こうしたソフトウェアが登場することで、第11世代Coreの性能はSoC単体でもかなり高まる可能性があるだけに、VEGAS Proでの対応も含めて期待したいところだ。
[制作協力:インテル]