米OpenAI(オープンAI)は米国時間2024年2月15日、テキストの指示を基に最長1分の動画を出力できる生成AI(人工知能)「Sora」を発表した。一般公開せず、デザイナーや映画の制作者などだけにアクセスを許可。当面は専門家からモデルのフィードバックを受け付ける。同社は「AGI(汎用人工知能)を達成するための重要なマイルストーンになると考えている」とした。

 Soraはテキストを動画に変換するAIモデルで、ユーザーのプロンプトを理解するだけでなく、「その指示が物理世界にどのように存在するかも理解している」(オープンAI)。高度な動画生成能力に加えて、最長1分という尺の長さも特徴。米Runway(ランウェイ)の動画生成AI「Gen2」は最長16秒、米Meta(メタ)の「Emu Video」は最長4秒にとどまる。

Soraが生成した動画の例。プロンプトは以下の通り。「暖かく光るネオンとアニメーションの看板で埋め尽くされた東京の通りを、スタイリッシュな女性が歩いている。黒のレザージャケットに赤いロングドレス、黒のブーツを履いて、黒いハンドバッグを持っている。サングラスをかけ、赤い口紅を塗っている。女性は自信に満ち、さりげなく歩いている。道はぬれていて反射し、色とりどりのライトを反射する鏡のような効果を生み出している。多くの歩行者も歩いている」(出所:オープンAI)
Soraが生成した動画の例。プロンプトは次の通り。「ゴールドラッシュ時代のカリフォルニアの歴史的映像」(出所:オープンAI)

 アーキテクチャーは大規模言語モデル(LLM)「GPT-4」などと同様にTransformerを採用。GPTや「DALL-E」など同社のモデルの研究をベースに開発したという。

 オープンAIは発表資料でSoraの弱点にも言及した。複雑なシーンを正確にシミュレートすることが難しく、原因と結果という因果を理解できない可能性がある。人がクッキーをかじった後、クッキーにその跡が残らないようなことが起こり得るという。空間の把握についても、左と右を混同する可能性がある。

 一般公開までに、オープンAIは重要な安全対策を講じる予定だ。動画がSoraによっていつ生成されたかを判別するコンテンツ検出ツールなどを開発しているという。