米OpenAI(オープンAI)は米国時間2024年2月15日、テキストの指示を基に最長1分の動画を出力できる生成AI(人工知能)「Sora」を発表した。一般公開せず、デザイナーや映画の制作者などだけにアクセスを許可。当面は専門家からモデルのフィードバックを受け付ける。同社は「AGI(汎用人工知能)を達成するための重要なマイルストーンになると考えている」とした。
Soraはテキストを動画に変換するAIモデルで、ユーザーのプロンプトを理解するだけでなく、「その指示が物理世界にどのように存在するかも理解している」(オープンAI)。高度な動画生成能力に加えて、最長1分という尺の長さも特徴。米Runway(ランウェイ)の動画生成AI「Gen2」は最長16秒、米Meta(メタ)の「Emu Video」は最長4秒にとどまる。
アーキテクチャーは大規模言語モデル(LLM)「GPT-4」などと同様にTransformerを採用。GPTや「DALL-E」など同社のモデルの研究をベースに開発したという。
オープンAIは発表資料でSoraの弱点にも言及した。複雑なシーンを正確にシミュレートすることが難しく、原因と結果という因果を理解できない可能性がある。人がクッキーをかじった後、クッキーにその跡が残らないようなことが起こり得るという。空間の把握についても、左と右を混同する可能性がある。
一般公開までに、オープンAIは重要な安全対策を講じる予定だ。動画がSoraによっていつ生成されたかを判別するコンテンツ検出ツールなどを開発しているという。