OpenAIが最長1分の動画生成AI「Sora」発表、「AGI達成へのマイルストーン」

シリコンバレー支局

2024.02.16

　米OpenAI（オープンAI）は米国時間2024年2月15日、テキストの指示を基に最長1分の動画を出力できる生成AI（人工知能）「Sora」を発表した。一般公開せず、デザイナーや映画の制作者などだけにアクセスを許可。当面は専門家からモデルのフィードバックを受け付ける。同社は「AGI（汎用人工知能）を達成するための重要なマイルストーンになると考えている」とした。

　Soraはテキストを動画に変換するAIモデルで、ユーザーのプロンプトを理解するだけでなく、「その指示が物理世界にどのように存在するかも理解している」（オープンAI）。高度な動画生成能力に加えて、最長1分という尺の長さも特徴。米Runway（ランウェイ）の動画生成AI「Gen2」は最長16秒、米Meta（メタ）の「Emu Video」は最長4秒にとどまる。

Soraが生成した動画の例。プロンプトは以下の通り。「暖かく光るネオンとアニメーションの看板で埋め尽くされた東京の通りを、スタイリッシュな女性が歩いている。黒のレザージャケットに赤いロングドレス、黒のブーツを履いて、黒いハンドバッグを持っている。サングラスをかけ、赤い口紅を塗っている。女性は自信に満ち、さりげなく歩いている。道はぬれていて反射し、色とりどりのライトを反射する鏡のような効果を生み出している。多くの歩行者も歩いている」（出所：オープンAI）

Soraが生成した動画の例。プロンプトは次の通り。「ゴールドラッシュ時代のカリフォルニアの歴史的映像」（出所：オープンAI）

　アーキテクチャーは大規模言語モデル（LLM）「GPT-4」などと同様にTransformerを採用。GPTや「DALL-E」など同社のモデルの研究をベースに開発したという。

　オープンAIは発表資料でSoraの弱点にも言及した。複雑なシーンを正確にシミュレートすることが難しく、原因と結果という因果を理解できない可能性がある。人がクッキーをかじった後、クッキーにその跡が残らないようなことが起こり得るという。空間の把握についても、左と右を混同する可能性がある。

　一般公開までに、オープンAIは重要な安全対策を講じる予定だ。動画がSoraによっていつ生成されたかを判別するコンテンツ検出ツールなどを開発しているという。