Sora

Sora

OpenAI は、新しいテキストからビデオへの AI モデル「Sora」を発表しました。Sora は、テキストの指示に基づいて、最大 1 分間のリアルで想像力豊かなシーンのビデオを作成することができます。

OpenAI は、動きのある物理的な世界を理解しシミュレートする AI システムを構築し、現実世界の相互作用を必要とする問題を解決するためのモデルをトレーニングすることを目指していると報告しています。

能力

Sora は、ユーザーのプロンプトに忠実で高い視覚品質を維持するビデオを生成することができます。Sora はまた、複数のキャラクター、異なる動きのタイプ、背景が互いにどのように関連しているかを理解し、それらを含む複雑なシーンを生成する能力を持っています。その他の能力には、キャラクターと視覚スタイルを通じて一貫性を持たせながら、単一のビデオ内で複数のショットを作成することが含まれます。以下は、Sora によって生成されたビデオのいくつかの例です。

Prompt:

スタイリッシュな女性が、暖かく光るネオンとアニメーションの街の看板で満ちた東京の通りを歩いています。彼女は黒のレザージャケット、長い赤いドレス、黒いブーツを着用し、黒いハンドバッグを持っています。サングラスと赤いリップスティックを身につけています。彼女は自信を持って、そしてカジュアルに歩きます。通りは湿っており、反射して、カラフルな光のミラー効果を生み出しています。多くの歩行者が歩いています。

Prompt:

30歳の宇宙飛行士の冒険を描いた映画の予告編で、赤いウールの編み込みモーターサイクルヘルメットを着用し、青空、塩の砂漠、シネマティックスタイル、35mmフィルムで撮影され、鮮やかな色彩。

Video source: https://openai.com/sora (opens in a new tab)

方法

Sora は、ビデオ全体を生成したり、生成されたビデオを拡張できる拡散モデルであると報告されています。また、スケーリング性能を向上させる Transformer アーキテクチャを使用しています。ビデオと画像は、GPT のトークンと同様に、パッチとして表現され、これにより、より長い期間、解像度、およびアスペクト比を可能にする統合されたビデオ生成システムが実現しています。彼らは、Sora がテキストの指示により密接に従うことを可能にする DALL·E 3 で使用される再キャプション技術を使用しています。Sora は、与えられた画像からビデオを生成することもでき、システムが画像を正確にアニメーション化することを可能にします。

制限と安全性

Sora の報告された制限には、物理のシミュレーションと原因と結果の欠如が含まれます。プロンプトで説明された空間の詳細やイベント(例:カメラの軌道)も、Sora によって時々誤解されます。OpenAI は、損害と能力を評価するために、Sora をレッドチームとクリエイターに提供していると報告しています。

Prompt:

プロンプト:35mmの映画フィルムで撮影された、走る人物のステッププリントシーン。

Video source: https://openai.com/sora (opens in a new tab)

Sora モデルによって生成されたビデオの例をこちらで更に閲覧することができます:https://openai.com/sora (opens in a new tab)