ホームページ >テクノロジー周辺機器 >AI >Openai Soraをテストしました。ここで発見したことをテストしました

Openai Soraをテストしました。ここで発見したことをテストしました

Christopher Nolan
Christopher Nolanオリジナル
2025-03-15 10:36:09331ブラウズ

Openaiは、「12 Days of Openai」シリーズの3日目にSoraを正式にリリースしました。 2024年4月の最初の発表以来、数ヶ月のサスペンスの後、ソラはAIに生成されたビデオコンテンツスペースの大きな飛躍であることが証明されています。 Openaiは、元のSORAモデルのハイエンド加速バージョンであるSORAターボモデルをリリースしました。新しく追加された機能を見て、試してみましょう!

あなたへのホリデーギフト:ソラはここにあります。 https://t.co/uhdmyutht pic.twitter.com/ljoruqsfo0

- Openai(@openai)2024年12月9日

目次

  • ソラとは何ですか?
  • Openai Soraの能力
  • Openai Soraをテストします
  • ソラにアクセスする方法は?
  • Openai Sora機能
    • 個別の製品
    • ビデオの作成と編集
    • 画像のアップロードと拡張
    • テーマ(プリセット)
    • アスペクト比の選択
    • ビデオの期間
    • テキストと画像の統合
    • ストーリーボード(高度な作成)
    • ビデオの品質と解像度
  • ソラの技術的基盤
  • Openai Soraによる倫理的考慮事項
  • キーテイクアウト
  • 結論

ソラとは何ですか?

SORAは、高度な拡散モデル変圧器アーキテクチャを利用して、書面による説明に基づいてビデオを作成するテキスト間発電機です。これらのビデオは、ノイズから始めて、複数のステップで徐々に精製することによって生成されます。この拡散プロセスにより、モデルは、幅広いテキスト入力から現実的でコヒーレントなビデオシーケンスを生成できます。

GPTDall・EClipでのOpenaiの以前の成功に基づいて、Soraは、ユーザーがテキストプロンプトに基づいてゼロからビデオを作成したり、既存のビデオを拡張したりできるようにすることで、メジャーリープを紹介します。まったく新しいビデオを生成するか、画像をアニメーション化するかに関わらず、自然言語から直接視覚的に説得力のある物語を作成するソラの能力は前例のないものです。

Openai Soraの能力

  • テキストからビデオを生成:単純なテキストプロンプトからビデオを作成します。
  • 既存のビデオを拡張する:既存のビデオを継続または変更します。
  • アニメーション画像:アニメーションで静止画像を生き生きとさせます。
  • 複雑なシーンを処理する:複数のフレームで連続性を維持します。
  • スケールと適応:さまざまな形式と長さでビデオを生成します。
  • ビデオの変換:テキストプロンプトに基づいて既存のビデオを変更します。

重要な改善

  • 現実的な物理学:より自然なオブジェクトの動き。
  • 長いビデオ:最大20秒までのビデオを作成します。
  • 強化された照明:ダイナミックな照明効果を備えたより視覚的に魅力的なビデオ。

Openai Soraをテストします

プロンプト:子猫と遊んでいる白い犬に関するビデオを作成する

プロンプト:ビーチで踊る犬のビデオを作成します。

ストーリーボードプロンプト

プロンプト:

  • 鮮やかなアニメーションは、口に入る小さな輝く粒子として描かれている向精神的分子が摂取されていることを示しています。背景は、人間の消化器系の様式化された表現であり、渦巻く色が複雑な旅の始まりを示唆しています。
  • 分子は、赤と白血球に囲まれた血流を通り抜けます。それは、血管のネットワークを迅速に移動する明るい発光粒子として描かれています。
  • 分子は、きらめく壁として描かれた血液脳の障壁に到達し、脳に浸透します。シーンはより複雑になり、分子がそれらと相互作用するとニューロンとシナプスが点灯します。

プロンプト:

  1. 暖かく照らされた子供用の部屋で、格子縞の毛布と枕から作られた居心地の良い仮設パオの中に小さな男の子と女の子が座っています。彼らは遊び心のある帽子をかぶっていて、ランプの柔らかい輝きに囲まれたフェルトブーツです。子どもたちはおもちゃのトナカイと遊ぶときに笑い、想像力で目が輝きます。
  2. 子どもたちは目をしっかりと閉じ、空中に期待しています。
  3. 彼らが目を開けると、彼らは大人に変身し、ヤクティアのモダンなホテルの風景の前に立って、本当のパオと広大で雪の冬のシーンに囲まれています。

観察:ChatGpt Plusアカウントを使用してビデオを作成している間、多くの時間がかかりましたが、改善の範囲がたくさんあることがわかります。

ソラにアクセスする方法は?

SORAは、新しいWebサイトであるSORA.comを介してアクセスできます。 ChatGPTプランを使用して、モデルにアクセスできます。

  • ChatGpt Plusアカウント:この計画では、1か月あたり50世代を提供します。これらは、1か月あたりのテキストからビデオへの作成の数またはその他の特定のタスクに関連する可能性があります。
  • Openai Proアカウント:これにより、スローキューモードで無制限の世代が提供され、1か月あたり500の高速な世代が提供されます。この層は、特定の数世代にわたってタスクをより速く処理するオプションを備えているため、より柔軟性を提供することに焦点を当てているようですが、他のタスクはよりゆっくりと処理される可能性があります。
  • 可用性:このサービスは、開始時に英国とEUが利用できません。これは、法的、規制、またはデータプライバシーに関する考慮事項(GDPRなど)によるものかもしれません。この制限は、より多くの地域に拡大するため、将来的に解除することができます。

Openai Sora機能

Openai Soraをテストしました。ここで発見したことをテストしました

個別の製品

  • SORAはスタンドアロン製品であり、ChatGPTやその他のOpenAIプラットフォームに統合されていません。
  • 最近生成されキュレートされたビデオが表示されているSORA.comからアクセスできます。

ビデオの作成と編集

  • プロンプトからビデオを生成する:ユーザーはテキストプロンプトに基づいてビデオを作成できます。
  • 画像のアップロード:ユーザーは画像をアップロードすることもできます。Soraはビデオを生成するために使用できます。
  • 再ミックス機能:ユーザーは、目的の変更を説明することにより、既存のビデオに変更を加えることができます。
    • 強度の設定:ビデオがどれだけ劇的に変更されるかを制御し、より高い設定がより多くの芸術的な変化につながります。
  • ビデオ編集:SORAは、もともとツールによって生成されたビデオを編集することもできます。

画像のアップロードと拡張

Openai Soraをテストしました。ここで発見したことをテストしました

  • 画像のアップロード:画像をアップロードしてビデオを作成することから始めます。この画像はベースとして機能し、さらに要素、テキスト、またはアニメーションで拡張できます。
  • テキストの説明:テキストで画像を説明することもできます。説明が詳細になればなるほど、ビデオ作成は指示に従います。あまり詳細な説明のために、このツールは一般的な創造性と詳細でギャップを埋めます。

テーマ(プリセット)

Openai Soraをテストしました。ここで発見したことをテストしました

  • SORAは、ビデオの全体的なテーマを定義するために使用できるさまざまなプリセットを提供します。いくつかの例は次のとおりです。
    • バルーンの世界:このプリセットは、気まぐれなまたは夢のような雰囲気を作り出すかもしれません。
    • ストップモーション:ストップモーションアニメーションスタイルをエミュレートするように設計されたプリセットで、ビデオがフレームごとの手作りの外観を提供します。

アスペクト比の選択

  • ビデオのアスペクト比を選択できます。一般的なオプションには次のものがあります。
    • 16:9 (ワイドスクリーン):ほとんどのビデオ、特にYouTube、ワイドスクリーン映画などに最適です。
    • 1:1 (正方形):Instagramなどのソーシャルメディアの投稿に適しています。
    • 9:16 (垂直):TiktokやInstagramストーリーなどのプラットフォームに最適です。

ビデオの期間

Openai Soraをテストしました。ここで発見したことをテストしました

  • ビデオの期間を最大20秒に設定することで、コンテンツの量が含まれていることを柔軟に提供できます。

テキストと画像の統合

  • このプラットフォームにより、テキストと画像の両方の組み合わせが創造的な表現を組み合わせることができます。
    • 画像をアップロードして作成:画像をアップロードしてビデオの基礎として機能し、追加のコンテンツで拡張またはアニメーション化します。
    • テキストベースの作成:テキストを使用してシーンや画像を説明できます。テキストがより具体的になればなるほど、ビデオは方向に続きます。たとえば、詳細な説明では、ビデオをガイドして、言及した正確な要素を再現します。

ストーリーボード(高度な作成)

Openai Soraをテストしました。ここで発見したことをテストしました

  • より複雑なビデオプロジェクトの場合、ストーリーボードモードを使用すると、タイムラインに沿ってビデオ作成を向けることができます。これは次のとおりです。
    • シーケンスの制御:要素の順序(テキスト、画像、ビデオ)を定義できます。
    • 高度な編集:より正確な調整とシーンのシーケンスを可能にします。
    • マルチメディア統合:画像、テキスト、ビデオクリップを組み合わせて、物語または複雑な視覚ストーリーを作成できます。

ビデオの品質と解像度

Openai Soraをテストしました。ここで発見したことをテストしました

  • 解決オプション:最大1080pの解像度までのビデオを生成します。
    • 1080pの映像は、480pと比較して生成に8倍時間がかかります。これは最速のオプションです。
    • 720pは480pより4倍長くなります。
    • 480pが最速です。
  • 平均生成時間:1080pビデオの数分(ユーザーの需要とトラフィックの対象)。

一言で言えば、

SORAは、強力なカスタマイズオプションを備えた柔軟でユーザーフレンドリーなビデオ作成プラットフォームです。あなたはできる:

  • 画像をアップロードするか、テキストのシーンを説明します。
  • Balloon WorldやStop Motionなどのさまざまなテーマプリセットから選択してください。
  • コントロールアスペクト比とビデオの期間。
  • 高度なビデオ編集とシーケンスにはストーリーボードモードを使用します。

この機能の組み合わせにより、ユーザーは最小限の技術的知識があっても、魅力的でプロフェッショナルなビデオを簡単に作成できます。

これらの機能は、SORAが、特に非写真の様式化されたプロジェクト向けに、クリエイティブなビデオコンテンツを生成するための強力だがまだ不定のツールとして概説しています。

ソラの技術的基盤

SORAは、拡散モデルに基本的に構築されています。これは、ランダムノイズから始まり、繰り返し洗練されたビデオに洗練されています。このプロセスは、従来の画像から画像間拡散モデルがどのように機能するかを反映していますが、ビデオシーケンスの複雑さが追加されています。

Soraの革新の鍵は、画像とビデオの両方にパッチベースの表現を使用することです。 GPTのトークンと同様に、SORAのビデオと画像は、データの小さな「パッチ」に分類されます。これにより、モデルは大規模で複雑な視覚データをより効率的に処理できるようになり、さまざまな期間や解像度でビデオを生成できます。

さらに、SORAはDall・E 3で使用されている復帰手法に基づいて構築されており、トレーニングデータの非常に記述的なキャプションを生成できます。この機能により、モデルはテキストプロンプトに密接に従うことができ、ユーザーの指示に忠実で入力説明とより整合するビデオが得られます。

また読む:OpenaiのSORA拡散変圧器(DIT)とは何ですか?

Openai Soraによる倫理的考慮事項

ソラがあなたがすることを期待していることは次のとおりです。

  1. 同意:明示的な許可を得て人々をフィーチャーしたメディアのみをアップロードし、18歳未満の人々が適切な同意を得ることを確認します。
  2. 暴力と明示的なテーマ:暴力、明示的なテーマ、または大人の素材を描いたコンテンツをアップロードしないでください。
  3. メディアの権利:共有するメディアをアップロードするために必要な所有権または権利があることを確認してください。
  4. 結果:これらのルールに違反してプラットフォームを誤用すると、払い戻しなしでアカウントの停止または禁止が発生する可能性があります。

キーテイクアウト

OpenaiのSORAは、テーマ、ストーリーボードモード、最大1080pの解像度などの機能を備えたテキスト間発電機です。ただし、顕著な制限があります。ビデオは20秒で締めくくられていますが、これはより長い物語に合わないかもしれません。高解像度のレンダリング(例:1080p)は時間集約的であり、低解像度と比較して大幅に発生を遅くします。現在、SORAは規制上の問題により英国/EUで利用できず、アクセスが制限されています。さらに、倫理的ガイドラインは使用法を制限し、違反はアカウントの停止をリスクリスクします。ソラは強力ですが、まだ進化しており、技術的およびアクセシビリティの改善の余地があります。また、生成速度は非常に遅いため、高解像度のビデオによるものです。しかし、Openaiがモデルとその基礎となるインフラストラクチャを最適化し続けているため、時間の経過とともに改善することを望んでいます。将来の更新は、高解像度のビデオの品質を損なうことなく、より速い発電速度をもたらす可能性があり、プロセスをより効率的でユーザーフレンドリーにすることができます。

結論

SORAの最終リリースは、人工知能の進化における顕著なマイルストーンであり、自然言語加工(NLP)コンピュータービジョン、および深い学習の最新の進歩を組み合わせて、テキストプロンプトから高品質の短い形式のビデオを直接生成します。このテクノロジーの潜在的な意味は、クリエイティブ産業から教育、マーケティングなどに至るまで、広範囲に及びます。

モデルに対するOpenaiのビジョンは広範囲に及んでおり、現実の世界をシミュレートできるシステムを作成し、人工的な一般情報(AGI)の実現に一歩近づくという究極の目標があります。 Soraが進化するにつれて、その機能は拡大する可能性が高く、リアルタイムビデオ生成、インタラクティブなストーリーテリング、仮想および拡張現実との統合など、より高度な機能を組み込んでいます。

やってみましたか?以下のコメントセクションでご意見をお聞かせください!

以上がOpenai Soraをテストしました。ここで発見したことをテストしましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。