ホームページ >テクノロジー周辺機器 >AI >ランウェイとルマが再び戦う!ヤン・ルカンは「どんなに優れていても、あなたは「世界モデル」ではない」と批判する。
マシンパワーレポート
編集者: Yang Wen
大型モデルやAIGCに代表される人工知能の波は、私たちの生活や働き方を静かに変えてきましたが、ほとんどの人はまだ使い方がわかりません。
そこで、直感的で興味深く、簡潔な人工知能のユースケースを通じて AI の使用法を詳しく紹介し、誰もが考えるきっかけとなる「AI in Use」コラムを立ち上げました。
また、読者が個人的に実践した革新的な使用例を提出することも歓迎します。
AIビデオ業界が再び「戦っている」!
6 月 29 日、有名な生成 AI プラットフォーム Runway は、最新モデル Gen-3 Alpha が一部のユーザー向けにテストを開始したと発表しました。
同日、Luma は新しいキーフレーム機能をリリースし、すべてのユーザーに無料で公開されました。
「あなたは良い計画を持っている、私ははしごを持っている」と言うことができ、二人は果てしなく戦い続けます。
これにネチズンは「6月、なんて素晴らしい月だ!」と大喜びしました
「クレイジーな5月、クレイジーな6月、クレイジーすぎて止まらない!」
-1-
滑走路がハリウッドを滅ぼす
2 週間前、AI ビデオの「王様」である滑走路が新しいビデオ生成モデル Gen-3 Alpha を発表したとき、プレビュー -
が最初に行われます有料ユーザーは「数日以内」に利用できるようになり、将来のある時点で無料版もすべてのユーザーが利用できるようになる予定だ。
6月29日、Runwayはその約束を果たし、最新のGen-3 Alphaが一部のユーザー向けにテストを開始したと発表しました。
Gen-3 Alpha は、前世代と比較して、光と影、品質、構成、テキストの意味の復元、物理シミュレーション、およびアクションの一貫性の点で大幅な向上を達成しているため、非常に人気があります。アーティスト、アーティストによる(アーティストのために生まれ、アーティストによって生まれた)」。
第3世代アルファの効果は何ですか?フラワーアレンジメントに携わるネチズンは常に最大の発言権を持っています。次に、お楽しみください -
ロンドンのテムズ川から立ち上る恐ろしい怪物の映画映像:
悲しいテディベアが、悲しくなるまで泣き続け、ティッシュで鼻をかんでいます:
豪華なドレスを着たイギリス人の女の子が、スピードを出して走る車とゆっくりとした馬を横にしながら、城のある通りを歩いています。
豪華な宝石や真珠がちりばめられた巨大なトカゲが、鬱蒼とした植物の中を歩いています。トカゲは光を受けて輝き、まるでドキュメンタリーのような臨場感のある映像となっている。
ルビーとサファイアで覆われたダイヤモンドがちりばめられたヒキガエルもいます:
夜の街路では、雨がネオンを反射します。
カメラは水たまりに反射した光から始まり、ゆっくりと上昇して輝くネオンの看板を映し、その後ズームバックを続けて雨に濡れた通り全体を映します。
カメラの動き:最初に水たまりに映ったものを狙い、それから持ち上げて一気に引き戻し、雨の夜の都会の風景を映し出します。
動画リンク:https://www.php.cn/link/dbf138511ed1d9278bde43cc0000e49a
薄暗く神秘的な光の下、シャーレの中で育つ黄カビは、涼しげな色と躍動感あふれる表情を見せます。
秋の森では、地面はオレンジ、黄色、赤のさまざまな落ち葉で覆われています。
優しい風が吹き抜け、カメラは地面近くまで進み、つむじ風が発生し、落ち葉を巻き上げて渦巻きを作りました。カメラは落ち葉とともに上昇し、回転する落ち葉の柱の周りを回転します。
ビデオリンク: https://www.php.cn/link/dbf138511ed1d9278bde43cc0000e49a
落書きで覆われたトンネルの低い視点から開始し、カメラは道路に沿って着実に進み、短く暗い道を通過します。セクショントンネルでは、カメラは反対側に出た後すぐに上昇し、雪を頂いた山々に囲まれた色とりどりの野生の花の広大な畑を映し出します。
ビデオリンク: https://www.php.cn/link/dbf138511ed1d9278bde43cc0000e49a
ピアノを弾く様子のクローズアップショット、鍵盤上で指が飛び跳ね、手の歪みがなく、スムーズな動き、欠点は薬指に指輪がないことですが、影が「何もないところから出てくる」ことです。
ネチズンはまた、ランウェイの共同創設者であるクリストバル・バレンズエラが自作のハチカメラ用のビデオを作成したことを暴露しました。
ミツバチの背中にカメラを置くと、撮影されたシーンは次のようになります:
ビデオリンク: https://www.php.cn/link/dbf138511ed1d9278bde43cc0000e49a
ミツバチの顔 紫色です:
ビデオリンク: https://www.php.cn/link/dbf138511ed1d9278bde43cc0000e49a
それで、このポケットカメラはどのようなものですか?
このままAIが進化すると、ハリウッド俳優はまたストライキを起こすでしょう。
-2-
Luma の新しいキーフレーム機能、スムーズな画像遷移
6 月 29 日、Luma AI はキーフレーム機能をリリースし、手をかざすだけですべてのユーザーに無料で直接公開されました。
ユーザーは開始画像と終了画像をアップロードし、テキストの説明を追加するだけで、Luma はハリウッドレベルの特殊効果ビデオを生成できます。
たとえば、X ネチズン @hungrydonke は 2 つのキーフレーム写真をアップロードしました:
|
|
次に、プロンプト単語を入力します: 黒い紙吹雪の束が突然落ちる (突然、黒い紙吹雪の束が突然落ちる) 効果は次のとおりです -
ネチズン @JonathanSolder3 は最初に途中で 2 枚の写真を生成しました:
|
|
次に、Luma キーフレーム関数を使用して、超サイヤ人変身のアニメーションを生成します。著者によると、ルーマにはパワーアッププロンプトは必要なく、「スーパーサイヤ人」と入力するだけです。
ビデオリンク: https://www.php.cn/link/dbf138511ed1d9278bde43cc0000e49a
一部のネチズンはこの機能を使用して各ショットのトランジションを完了し、それによって古典的なおとぎ話を混合および一致させて、と呼ばれるセグメントを生成します「狼、戦士、ワードローブ」アニメーション。
ビデオリンク: https://www.php.cn/link/dbf138511ed1d9278bde43cc0000e49a
悪魔が天使に変わる:
オレンジがひよこに変わる:
スターバックスのロゴの変換:
ビデオリンク:https://www.php.cn/link/dbf138511ed1d9278bde43cc0000e49a
AIビデオ業界は非常に不安です。ソラがどうして今まで平静を保って姿を現さなかったのか、神は知っています。-3-
Yann LeCun "Bombardment": 彼らは物理学をまったく理解していません
今年の初めにSoraがリリースされたとき、「ワールドモデル」は突然ホットな概念になりました。
その後、Google の Genie も「世界モデル」の旗印を使用しましたが、今回 Runway が Gen-3 Alpha を立ち上げた際、関係者は「普遍的な世界モデルの構築に向けて重要な一歩を踏み出した」と述べました。
ワールドモデルとは一体何ですか?
実際、これに関する標準的な定義はありませんが、AI 科学者は、人間と動物が世界の動作ルールを微妙に把握し、次に何が起こるかを「予測」して行動を起こすことができると信じています。世界モデルの研究はこの能力をAIに学習させることです。
Sora、Luma、Runway などのアプリケーションによって生成されるビデオは非常にリアルであり、時系列に沿って新しいビデオ コンテンツを生成することもできると多くの人が信じています。彼らは物事の展開を「予測」する能力を学んだようです。これは世界モデル研究が追求する目標と一致します。
しかし、チューリング賞受賞者のヤン・ルカン氏は「冷水を浴びせている」。
彼は、「プロンプトに基づいて最も現実的に見えるビデオを生成することは、システムが物理世界を理解することを意味するものではなく、世界モデルから因果関係の予測を生成することは全く異なります。」と信じています。
7 月 1 日、Yann LeCun は 6 件の投稿を投稿しました。砲撃ビデオの生成モデル。
彼はAIが生成した体操の動画をリツイートした。ビデオの登場人物たちは頭がどこからともなく消えたり、突然 4 本の足が現れたり、あらゆる種類の奇妙な写真がいたるところにありました。
ビデオリンク: https://www.php.cn/link/dbf138511ed1d9278bde43cc0000e49a
Yann LeCun 氏は、ビデオ生成モデルは人体の構造はおろか、基本的な物理原理も理解していないと述べました。
「Sora や他のビデオ生成モデルも同様の問題を抱えています。ビデオ生成技術が時間の経過とともにより高度になることは間違いありませんが、物理学を真に理解した優れた世界モデルは生成的ではありません」すべての鳥類と哺乳類は理解しています物理学はどのビデオ生成モデルよりも優れていますが、詳細なビデオを生成できるモデルはありません」と Yann LeCun 氏は述べています。
一部のネチズンは、人間は物理学の理解に基づいて頭の中で詳細な「ビデオ」を常に生成しているのではないかと疑問に思いました。
ヤン・ルカン氏はオンラインでの質問に答え、「私たちはピクセル画像を生成するのではなく、起こり得る抽象的なシナリオを想定しています。これが私が表現したい点です。」
ヤン・ルカンはこう反論する: いいえ、そうではありません。何が起こるかについての抽象的なシナリオを生成するだけであり、詳細なビデオを生成することとは大きく異なります。
将来的には、新しいコラムを通じてさらに多くの AIGC ケースのデモンストレーションをお届けする予定です。コミュニケーションのために、どなたでもグループに参加していただけます。
以上がランウェイとルマが再び戦う!ヤン・ルカンは「どんなに優れていても、あなたは「世界モデル」ではない」と批判する。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。