ホームページ  >  記事  >  テクノロジー周辺機器  >  Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

王林
王林オリジナル
2024-06-21 01:13:40515ブラウズ
たった1年で、AIが生成した「麺の食べ方」はこんなに自然でスムーズになった?これは世界中のネチズンに衝撃を与えました。

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

右側の生成されたビデオは、Kuaishou が立ち上げたばかりの Wensheng ビデオ モデルからのものです。 .クリング。

これはプレリリースや純粋なデモコレクションではなく、テスト用に直接公開されており、誰でも応募できる製品レベルのアプリケーションです。さらに、Keling は、ブレインストーミングから公開可能な作品への「ワンクリック変換」に重点を置き、最大 2 分、30fps の 1080P ビデオの生成をサポートしています。 (官网地址:https://kling.kuaishou.com/)

最早一批上的用户已经「真香」:

图源:https://x.com/ op7418/status/1799047146089619589

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

m8Or?refer_flag=1001030103_

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

コミュニケーション グループには最大 500 人が参加でき、画面はすぐにいっぱいになります。
まだ使ったことのない外国人の友達は不安になってソーシャルメディアに「お願いします」と投稿するだけです:

柯玲は今や「a」と言っても過言ではありません。このニュースはシリコンバレーのベンチャーキャピタル界に伝わり、激しい議論を引き起こした。

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

Stability AIの元最高経営責任者(CEO)エマド・モスタク氏は、「中国のAI技術には独自の利点がある」と述べた。
Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難
Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難プロンプト:Une personne tabant Son meilleur croc dans Son hamburger
Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難
ビデオアドレス: https://x.com/AngryTomtweets/status/1799787209651859910

AIに注目している人は、Ke Lをたくさん見たはずです最近生成された作品。 。当サイトも早速応募チャンネルにクリックし、トライアル資格を取得しました。

次は、実際に試して、Keling が人気の理由を分析してみましょう。

中国初の文生ビデオ製品レベルのアプリケーション

もしかしたら、かつて非常に人気だったこの「風船男」ビデオをまだ覚えているかもしれません。 3 人のクリエイターが約 2 週間かけて Sora を使用し、この素晴らしい 1 分 21 秒の短いビデオを作成しました。しかし、ポストプロダクションを担当したパトリック・セダーバーグ氏は、風船が生成されるたびに色が変わったり、映像にいくつかの欠陥が現れたりするなど、その過程で多くの問題があったことを告白した。

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

ソラは結果を生成します。ビデオ全体のアドレス: https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh
以前のビデオ生成モデルでは、特に次の場合に 1 分を超えるコンテンツを「一度に」生成するのは確かに困難です。画面は必須です すべての要素は一貫したままです。
チーター・モバイルの会長兼最高経営責任者(CEO)でオリオン・スターの会長でもあるフー・シェン氏は、コリンと一緒に作った「バルーンマン」のビデオを公開し、継続性を生み出すのに「数十分」しかかからなかったと述べた。優れたリアリズムと明瞭さを備えた短編映画。
Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難 内部テストのプロセス中に、プロのクリエイターのコミュニティによって自発的に作成されたチュートリアルやデモ ドキュメント (生成可能な数百もの作品を含む) も発見し、テストの寸法に関するガイダンスも提供しました。
興味のある読者はクリックしてください: https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd
次の 2 分間の公共福祉短編映画「A Place Far Far Away」も、完全に Keling によって生成されました。はい、見えますか?
作者@AIGC 13 氏の作品「ズートピア レーシング コンペティション」では、この 20 秒の間に、高速で動くレーシング カー (大きな動き) や動物が駆動する乗り物 (想像力が試される概念的な組み合わせ) などが生成されます。 、しかし、結果から判断すると、ケリングはこれらの問題を非常にうまく解決しました。 @八级Mechanics によって作成されたこの 56 秒の短いビデオは、制作に合計 3 時間かかり、23 個のショットが含まれていました。その後、Ke Ling が生成した結果に吹き替えを追加すると、すぐにユーモラスな雰囲気が生まれます。これらを読むと、Kelingに代表される映像生成技術の影響力は単純なものではないことが分かるはずです。創造。このテクノロジーの導入はさまざまな研究分野や業界で加速しており、コンテンツの自動生成から複雑な意思決定プロセスに至るまで、さまざまなタスクに変革の可能性をもたらしています。 Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難どの業界が最初に変わるでしょうか?
従来のゲーム開発は、多くの場合、事前にレンダリングされた環境やスクリプト化されたイベントによって制限されます。ビデオ生成モデルがゲームに統合されると、ゲームの開発、プレイ、体験の方法が革新され、ストーリーテリング、インタラクティブ性、没入型体験の新たな可能性がもたらされます。ゲーム開発者にとって、最も直感的なプレイ方法の 1 つは、ユーザーの物語に基づいてカスタマイズされた視覚効果やキャラクターのアクションを生成することです。 M 以下のデモでは、ユーザーがココアの助けを借りて比類のない身体体験を作成できることがわかります。 /1800056286215553444

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

破壊されるもう一つの業界は、映画とテレビの制作です。従来の映画製作は、多くの場合、何年もの労力、大規模な設備、財政投資を必要とする、困難で費用のかかるプロセスです。ビデオ生成テクノロジーの出現は、映画制作における新たな「民主化時代」の到来を告げており、単純なテキスト入力から個人的な映画やテレビ作品を自律的に生成するという夢が現実になりつつあります。

さて、Keling を使用して生成するのは 5 秒のシングルショット クリップです。テクノロジーが進化し続けるにつれて、ユーザーが一度に生成できるビデオの長さも増加します。たとえば、将来的には、ストーリー シーンの一貫性と楽しさを維持するために、一度に長いビデオ コンテンツを生成できるようになるかもしれません。連続ロングショットなど、カメラ技術はさらに高度になる可能性があります。

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

以下のシルエット作品は、AI の芸術の理解力と美的レベルが人間にまったく劣らないという 1 つの点を再度証明しています。

プロンプト: 「ダンサーのシルエットが、ヒップホップからバレエまで、さまざまなダンス スタイルを 1 つの連続ショットでシームレスに移行します。」

。画像出典: https://x.com/dustinhollywood/status/1799970059957555210
SF映画のスタイルを完全に把握しています:
Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難
出典: Kelingクリエイター@狗儿李
AI は、豪華な大ヒット作の制作にも影響を与える可能性があります:
Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難
これは Ke Ling によって生成されたもので、「Honey」のコマーシャルでは、クローズアップをシミュレートする AI のパフォーマンスを見てみましょう。蜂蜜を注ぐ技術はプロのカメラチームのそれに劣りません:

KeLing の背後にあるテクノロジーは何ですか?
Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難
OpenAI の簡単な技術レポートからは、Sora の研究開発の詳細を十分に得ることができませんでしたが、Keling Large Model の公式 Web サイトでは、主にデータ準備、モデル アーキテクチャ、トレーニング プラン、およびデータのいくつかの側面を含む、より多くの参考情報が公開されました。最適化戦略。
データ準備
Kuaishou のビデオ技術分野での長年の蓄積に基づいて、Keling Model チームは、基本的なビデオ品質、美しさ、自然さなどを含む完全なラベリング システムを構築しました。ビデオ データの品質を特徴付け、各次元に対してさまざまなカスタマイズされたラベル機能を設計して、トレーニング データを調整したり、トレーニング データの分布を調整したりできます。

Wenshengビデオモデルのトレーニングプロセスにおけるビデオとテキストのペアの説明のニーズを満たすために、Keling Big Modelチームは、正確で詳細で構造化されたビデオを生成できるビデオ説明モデルを自己開発しました。説明、ビデオ生成の大幅な改善 テキスト コマンドに対するモデルの応答性。

モデルアーキテクチャ

高品質のアノテーションデータが準備された後、Keling ラージモデルは物理世界の特性と概念の組み合わせをシミュレートする機能をどのように獲得するのでしょうか?

全体的なアーキテクチャ設計において、Keling は現在普及している拡散トランス (DiT) を採用しています。従来の拡散モデルは主に、ノイズ除去ネットワーク バックボーンとしてダウンサンプリング ブロックとアップサンプリング ブロックを含む畳み込み U-Net を利用します。しかし、いくつかの研究では、U-Net アーキテクチャは拡散モデルの優れたパフォーマンスにとって重要ではないことが示されています。より柔軟な Transformer アーキテクチャを採用することで、拡散モデルはより多くのトレーニング データとより大きなモデル パラメーターを使用できるようになります。 DiT は、この研究思想に基づいた代表的な作品の 1 つです。

過去数か月で、業界は、ビデオ生成モデルの成功は最終的にはスケーリング則の結果であるという合意に達しました。このコンセンサスは、DiT 論文の結果に基づいています。Transformer を使用すると、モデルのサイズを着実に拡張できます。トレーニングの計算量が増加するにつれて (モデルのトレーニング時間が延長されるか、モデルが増加するか、あるいはその両方)、パフォーマンスが低下します。もそれに応じて増加します。
これは、ビデオ生成モデルの場合、より多くのコンピューティング能力とより多くのデータを使用してスケールアップする限り、生成品質は向上し続けることを意味します。
Keling がユーザーのテキスト プロンプトを、現実世界には現れない架空のシーンを含む特定の画像に変換できる理由は、テキストビデオのセマンティクスと拡散トランスフォーマーの強力な機能の深い理解に基づいています。建築 。 Caling は、自社開発のアーキテクチャとスケーリング則にインスピレーションを得た強力なモデリング機能によって駆動され、現実世界の物理的特性を適切にシミュレートし、物理法則に準拠したビデオを生成できます。

同時に、チームが独自に開発した 3D VAE ネットワークに基づいて、この大規模モデルは、広大で雄大なシーンであっても、繊細なクローズアップであっても、1080p 解像度の映画レベルのビデオを生成できます。それは鮮やかなプレゼントになる可能性があります。自然なシーンでは光が滑らかに変化します。テスター: @shanshan

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

もちろん、ビデオ生成モデルの場合、考慮する必要があるもう 1 つの要素は次のとおりです。ビデオは時間次元を持つ一種の視覚コンテンツであり、一貫性のないコンテンツはユーザーの注意をそらすことになります。大きく妥協しました。

画像内の動きの表現がより合理的であることを保証するために、Keling 大型モデルは 3D 時空間共同注意メカニズムを採用して、複雑な時空間動きをより適切にモデル化し、より大きなサイズのビデオ コンテンツを生成できます。動作パターンを満たしながら動作します。

トレーニングと最適化戦略

Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難

自分でテストしたことがある場合は、Keling が推論プロセス中に同じコンテンツの複数のビデオ アスペクト比の出力をサポートしていることがわかります。これは、Keling が、より豊かなシーンでビデオ素材を使用するニーズを満たすために、可変解像度トレーニング戦略を採用しているためです。

同時に、効率的なトレーニング インフラストラクチャ、極端な推論の最適化、およびスケーラブルなインフラストラクチャのおかげで、Keling モデルは 30fps のフレーム レートで最大 2 分のビデオを生成できます。

ビデオ生成はもはや「OpenAIに追いつく」ゲームではありません

2024年はビデオ生成テクノロジーの爆発的な年と言われていますが、Keling以前にはそれを見たことがありませんでした ソラレベル商品は入手可能ですが、Soraがいつオープンするかは不明です。

ある意味、Keling は最初の本当の「中国版 Sora」であり、このテクノロジーを使いやすく、使いやすく、実用的な段階に引き上げます。

Fu Sheng 氏は次のように述べています。「これは、現在世界で使用できる最高の Wensheng ビデオ製品かもしれません。」 Keling を実際に試したことのある人なら、これが決して誇張ではないことが理解できるでしょう。

Fu Sheng のビデオは、別の視点も提供しました。「逆に、Sora が技術的な進歩ではなく、製品の進歩であることも示しています。」

数か月前のことを今でも覚えています、Soraは、60 秒の連続ビデオ、高解像度の画像テクスチャ、連続的なカメラの動き、移動方法などの利点により、ビデオ生成トラック全体の技術レベルを引き上げ、Vincentian ビデオ トラックでの競争の波を引き起こしました。

私たちは当初、ビデオ生成の分野は、昨年のテキストモデルのように、国内外の技術キャッチアップに進化すると考えていました。しかし、Kelingのリリースは、国内のWenshengビデオ大型モデル技術の探求が新たな高みに達し、製品実装において実質的なリーダーシップを獲得したことを意味します。 「OpenAI に追いつく」ゲームを再びプレイする必要はなくなるかもしれません。

中国が人工知能の分野で米国を追い越していると判断する人もいる。

ケリングの誕生は新しい時代の始まりを意味するかもしれません。生成 AI の時代には、ビデオの生成と編集が、今日の携帯電話で写真を使用するのと同じくらい簡単になる可能性があり、想像力と現実の間の壁は完全に壊れます。
Kuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難その人気のため、現在コリンをテストするために列に並んでいる人の数は50,000人を超えています。 AI が生成したビデオのゲームプレイに興味がある場合は、まず「Keling AI ビデオ アカウント」をフォローして、より高品質のケースを入手するとよいでしょう。

以上がKuaishouの「Keling」が爆発:海外AI界に大衝撃、中国版Soraは入手困難の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。