これは普通の自動運転ビデオだと思いますか?
画像
このコンテンツは、元の意味を変更せずに中国語に書き直す必要があります。
どのフレームも「本物」ではありません。
写真
さまざまな道路状況、さまざまな気象条件、20 以上の状況をシミュレートでき、その効果は本物とまったく同じです。
写真
世界モデルが再び多大な貢献を果たしました。これを見たルカンさんは熱心にリツイートした。
写真
最新バージョンの GAIA-1 によってもたらされる上記の効果によると、
このプロジェクトの規模4,700 時間の運転ビデオ トレーニングを通じて 90 億のパラメータに達し、ビデオ、テキスト、または操作を入力して自動運転ビデオを生成する効果を達成することに成功しました。
最も直接的な利点は、将来のイベントをより適切に予測できることです。 20 さまざまなシナリオをシミュレーションできるため、自動運転の安全性がさらに向上し、コストが削減されます。
写真
私たちのクリエイティブチームは、これは自動運転ゲームのルールを完全に変えるだろうと率直に述べました。
それでは、GAIA-1 はどのように実装されるのでしょうか?
スケールは大きいほど優れています
GAIA-1 は複数のモードを備えた生成世界モデルです
ビデオ、テキスト、アクションを入力として利用することで、システムはリアルな運転を実現します自動運転車の動作とシーンの特性を細かく制御しながら、シーン ビデオを生成できます。
テキスト プロンプトのみを使用してビデオを生成できます。
画像
モデルの原理は、大規模な言語モデルの原理と似ています。つまり、次のマークを予測します。
モデルは、ベクトル量子化表現を使用してビデオ フレームを離散化し、変換される将来のシーンを予測できます。予測シーケンスへの次のトークン。次に、拡散モデルを使用して、ワールド モデルの言語空間から高品質のビデオが生成されます。
具体的な手順は次のとおりです。
図
#最初のステップは理解しやすいもので、再コード化して配置し、さまざまな入力を組み合わせます。
特殊なエンコーダを使用してさまざまな入力をエンコードし、さまざまな入力を共有表現に投影します。テキストおよびビデオ エンコーダは入力を分離して埋め込みますが、操作表現は共有表現に個別に投影され、これらのエンコードされた表現は時間的に一貫しています。
配置が完了すると、ワールド モデルの重要な部分が表示されます。
自己回帰トランスフォーマーとして、シーケンス内の次のイメージ トークンのセットを予測できます。また、前の画像トークンだけでなく、テキストや操作のコンテキスト情報も考慮されます。
モデルによって生成されたコンテンツは、画像の一貫性を維持するだけでなく、予測されたテキストやアクションとの一貫性も維持します
チームは、GAIA の世界モデルのサイズを紹介しました。 1 は 65 億のパラメータで、A100 の 64 ブロックで 15 日間トレーニングされました。
最後に、ビデオ デコーダとビデオ拡散モデルを使用して、これらのトークンをビデオに変換します。
このステップの重要性は、ビデオのセマンティック品質、画像精度、時間的一貫性を確保することです
GAIA-1 のビデオ デコーダは 26 億パラメータの規模を持ち、32 台の A100 を使用してトレーニングされています15日以内に届きます。
GAIA-1 は原理的に大規模な言語モデルに似ているだけでなく、モデルの規模が拡大するにつれて生成品質が向上するという特徴も示していることは注目に値します。
#Pictureチームは、6 月に以前にリリースされた初期バージョンと最新の効果を比較しました。
後者は前者の 480 倍の大きさです。
動画のディテールや解像度などが大幅に向上していることが直感的にわかります。
写真実用化の観点から見ると、GAIA-1 の登場も一定の影響を与えており、主要クリエイティブチームはこれが変わるだろうと述べています。自動運転のルール
写真
その理由は 3 つの側面から説明できます:
- 安全性
- 包括的なトレーニング データ
- ロングテールシナリオ
まず、安全性の観点から言えば、世界モデルは未来をシミュレーションし、AIに自律走行車の安全性にとって重要な独自の決定を実現する能力を与えることができます。運転中。
第二に、トレーニング データも自動運転にとって非常に重要です。生成されるデータは、より安全で、コスト効率が高く、無限に拡張可能です。
生成 AI は、自動運転が直面するロングテール シナリオの課題の 1 つを解決できます。霧の天候で道路を横断する歩行者に遭遇するなど、よりエッジなシナリオに対応できます。これにより、自動運転の機能がさらに向上します。
Wayve とは何ですか?
GAIA-1 は英国の自動運転スタートアップ Wayve によって開発されました
Wayve は 2017 年に設立されました。投資家には Microsoft などが含まれ、その評価額はユニコーンに達しています。
創設者は Alex Kendall と Amar Shah で、二人ともケンブリッジ大学で機械学習の博士号を取得しています
写真
技術的な路線では、テスラと同様に、ウェイブはカメラを使用した純粋に視覚的なソリューションの使用を提唱し、高精度の地図を非常に早い段階で放棄し、「瞬時認識」路線をしっかりと守ります。
少し前に、チームがリリースした別の大型モデル LINGO-1 も広く注目を集めました。
この自動運転モデルは、走行中にリアルタイムでコメントを生成できるため、モデルの精度がさらに向上します。説明可能性
今年3月、ビル・ゲイツ氏もウェイブの自動運転車に試乗した。
写真
紙のアドレス: https://www.php.cn/link/1f8c4b6a0115a4617e285b4494126fbf
参考リンク:
[1]https://www.php.cn/link/85dca1d270f7f9aef00c9d372f114482[2]https://www.php.cn/link/a4c22565dfafb162a17a7c357ca9e0be
以上がルカン氏、自動運転ユニコーン詐欺に深く失望の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

WebStorm Mac版
便利なJavaScript開発ツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境
