2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?-AI-php.cn

ホームページ

テクノロジー周辺機器

2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 08, 2024 pm 02:49 PM

端から端までオートパイロット

Tesla V12 が北米で広く普及しており、その優れたパフォーマンスによりユーザーの認知度がますます高まっていることを誰もが理解できるわけではありませんが、エンドツーエンドの自動運転は誰もが最も懸念している技術的方向でもあります。自動運転産業。最近、さまざまな業界の一流のエンジニア、プロダクトマネージャー、投資家、メディア関係者と交流する機会があり、誰もがエンドツーエンドの自動運転に非常に興味を持っていることがわかりました。エンドツーエンドの自動運転に対する基本的な理解については、この種の誤解が依然として存在します。国内一流ブランドの写真ありとなしの都市機能、および FSD V11 と V12 の 2 つのバージョンを経験する幸運に恵まれた者として、ここでは私の考えに基づいて現在の開発についていくつかお話したいと思います。この段階では、全員がエンドツーエンドの自動運転に関するよくある誤解について話し合い、これらの問題について私なりの解釈を述べました。

疑問 1: エンドツーエンドの認識、エンドツーエンドの意思決定と計画は、エンドツーエンドの自動運転としてカウントされますか?

センサー入力から計画、その後の制御信号出力までのすべてのステップはエンドツーエンドで導出可能であるため、モデルのトレーニング中に、勾配降下トレーニングや勾配逆伝播を通じてシステム全体を大規模なモデルとしてトレーニングできます。入力から出力までモデルのあらゆる側面で更新および最適化されるため、システム全体の運転挙動は、ユーザーが直接知覚する運転決定軌道に合わせて最適化できます。最近、エンドツーエンドの自動運転を推進する際に、エンドツーエンドのセンシングやエンドツーエンドの意思決定を行っていると主張する友人もいます。実際、これらは両方ともエンドツーエンドとして数えることはできないと思います。これは、純粋なデータ駆動型の認識および純粋なデータ駆動型の意思決定計画と呼ばれるものであり、エンドツーエンドの自動運転とのみ見なされます。

エンドツーエンド計画とも呼ばれる、セキュリティチェックサム軌道最適化のための従来の方法のハイブリッド戦略と組み合わせた特定のモデルに基づいて意思決定を行う人もいます。さらに、Tesla V12 は純粋に正確なモデル出力制御信号ではなく、いくつかのルール手法を組み合わせたハイブリッド戦略であると信じている人もいます。 http://X.com の有名な Green 氏によると、彼は少し前に、ルールのコードがまだ V12 テクノロジースタックに存在するというツイートを投稿しました。これについての私の理解は、Green によって発見されたコードは、V12 高速テクノロジースタックによって保持されている V11 バージョンコードである可能性が高いということです。なぜなら、現在 V12 は実際には元の都市テクノロジースタックをエンドツーエンドで置き換えるだけであることがわかっているからです。高速では依然として V11 ソリューションが使用されるため、解明されたコード内で通常のコードの一部が見つかっても、V12 が「エンドツーエンド」で間違っていることを意味するわけではありませんが、見つかったコードは高速である可能性があります。コード。実際、2022 年の AI+Day からは、V11 とそれ以前のバージョンがすでにハイブリッドソリューションであることがわかります。したがって、V12 がすぐに完成したモデルでない場合、ソリューションは以前のバージョンとそれほど変わりません。このように、V12 のパフォーマンスが飛躍的に向上する合理的な説明はありません。テスラのこれまでの計画については、AI+Day での EatElephant の私の解釈を参照してください: Tesla AI Day 2022 -- 世界の言葉の解釈: 彼は自動運転春祭りを分散型 R&D チームと呼び、 AIテクノロジー企業。

2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?

2022 AI Day から判断すると、V11 はすでに NN Planner と混合された計画ソリューションです

一般に、認識の後処理コードであっても、ルール候補の軌道スコアリングであっても、あるいは安全ポケット戦略であっても、ルールが確立されれば、コードが導入され、if else 分岐があると、システム全体の安定した伝送が切り詰められ、トレーニングを通じて全体的な最適化を実現するというエンドツーエンドシステムの最大の利点も失われます。

疑問 2: エンドツーエンドは以前のテクノロジーの再発明でしょうか?

もう一つのよくある誤解は、エンドツーエンドとは、これまで蓄積してきた技術を覆し、徹底的に新しい技術革新を行うことであり、テスラがエンドツーエンドの自動運転システムのユーザープッシュを達成したばかりなので、そう思っている人が多いということです。他のメーカーはそれを実装することができません。認識、予測、計画の元のモジュール技術スタックを反復する必要はなく、代わりにエンドツーエンドのシステムに直接入力できます。後発企業の利点から、テスラにすぐに追いつき、さらには追い越すこともできます。確かに、大規模なモデルを使用してセンサー入力から制御信号の計画までのマッピングを完了するのが最も徹底したエンドツーエンドのアプローチです。たとえば、Nvidia の DAVE-2 や Wayve も同様の方法を長い間試してきました。同様の方法を使用しました。この徹底的なエンドツーエンド技術は実際にはブラックボックスに近く、画像や点群などのセンサー入力信号は非常に高次元の入力空間であるため、デバッグや反復的な最適化が困難です。ハンドル角やスロットル制御などの可動ペダルは比較的低次元の出力空間であり、実車試験には全く使用できません。

2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?

徹底的なエンドツーエンドシステムは、モデルの収束とデバッグを支援するために、セマンティックセグメンテーションや深度推定などのいくつかの一般的な補助タスクも使用します

つまり、私たちが実際に見た FSD V12 は、以前の視覚化コンテンツのほぼすべてを保持しており、これは、FSD V12 が元の強力な知覚基盤に基づいてエンドツーエンドでトレーニングされていること、および 2020 年 10 月から始まる FSD の反復が放棄されていないことを示しています。、V12 の強固な技術基盤となっています。 Andrej Karparthy 氏は以前にも同様の質問に答えていますが、V12 の開発には関与していませんでしたが、これまでの技術の蓄積はすべて放棄されたわけではなく、表舞台から舞台裏に移されただけだと考えています。したがって、ルールコードの一部を段階的に削除することで、独自の技術に基づいてエンドツーエンドのナビゲーションが徐々に実現されます。

2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?

V12 は、FSD のほぼすべての認識を保持し、コーンバレルなどの限られたビジュアルコンテンツのみをキャンセルします

疑問 3: 学術論文のエンドツーエンドを実際の製品に移行できるか?

UniAD が 2023 CVPR Best Paper となったことは、間違いなく、エンドツーエンドの自動運転システムに対する学術コミュニティの高い期待を表しています。テスラが 2021 年に革新的な BEV 視覚認識技術を導入して以来、国内の学術コミュニティは自動運転 BEV 認識に多大な熱意を注ぎ、BEV 手法の性能最適化と実装展開を促進する一連の研究が生まれました。では、エンドツーエンドも、学術界が主導し、産業界が後追いするという同様のルートをたどって、製品へのエンドツーエンドテクノロジーの迅速な反復実装を促進できるでしょうか?比較的難しいと思います。まず第一に、BEV センシングは依然として比較的モジュール化されたテクノロジーであり、よりアルゴリズムレベルであり、エントリーレベルのパフォーマンスにはそれほど大量のデータは必要ありません。高品質の学術オープンソースデータセット Nuscenes のリリースは、BEV センシングに便利な前駆体を提供します。多くの BEV 研究の状況では、Nuscenes で反復された BEV センシングソリューションは製品レベルの性能要件を満たすことはできませんが、概念実証とモデル選択として非常に参考になります。しかし、学術界には、利用可能な大規模なエンドツーエンドのデータが不足しています。現在、Nuplan の最大のデータセットには 4 都市での 1,200 時間分の実際の車両収集データが含まれていますが、2023 年の財務報告会議でマスク氏は、エンドツーエンドの自動運転について「100 万件のビデオケースがトレーニングされており、ほとんど機能しません。」 ; 200 万では少し良くなります; 300 万では「すごい」と感じるでしょう; 1,000 万に達すると、そのパフォーマンスは信じられないほどになります。 Tesla の Autopilot リターンデータは一般に 1 分のセグメントであると考えられているため、エントリーレベルの 100 万ビデオのケースは約 16,000 時間であり、これは最大の学術データセットよりも少なくとも 1 桁多いことに注意する必要があります。 nuplan は継続的にデータを収集するため、データの分布と多様性に致命的な欠陥があり、データの大部分は単純なシーンであり、nuplan のような学術的なデータセットを使用しても、かろうじて取得できるバージョンさえ取得できません。電車。

2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?

Nuplan データセットはすでに非常に大規模な学術データセットですが、エンドツーエンドのソリューションとしての探索だけでは十分ではない可能性があります

そのため、エンドツーエンドの自律型データセットの大部分が見られます。 UniAD を含む運転どのソリューションも実際の車両で実行できず、次善の選択肢として開ループ評価に頼るしかありません。開ループ評価指標の信頼性は非常に低く、開ループ評価ではモデルの混乱や因果関係の問題を特定できないため、モデルが履歴パス外挿の使用のみを学習した場合でも、非常に良好な開ループを得ることができます。 2023 年に、Baidu はオープンループ計画評価指標の欠点について議論する AD-MLP (https://arxiv.org/pdf/2305.10430) という論文を発表しました。論文は過去の情報のみを使用し、認識を導入せずに、現在の SOTA の研究に近い非常に優れた開ループ評価指標を取得しました。しかし、誰も目を閉じて車をうまく運転できないことは明らかです。

2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?

AD MLP は、感覚入力に依存しないことで優れた開ループ指標を実現します。これは、開ループ指標を基準として使用することは実用上ほとんど意味がないことを示しています

それでは、閉ループポリシー検証は次の問題を解決できるでしょうか?オープンループの模倣学習?少なくとも現時点では、学術コミュニティは一般的にエンドツーエンドの研究開発のためにCARLA閉ループシミュレーションシステムに依存していますが、ゲームエンジンに基づいてCARLAによって取得されたモデルも現実世界に転送するのが困難です。

疑問4: エンドツーエンドの自動運転は単なるアルゴリズムの革新なのでしょうか?

結局のところ、エンドツーエンドは単なる新しいアルゴリズムではありません。モジュール式自動運転システムのさまざまなモジュールのモデルは、それぞれのタスクのデータを使用して個別に反復的にトレーニングできますが、エンドツーエンドシステムの各機能は同時にトレーニングされるため、トレーニングデータが必要になります。非常に一貫性があり、各データは正確でなければなりません。タスクのラベル付けが失敗すると、そのデータをエンドツーエンドのトレーニングタスクで使用することが困難になります。自動ラベル付けパイプラインの速度とパフォーマンス。第 2 に、エンドツーエンドシステムでは、エンドツーエンドの意思決定計画出力タスクでより良い結果を達成するために、すべてのモジュールが高いパフォーマンスレベルに達する必要があります。したがって、一般に、エンドツーエンドのデータしきい値は、エンドシステムの要求は個々のモジュールのデータよりもはるかに高く、データのしきい値は絶対量の要件だけでなく、データの分布と多様性も完全に制御できないことを意味します。エンドツーエンドのシステムを開発する場合、さまざまなモデルの顧客を持つ複数のサプライヤーに適応する必要があります。計算能力の限界について、マスク氏は今年 3 月初旬に X.com で、FSD の最大の制限要因は計算能力であると述べ、最近、ほぼ同時に、ボス・マー氏も計算能力の問題が大幅に改善されたと述べました。 , 2024年第1四半期の財務報告会議で、テスラは現在35,000のH100コンピューティングリソースを保有していることを明らかにし、この数が2024年末までに85,000に達することを明らかにしました。 Tesla が非常に強力なコンピューティングパワーエンジニアリング最適化機能を備えていることは疑いの余地がありません。つまり、FSD V12 の現在のレベルに到達するには、35,000 H100 と数十億ドルのインフラ設備投資が必要な前提条件となる可能性が高くなります。テスラほど効率的ではない場合、このしきい値はさらに引き上げられる可能性があります。

2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?

3月初旬、マスク氏は、FSDの反復における主な制限要因はコンピューティングパワーであると述べた

2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?

4月初旬、マスク氏は、テスラの今年のコンピューティングパワーへの総投資額は100億米ドルを超えるだろうと述べた

http://X.com にもあります。あるネチズンは、今年の会議で Nvidia 自動車業界幹部の Norm Marks のスクリーンショットを共有しました。そこから、2023 年末までに Nvidia が所有する NV グラフィックスカードの数が増加することがわかります。ヒストグラムでは Tesla が完全に圧倒しています (左の図の右端にある緑色の矢印。中央のテキストでは、この No.1 OEM が所有する NV グラフィックスカードの数が 7,000 DGX ノードを超えていることが説明されています。この OEM は明らかに Tesla です。各ノードは 8 枚のカードとして計算され、23 年末までに、Tesla はおそらく 56,000 枚以上の A100 グラフィックスカードを搭載することになるでしょう。これは、2 位の OEM の 4 倍以上になります。 2024 年に 35,000 枚の新しい H100 カードが購入される）、中国製グラフィックスカードの輸出に対する米国の制限政策と相まって、このコンピューティング能力に追いつくことはさらに困難になります。

2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?

Norm Marks が社内でスクリーンショットを共有しました。出典: 、問題をできるだけ早く検出し、データ駆動型の方法で解決し、ルールコードを使用できない場合に迅速に反復する方法は、現在、ほとんどの自律型システムにとって未知の課題です。研究開発チームを推進します。

最後のエンドツーエンドは、現在の自動運転研究開発チームにとって依然として組織変更です。L4 自動運転以降、ほとんどの自動運転チームの組織構造はモジュール化されており、認識グループ、予測グループ、位置決めグループ、計画制御グループ、さらには知覚グループが視覚知覚、レーザー知覚などに分かれています。エンドツーエンドの技術アーキテクチャでは、異なるモジュール間のインターフェイスの障壁が直接取り除かれるため、エンドツーエンドの研究開発チームは新しいテクノロジーパラダイムに適応するためにすべての人的資源を統合する必要があり、これは柔軟性のないチーム組織にとって大きな課題となります。文化。

以上が2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。