先月、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は、当然のことながらエンドツーエンドであり、人気のある Tesla FSD V12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。
#エンドツーエンドの自動運転システムを定義するにはどうすればよいですか?また、エンドツーエンドで解決する必要がある問題は何ですか?
最も伝統的な定義によれば、エンドツーエンド システムとは、センサーから生の情報を入力し、関係する変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出分類器と比較した CNN 方式をエンドツーエンドと呼ぶことができます。自動運転タスクでは、各種センサー(カメラ/LiDAR/レーダー/IMUなど)からのデータを入力し、車両走行のための制御信号(スロットル/ハンドル角など)を直接出力します。異なるモデル間の適応問題を考慮するために、出力を車両の軌道に合わせて緩和することもできます。これは伝統的な意味での定義、または私が狭いエンドツーエンドの定義と呼ぶものです。これに基づいて、パフォーマンス能力を向上させるために、いくつかの中間タスク監視も導出されています。
しかし、そのような狭い定義に加えて、エンドツーエンドの本質とは何か、という本質的なことも考えるべきです。 エンドツーエンドの本質は感覚情報のロスレス伝送であるべきだと思います。まず、非エンドツーエンド システムにおけるセンシング モジュールと PnC モジュール間のインターフェイスがどのようなものであるかを思い出してみましょう。一般的には、ホワイトリストオブジェクト (車、人など) の検出/属性分析/予測、および静的環境 (道路構造/制限速度/信号機など) の理解が行われます。一般的な障害物の検出作業も行います。 マクロの観点から見ると、知覚によって出力される情報は複雑な運転シナリオを抽象化したものであり、手動で定義された明示的な抽象化です。ただし、一部の特殊なシナリオでは、現在の明示的な抽象化ではシーン内の運転動作に影響を与える要素を完全に表現できない場合や、定義する必要があるタスクが多すぎて些細すぎるため、必要なタスクをすべて列挙することが困難な場合があります。したがって、エンドツーエンド システムは (おそらく暗黙的な) 包括的な表現を提供し、そのような情報を PnC に自動的かつロスなく適用することを期待しています。このような要件を満たすことができるすべてのシステムは、汎用化されたエンドツーエンドと呼ぶことができると思います。
動的対話シナリオの最適化などの他の問題に関しては、少なくともエンドツーエンドだけでこれらの問題を解決できるわけではない、というのが私の個人的な意見です。もちろん、データ量が十分に大きい場合は、エンドツーエンドが非常に優れたソリューションを提供する可能性があります。これが必要かどうかについては、次のいくつかの質問で説明します。
#エンドツーエンドの自動運転について誤解がありますか?
制御信号とウェイポイントは必ずエンドツーエンドで出力してください
一般化されたエンドツーエンドの概念については、可能であれば上記の概念に同意する場合、この問題は理解しやすいです。エンドツーエンドでは、タスク量を直接出力するのではなく、情報をロスなく送信することが重視されます。このようなエンドツーエンドの処理方法では、セキュリティを確保するために多数の秘密の解決策が必要であり、また、実装プロセス中にいくつかの問題に遭遇し、その後の処理で徐々に明らかになります。
エンドツーエンド システムは、大規模なモデルまたは純粋なビジョンに基づいている必要があります
エンドツーエンドの概念自動運転と大規模モデルの自動化の終焉 運転と純粋に視覚的な自動運転の間には、必ずしも関連性はありません。これら 3 つの概念は完全に独立して存在します。エンドツーエンド システムは、従来の意味での大規模なモデルによって駆動される必要はなく、必ずしも純粋に視覚的なものである必要もありません。この 3 つの間にはいくつかのつながりがありますが、同等ではありません。
これらの概念の関係について詳しく説明した以前の記事があります。詳細については、https://zhuanlan.zhihu.com/p/664189972
を参照してください。 run, 上記の狭義のエンドツーエンドシステムでL3レベル以上の自動運転は実現可能でしょうか?
実際のところ、最初に苦情を言いたいと思います。 L4 を破壊するために大規模なモデルを使用すると主張する人は、実際に L4 を実行したことがありません。すべての病気をエンドツーエンドで治療すると主張する人は、PnC# を実行したことがありません。 ##。それで、エンドツーエンドに熱心な多くの人々とチャットした後、それは検証も反証も不可能な純粋に宗教的な論争に変わりました。最先端の研究開発に従事する私たち学生は、より実践的であり、証拠に注意を払う必要があります。 。 。少なくとも、何を転覆したいのかについての基本的な知識を持ち、それに伴う厄介な問題を理解する必要があります。これが、あなたが持つべき基本的な科学的資質です。 。 。
本題に戻りますが、現時点では私は悲観的です。 FSD が現在純粋にエンドツーエンドであると主張しているという事実に関係なく、たとえこの車両が統計的に人間と同じくらい安全であるとしても、そのパフォーマンスは将来的に L3 レベル以上に必要とされる信頼性と安定性には程遠いです。ドライバーがアライメントを間違えるのと同じくらい安全に対処する必要がある。もっと率直に言うと、自動運転システムが国民や世論に受け入れられたいのであれば、鍵は絶対的な事故率や死亡率ではなく、いくつかのシナリオが存在することを国民が受け入れることができるかどうかにあるかもしれない。人間にとって有害な問題は比較的簡単に解決できますが、機械は間違いを犯します。純粋なエンドツーエンド システムの場合、この要件を達成するのはさらに困難です。より具体的には、2021 年に私が行った回答で説明されました。詳細については、次を参照してください: ロビン・リーのモーメント投稿を表示する方法: 無人運転は間違いなく事故を引き起こしますが、その可能性は事故よりもはるかに低いです有人運転? https://www.zhihu.com/question/530828899/answer/2590673435?utm_psn=1762524415009697792 北米の Waymo と Cruise を例に挙げると、実際に多くの製品を生み出しています。しかし、クルーズの最後の事故はなぜ規制当局や国民に受け入れられなかったのでしょうか?この事故では 2 名が負傷しました。最初の衝突は人間のドライバーにとって回避するのが非常に困難でしたが、実際には許容範囲でした。しかし、この衝突後、システムが衝突位置と負傷者の位置を誤判断し、車寄せモードに移行し、負傷者を長時間引きずるという重大な二次被害が発生した。このような行為は通常の人間のドライバーでは行わないことであり、非常に悪い影響を及ぼします。この事件はその後のクルーズ社の混乱に直接つながった。この事件は実際に私たちに警鐘を鳴らしました。自動運転システムの開発と運用においては、このような事態をいかに回避するかが真剣に考慮されるべきです。では、現時点で、次世代の量産型運転支援システムのための実用的なソリューションは何でしょうか?
簡単に言えば、適切なシステムは、まず従来のシステムの機能の上限を十分に探求し、次にそれをエンドツーエンドの柔軟性と汎用性と組み合わせる必要があると思います。段階的 エンドツーエンドの ソリューション。もちろん、この2つをどう有機的に組み合わせるかは有料コンテンツです(笑)。 。 。しかし、いわゆるエンドツーエンドまたは学習ベースのプランナーが現在実際に何をしているのかを分析することはできます。
私の限られた理解に基づくと、いわゆるエンドツーエンドモデルが運転に使用される場合、出力軌跡は従来の方法に基づいたソリューション、つまり学習ベースのプランナーや従来の方法に基づいたソリューションに従います。軌道計画アルゴリズムは複数の軌道を同時に出力し、セレクターを通じて 1 つを選択して実行します。システム アーキテクチャがこのように設計されている場合、そのようなカスケード システムのパフォーマンスの上限は、実際にはそのような隠蔽計画とセレクターによって制限されます。このようなソリューションが依然として純粋なフィードフォワード学習に基づいている場合、依然として予測できない障害が発生し、安全であるという目的を本質的に達成できません。このような出力軌跡を最適化または選択するために従来の計画手法を使用することを検討する場合、それは学習ベースの手法によって生成される軌跡と同等です。は、そのような最適化および検索の問題に対する単なる初期の解決策です。そのような軌道を直接最適化して検索してみてはいかがでしょうか?
もちろん、一部の学生は飛び出して、そのような最適化または探索問題は非凸であり、状態空間が大きすぎて車両システム上でリアルタイムで実行できないと言うでしょう。ここで皆さんにこの質問について注意深く考えていただきたいのです。過去 10 年間で、認識システムの計算能力は少なくとも 100 倍に向上しましたが、PnC モジュールはどうでしょうか?近年の高度な最適化アルゴリズムの開発と組み合わせて、PnC モジュールが大規模な計算能力を使用できるようにした場合でも、この結論は依然として有効でしょうか?このような問題に対して、私たちは現状に安住し、道に頼るのではなく、何が正しいのかを第一義的に考えるべきである。データ駆動型と従来の手法の関係をどのように調整するか?
実際、自動運転に非常によく似た例は、今年 2 月にチェスをプレイすることです (検索なしのグランドマスターレベルのチェス: https://arxiv.org)。 /abs/2402.04494) は、AlphaGo と AlphaZero でデータ駆動のみを使用し、MCTS 検索を放棄することが可能かどうかを検討しています。自動運転に似ているのは、アクションを直接出力するために 1 つのネットワークのみが使用され、後続のステップはすべて破棄されるということです。この記事の結論は、かなりの規模のデータとモデル パラメーターの下では、検索なしでも妥当な結果が得られるということですが、この方法に検索を加えた場合と比較すると、依然として大きなギャップがあります。 (記事内の比較は実際には公平ではありません。実際の差はさらに大きいはずです。) 特に、いくつかの困難なエンドゲームを解決する場合、純粋なデータ駆動型のパフォーマンスは非常に劣ります。この自動運転への類似は、複数ステップのゲームを必要とする困難なシナリオやコーナーケースでは、従来の最適化アルゴリズムや検索アルゴリズムを完全に放棄することが依然として難しいことを意味します。 AlphaZero のようなさまざまなテクノロジーの利点を合理的に利用することが、パフォーマンスを向上させる最も効率的な方法です。
従来の方法 = if else に基づくルール?
この概念も、多くの人々とのやり取りの中で繰り返し修正する必要があります。多くの人の定義によれば、純粋にデータ駆動型でない限り、それはルールベースと呼ばれます。もう一度チェスの例を考えてみましょう。公式や棋譜を丸暗記するのはルールベースですが、AlphaGo や AlphaZero のような検索と最適化による推論機能をモデルに与える場合、それはルールベースとは言えないと思います。これはまさに、現在の大規模モデル自体に欠けているものであり、研究者が CoT やその他の方法を通じて学習ベースのモデルを与えようとしているものです。しかし、運転者のあらゆる行動には明確な動機があり、理由を明確に説明できない純粋なデータ駆動型の画像認識などのタスクとは異なります。適切なアルゴリズム アーキテクチャ設計の下では、意思決定の軌跡が変数となり、科学的目標に基づいて均一に最適化される必要があります。無理にパッチを当てたりパラメータを調整したりして様々なケースを解決するのではなく。当然のことながら、このようなシステムにはさまざまなハードコードを使用した奇妙なルールはありません。
まとめ
最後に、エンドツーエンドは有望な技術的ルートかもしれませんが、そのような概念をどのように導入できるかについては、まだ検討すべきことがたくさんあります。練習問題。データとモデルパラメータを積み重ねることが唯一の正しい解決策なのでしょうか? 私の考えでは、現時点ではそうではありません。いつの時代も最先端の研究技術者である私たちは、マスク自身を第一原理にするのではなく、マスクが言った第一原理やエンジニア思考を真に追求し、実践から問題の本質を考えるべきだと感じています。 。本当に前に進みたいなら、考えることを諦めずに他人の言うことに従うべきです。そうしないと、コーナーで追い越そうとし続けなければなりません。
以上がエンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。 これは、WTIの調査結果によって強調されています。従業員の68%がワークロードに苦労しており、BURにつながります

ジョン・サールの中国の部屋の議論:AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。 チャインを無知な人を想像してください

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。 技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

MCP:AIシステムに外部ツールにアクセスできるようになります モデルコンテキストプロトコル(MCP)により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者:Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Google Photosの新しいウルトラHDRツール:画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

技術アーキテクチャは、新たな認証の課題を解決します エージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

(注:Googleは私の会社であるMoor Insights&Strategyのアドバイザリークライアントです。) AI:実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 中国語版
中国語版、とても使いやすい

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ホットトピック









