ホームページ > 記事 > ソフトウェアチュートリアル > たとえそれが単なる PPT であっても、「エンドツーエンド」のコンテストに参加するのが理想的です
今日のテクノロジー分野ではエンドツーエンドの競争が注目を集めていますが、Li Auto はこの点で変化をもたらしていますか? PHP エディターの Youzi が、PPT 表示から実際の実装に至るまで、Li Auto のエンドツーエンドのレイアウトについて詳しく説明し、その手がかりを探ります。
「エンドツーエンド」のトレンドが中国のスマート運転業界を席巻しています。
2024 年後半に入ると、どの自動車会社もインテリジェント運転について語るときに「エンドツーエンド」について語らなければ、遅れを取っているとみなされる可能性が高くなります。
7月5日、Li Autoは、エンドツーエンドモデル、VLM視覚言語モデル、およびワールドモデルに基づく新しい自動運転技術アーキテクチャをリリースしました。これは基本的に、Ideal Auto のエンドツーエンド パスの方法論出力であり、Ideal Intelligent Driving の次の開発パスをより完全に示しています。
Huxiu Automobile の観点から見ると、このリリースには注目に値する 3 つの主要な焦点があります。理想的な「エンドツーエンド」は他のプレーヤーとどのように異なりますか?理想的なスマートドライビングの開発はどこまで進んでいるのか?そして、なぜこの時期にイデアル氏がインテリジェント運転の技術力を強調するのでしょうか?
ファーウェイと比較して、Idealのソリューションはより過激です
まず、Idealの新しい自動運転技術アーキテクチャを見てみましょう。ノーベル賞受賞者ダニエル・カーネマンの高速システム理論と低速システム理論にインスピレーションを得たもので、自動運転分野における人間の思考と意思決定のプロセスをシミュレーションし、コラボレーションに「高速システム」と「低速システム」を使用します。
システム 1 とも呼ばれる高速システム は、経験と習慣に基づいて形成された人間の直感であり、車両を運転する際の日常的なシナリオの 95% を処理するのに十分です。
システム 2 とも呼ばれる遅いシステムは、人間が深い理解と学習を通じて形成した論理的推論、複雑な分析、および計算能力であり、車両の運転時や会計時に複雑な、または未知の交通シナリオを解決するために使用されます。毎日の運転の 50% で約 5%。
このアーキテクチャ プロトタイプでは、システム 1 はエンドツーエンド モデルによって実装され、センサー入力を受け取り、車両を制御するための走行軌跡を直接出力します。システム 2 は、VLM 視覚言語モデルによって実装され、センサー入力を受信した後、論理的思考を経て意思決定情報をシステム 1 に出力します。デュアルシステムで構成される自動運転能力は、クラウド上のワールドモデルを使用して訓練および検証されます。
理想理論によれば、システム 1 のエンドツーエンド モデルは、主にカメラと LIDAR で構成されるワン モデル ソリューションを採用しており、CNN バックボーン ネットワークによってマルチセンサーの特徴が抽出および融合されます。 BEVスペースへ。
さらに、Ideal は車両ステータス情報とナビゲーション情報を入力端に追加します。Transformer モデルでエンコードした後、BEV 機能でデコードして、動的障害物、道路構造、一般的な障害物をデコードし、走行軌跡を計画します。
Huawei や Xpeng などのメーカーが採用するセグメント化されたエンドツーエンド ソリューションと比較して、Ideal が採用する One Model ソリューションはより過激です。 Tesla も One Model ソリューションですが、その「入力画像、出力制御」ソリューションは、理想的な「入力センサー情報、出力走行軌跡」をさらに超えています。
さまざまなメーカーが現在使用しているエンドツーエンドのパスは選択の違いにすぎず、利点と欠点の区別がないことを指摘する必要があります。 (エンドツーエンドの技術原則については、湖秀汽車チームが「テスラはファーウェイと戦争をする」という記事で詳細な分析を提供しています。)
この理想的なアーキテクチャの特別な点は、実際にはシステム 2 です。 VLM 視覚言語モデルのアルゴリズム アーキテクチャは、統合された Transformer モデルで構成されます。このモデルは、Prompt (プロンプト ワード) テキストを Tokenizer (単語セグメンター) でエンコードし、前方カメラ画像の視覚情報とナビゲーション マップ情報をエンコードします。次に、画像とテキストを使用して視覚情報をエンコードします。位置合わせモジュールはモーダル位置合わせを実行し、最後に統合された自己回帰推論を実行して、環境の理解、運転上の決定、および運転軌跡を出力し、それらをシステム 1 に渡して支援します。車両を制御すること。
実際のシナリオでは、走行中にシステム 2 が路面が非常にでこぼこしていて平らでないことを発見した場合、速度低下リマインダーをシステム 1 に送信し、前方の穴だらけの道路を走行する車両が徐行して段差を軽減することをドライバーに通知します。 ; またはバスレーンの位置を特定したり、潮汐レーンなどを特定したりすることもできます。
理想的に言えば、システム 2 は、自動車教習所の教官が副操縦士の席に座って運転行動を常に監視しているのと同じです。 Xpengの大規模言語モデルXBrainとHaomoの大規模自動運転意味認識モデルにも同様の機能があることは言及する価値があります。
理想的なVLMモデルパラメータ量は22億に達し、車両側のVLMモデルの推論時間も4.1秒から0.3秒に最適化されたと報告されています。
デュアル システムに加えて、Ideal はエンドツーエンド ソリューションのテストおよび検証方法も導入しました。業界では、3D仮想環境、再構成シミュレーション、生成シミュレーションなどによるシミュレーションテストを実施するアプローチが主流となっています。理想的なアプローチは、再構築されたシミュレーションと生成されたシミュレーションの 2 つの技術的パスを組み合わせることであり、これは実際の質問を再構築し、シミュレートされた質問を生成することに相当します。
実際、テスラも大規模なモデルを使用して連続ビデオを生成し、ワールド モデルを作成しています。自動運転会社 Wayve の大規模な自動運転モデル GAIA-1 (すでに 90 億のパラメーターを備えています) も、運転シーンのビデオを生成し、シナリオを記述し、予測を行うことができます。 一般的に言えば、理想的な技術アーキテクチャは、車両側にデュアル システムを導入することです。ONE モデルのエンドツーエンド モデルでは、自動運転システムが経験豊富な人間のドライバーのように動作できるようになります。運転 システムは人間と同じ論理的思考能力を備えていますが、世界モデルは学習および試験環境を提供し、迅速に反復する機能を備えています。 Lili Intelligent Driving の責任者である Lang Xianpeng 氏によると、そのエンドツーエンドのソリューションは社内で開発され、昨年後半から事前研究が開始され、現在はモデルのプロトタイプ検証と実際の導入が完了しています。車両。 ただし、このソリューションをユーザーに提供するのはまだ困難です今月の AD Max ユーザーにとっての理想的なソリューションは、イメージフリーの NOA ソリューションを推進することです。
インテリジェントな運転が追い越しの瞬間を迎えています
さまざまなメーカーがインテリジェントな運転を追求する上で、「エンドツーエンド」が重要な方向性になりつつあります。 今年 3 月、Yuanrong Qixing はエンドツーエンド モデルをバスに導入することに成功しました。ファーウェイが 4 月に Qiankun 3.0 をリリースしたとき、同社のテクノロジーは次の目的を達成するために新しい GOD/PDP ネットワーク アーキテクチャに移行したと述べました。ネットワークの事前決定計画、Xpeng 5 3 月の AI DAY で、エンドツーエンドの大型モデルが量産化されたことが発表されました。さらに、Weilai、Xiaomi、Xpeng などのメーカーは、エンドツーエンドのレイアウトを実行するためにスマート ドライビング チームを調整しました。 テスラを含むさまざまなメーカーが現在、エンドツーエンドのテクノロジーの方向性を模索していることがわかります。選択肢や道筋は異なりますが、確かなことは、エンドツーエンドのテクノロジーであるということです。インテリジェントな運転の方向になっています。
しかし、エンドツーエンドはインテリジェント運転システムの上限と下限を増幅させますが、エンドツーエンドはニューラルネットワークの解決が難しいセキュリティ問題も引き起こします。解釈できないブラック ボックスには、セキュリティ上のリスクが伴います。 さまざまな企業がレイアウトを競う中、アイデアルは、エンドツーエンドの技術ソリューションを公開した最初の自動車会社で、先月の重慶フォーラムで 2 つの主要なシステムを公開し、業界で熱い議論を巻き起こしました。今回は、鉄は熱いうちに打ち出すと言える、技術アーキテクチャ計画の完全版も発表した。 Lideal が今年下半期に新製品をリリースしないことを考慮すると、スマート運転機能における最初の成果は、会社の人気を維持できるだけでなく、既存製品の競争力も維持することができます。さらに、エンドツーエンドのテクノロジーパスのレイアウトにより、Ideal はインテリジェントな運転機能に追いつく機会も得られます。Huawei、Xiaopeng などが採用しているセグメント化されたエンドツーエンドのアプローチと比較して、理想的なエンドツーエンドのモデルは実装がより困難です。PPT から量産に移行するまでにどれくらいの時間がかかり、どのように移行するか。効果はありますか? まだ観察を続ける必要があります。
チェンタオキャピタルが発表した「エンドツーエンドの自動運転産業調査報告書」によると、国内自動運転企業のモジュール型エンドツーエンドソリューションは2025年に量産される可能性がある。それはラバか馬で、来年は散歩に連れ出す時期が来ています。記事の内容を報告するこの記事はKuai Technologyから転載されたものであり、記事内の意見は著者の個人的な見解のみを表しています
。
以上がたとえそれが単なる PPT であっても、「エンドツーエンド」のコンテストに参加するのが理想的ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。