ホームページ >テクノロジー周辺機器 >AI >自動運転の意思決定計画における問題と課題について説明した記事
自動運転の測位、認識、予測、意思決定計画および制御モジュールにおいて、認識モジュールは人間の目や耳のようなもので、外部環境の感知を担当し、制御モジュールは人間の手足のようなものです。最終的な加速、減速、ステアリングなどの操作を行うための意思決定計画モジュールは人間の脳のようなもので、受け取った認識やその他の情報に基づいて行動の決定と軌道の生成を行います。
「スマート ドライビング フロンティア」WeChat ビデオ アカウントのフォローへようこそ。人間の脳が左脳と右脳に分かれているのと同じように、意思決定計画モジュールはさらに行動決定に分けることができます。作成層 (Behavioral Layer) と動作計画層 (Motion Planning) です。
グローバル パスを受信した後、行動意思決定層は感覚情報を組み合わせて特定の行動決定を行い、動作計画層は特定の行動決定に基づいて特定の制約を満たす軌道の生成を計画します。制御モジュールからの入力によって車両の最終的な移動経路が決定されるためです。
自動運転のレベルが向上し続けるにつれて、自動運転の頭脳としての意思決定層と計画層の重要性も高まっています。しかし、人間の脳と比較すると、自動運転の脳が追いつくにはまだ長い道のりがあります。この記事では、パス プランニングにおけるモーション プランニングの問題点と課題を 10,000 語で詳しく説明します。
動作計画アルゴリズムはロボット工学の分野から発展し、徐々に自動運転の分野に適したさまざまなアルゴリズムを開発してきました。 Motion Planning の軌道生成手法の概要は論文 [1] で紹介されており、以下の図に示す手法が導入されています。
サンプリング探索に基づくアルゴリズム:ダイクストラ、RRT、A*、ハイブリッドA*、ラティスなど;
曲線補間に基づくアルゴリズム:RS曲線、デュビンス曲線、多項式曲線、ベジェ曲線およびスプライン曲線など;
最適化ベースのアルゴリズム: Apollo の区分的ジャークなど;
上記のアルゴリズムは通常、次のアルゴリズムと組み合わせて使用されます。お互いの。たとえば、多項式曲線は終端状態をサンプリングする必要があり、ベジェ曲線は制御点をサンプリングする必要があり、hybird A* は RS 曲線または Dubins 曲線などを使用します。
論文 [1] では、以下の図に示すように、さまざまな軌道生成アルゴリズムの長所と短所がまとめられています。完璧なアルゴリズムはなく、特定のシナリオや作業条件に基づいて適切なアルゴリズムを選択する必要があることがわかります。現在、多項式曲線補間 (高速シナリオ) と最適化アルゴリズムが業界で広く使用されています。
上で紹介したモーション プランニング アルゴリズムは、基本的に自動運転シナリオにおける軌道生成の問題のほとんどを解決できます。もはや主なボトルネックではありません。しかし、モーション プランニングの分野では、主に次の側面を含む、克服する必要のある多くの課題がまだあります:
最適性問題、
認知的推論問題、
不確実性/確率;
単一エージェント;
複数エージェント;
エンジニアリングの問題。
グローバル最適化は NP 困難問題です [3]. リアルタイム パフォーマンスを実現するために、業界のほとんどは水平および垂直デカップリング計画手法を採用しています。しかし、そうすると最適性が犠牲になり、追い越し[2]や対向車、向心加速度拘束処理、縦方向の計画能力を考慮する必要のある水平方向の計画など、作業条件によっては良好な車両挙動が得られません。
たとえば、自動運転車 (ADC) の前に減速中の車両がある場合、水平垂直デカップリング方式では、通常、前の車両の速度が一定の値まで低下した場合にのみ追い越します。 ADC の動作は、まず速度を落とすか、場合によっては停止し、その後障害物を回避して運転することですが、これは明らかに最適な運転戦略ではありません。
時空間統合計画手法を採用すれば、減速や駐車行為を回避できます。下図左はデカップリング方式の例で、前方に減速駐車中の車両がある場合、ADCは減速します。右図は時空間計画の例で、前走車が減速するとADCが追い越しをします。
2.2.1 マップ トポロジ推論
Apollo を例に挙げます。PNCマップ モジュールは、HD マップ モジュールからデータを抽出して基準線を形成し、HD マップ モジュールの API インターフェイスを通じて道路要素をクエリします。ただし、モーション プランニング モジュールは、進入交差点と退出交差点などの一部の道路トポロジ関係を無視するため、これらの特殊な道路トポロジは車両の動作に影響します。
さらに、HD マップ モジュールがなく、視覚的な車線境界線のみに依存している場合、この時点で異常な車線境界線の認識が発生します。道路トポロジーの問題は、特に進入路、出走路、交差点道路において顕著である。
2.2.2 障害物の統合モデリング
交通シーンの参加者には、車両、オートバイ、自転車、歩行者、コーンなどが含まれます。大まかに言うと、横断歩道、信号機、道路制限速度などの静的なマップ要素も含まれており、モーション プランニングでは要素ごとに異なる決定を下す必要があります。障害物の統合モデリングにより問題が単純化され、計算効率が向上します。
##Aopllo は、すべての交通参加者を静的障害物、動的障害物、仮想障害物に抽象化します。障害物は箱、静的障害物と動的障害物は車両、歩行者など、仮想障害物は横断歩道、駐車禁止区域など。仮想障害物は経路計画中に考慮されません。 エネルギー フィールド関連の手法を使用して、エネルギー関数を使用して交通参加者を表現します。上図の中央の図は、清華によって提案された運転安全場 [4] であり、静止物体の位置エネルギー場、移動物体の運動エネルギー場、ドライバーの行動場で構成されます。最適な軌道とは、エネルギーの合計が最小となる軌道を見つけることです。 論文 [5] では、交通参加者を障害物的なものと制約的なものに分類しています。障害物のようなものは、動的および静的な車両、赤色灯などであり、SLT の 3D グリッドにマッピングされます。制約に似ているのは、意味上の境界としての制限速度、一時停止標識などです。決定シーケンスのアクションに従って、軌道生成のために SLT 構成空間にいくつかの立方体境界が生成されます。2.2.3 シナリオ認知推論
実際の環境は複雑であるため、1 つの意思決定戦略や計画方法でさまざまな労働条件に対応することは困難です。 。したがって、運転環境を分類し、さまざまなシナリオでさまざまな戦略を選択することで、動作計画のパフォーマンスを向上させることができます。では、シーン分類とシーン認識はどのように実行すればよいのでしょうか。また、さまざまなシーンにおけるモーション プランニングの違いは何でしょうか?これらの問題はすべて解決する必要があります。 Aopllo のシーン分類は、LANE_FOLLOW、SIDE_PASS、STOP_SIGN_UNPROTECTED などです。シーン認識には 2 つの方法があり、1 つはルールによるもの、もう 1 つは機械学習によるものです。シナリオごとに異なるステージがあり、タスクはステージ内で順番に実行されます。同じタスクであっても、シナリオが異なるとパラメータ設定が異なる場合があります。 Haimou は、交差点、渋滞、車線変更が多い都市シーンの特徴に基づいて、運転シーンを 10 のカテゴリーに分類していますが、これは Apollo のシナリオ分類とは明らかに異なります。 。 Hao Mo 氏はまた、運転環境の渋滞状態を説明するために、運転環境エントロピーの概念を提案しました。 2.3 不確実性2.3.1 位置決めの不確実性
ほとんどのモーション プランニングでは、位置決めは十分に正確であると考えられていますが、実際のシーンでは、オクルージョンやマルチパス干渉などの問題により、位置決めが不正確になることがよくあります。論文 [6] の左下の図に示されているように、測位誤差により、HD マップ モジュールからクエリされる道路境界に誤差が生じ、その結果、計画および車両の走行軌跡が道路境界上に位置します。 図この論文では、測位の不確実性がガウス分布であると仮定しており、測位モジュールは確率分布の期待値と分散を計算できます。論文では車両座標系をUTM座標系に変換し、測位の高速配信と座標変換式により、測位の影響による車両周囲環境の不確実性を図のように計算することができます。右上、色が濃いほど不確かさが大きくなり、不確かさの計算式は主に以下の式で求められます。 ADC から遠ざかるほど不確実性が高くなることがわかり、車両が前進するにつれて不確実性は更新されます。経路計画方法は格子法(5次多項式曲線)を使用しており、コスト計算時に2つの項目が追加されます。 1 つは厳しい制約で、計画パス上の点の最大不確実性は特定のしきい値を超えることはできません。2 つ目は、コスト関数に不確実性の重みの合計を追加することです。2.3.2 知覚の不確実性
センサーのノイズ、車両の振動、運転環境、不完全なアルゴリズムにより、知覚が得られる結果不確実であるか、間違っている場合もあります。不確実性が認識されると、モーション プランニングの結果に不安が生じる可能性があります。簡単な処理方法としてはバッファを追加する方法がありますが、乱暴な処理方法では動作計画の実行可能範囲が狭まり、過度に攻撃的または過度に保守的な運転戦略になる可能性があります。 論文[7]ではアラウンドビューモニタリング(AVM)を搭載した駐車アプリケーションを例に挙げていますが、経路計画では知覚誤差により実際の追い越し位置に駐車してしまい、衝突が発生する可能性があります。 、下の左の図に示すように。この論文では、知覚される不確実性をガウス分布としてモデル化しています。下の右図に示すように、知覚される効果が ADC から遠くなるほど、不確実性は高くなります。 #論文の全体的なアーキテクチャを下の左の図に示し、このアルゴリズムを使用した効果を下の右の図に示します。駐車スペースのサンプリング: ADC に最も近い 2 つのコーナー ポイントをサンプリングし、サンプリング ポイントを正規分布として扱い、サンプリング コーナー ポイントと設定された駐車スペースの長さに基づいて ADC 後車軸の駐車中心を計算します。 point;
パス候補の生成: ocp 理論を使用して各サンプリング ポイントのパス計画を実行し、時間領域の問題がフェレント座標系に変換され、SQP が非線形問題を解くために使用されます;
最適なパスの選択: 効用理論を使用して最適なパスを選択します。効用関数は次のとおりです: EU(s) = P(s) x Uideal(s) (1-P(s)) x Ureal(s)。ここで P(s) はサンプリング ポイントに対応するパスの確率であり、 Uideal はターゲットまでの経路であり、点の偏差効用関数値 (サンプリングによって取得されるものではなく、現時点でセンシングで検出される)、Ureal は ADC の現在位置までの経路上の効用関数値です。
#2.3.3 予測の不確実性
L4 以上の高度な自動運転を実現するには、予測が重要です。しかし、現時点では業界全体にとって予測は依然として非常に難しい問題です。したがって、予測の精度は非常に低く、予測結果の不確実性の中で動作計画を行うことが非常に重要です。 論文[8]は、予測と制御の不確実性によって引き起こされる安全でない計画軌道の問題に対処するために、ガウス分布に基づく計画アーキテクチャを提案しています。 候補軌道の生成: 多段階の水平および垂直サンプリングを通じて生成されます。これは、Aopllo Lattice 法として理解できます。 予測軌道生成:ある車両の軌道を予測(計画)する際、他の車両が等速走行していることを考慮し、その状態を判断し、候補軌道のコストを計算する、最適な予測軌道が得られます。次に、予測された軌跡の確率分布が、正規分布に従うと仮定して、カルマン フィルターを通じて計算されます。 ADC 軌道生成: 現時点では、他のトラフィック参加者の予測の不確実性を考慮する必要があります。候補軌道ごとにLQRアルゴリズムにより制御誤差を計算し、カルマンフィルタリングにより軌道の確率分布を計算し、軌道評価のためにcos計算を行う場合には、予測軌道と予測軌道の確率分布に基づいて衝突判定を行います。 ADC 計画軌道、つまり衝突はどの確率分布内でも発生しません。 著者は、この方法はボックスに適応型バッファを追加するのと同等である一方、従来の固定サイズのバッファでは保守的または攻撃的な運転行動につながると考えています。#論文 [9] この論文では、既存のモーション プランニング フレームワークに組み込むことができるフェールセーフ メカニズムを提案しています。このメカニズムは 3 つの部分に分かれています。 #セットベースの予測: 交通参加者の開発された運転戦略と車両運動学モデルに基づいて、交通参加者の元の単一の予測軌道が複数の予測軌道に変更されます;
フェールセーフ軌道: 予測に基づいてその結果、元の計画軌道で衝突リスクのある最初の軌道点が計算され、最適化理論に基づいて軌道が生成されます。
オンライン検証: 2 番目に生成された軌道に ADC を投影します。最初のステップは、車両の軌道上で衝突が発生するかどうかを予測することです。
この方法はMotion Planningのやり直しのような気がしますが、論文ではフェイルセーフ軌道が判定結果を考慮しているかどうかについては記載されていないため、安全軌道が判定結果を満たさない可能性がありますが、そしてこの論文は単なるシミュレーションであり、実際の応用はありません。
2.3.4 部分的に観測可能な環境
センサー自体の感知範囲が限られており、感知結果が不確実であるため、で 照明が悪い場合や悪天候ではさらに増幅されます。都市部の労働条件では、下の図に示すように、建物の遮蔽により不完全な知覚が発生します。さらに、大型車両は知覚オクルージョンの問題を引き起こす可能性があり、ほとんどのモーション プランニングは完全な知覚に基づいて処理されるため、プランニング結果は非常に安全ではありません。
論文 [10] では、車両の最大制動能力の下で計画された軌道が安全になるように、不完全な安全認識を処理する動作計画を提案しています。危険な状況では、衝突しないように車を駐車してください。知覚の不確実性と知覚距離の範囲を考慮した直線道路走行時と、知覚の不完全性を考慮した市街地交差点走行時の2つの状況に分けられる。また、他の運動計画アーキテクチャへの組み込みも容易であり、著者は以前提案した最適化手法に基づく軌道計画においてシミュレーション検証を行った(レビュー図(b))。著者は理論のためにいくつかの仮定を設計しました:
測位の縦方向の位置と速度情報はガウス分布に従います;
知覚の有効範囲は既知であり、知覚は結果はガウス分布に従います;
地図情報には建物の位置が含まれており、凸多角形です;
車両の加速予測にはインテリジェント ドライバー モデル (IDM) を使用します。
この論文では直線道路と交差点という 2 つの状況を扱っているため、シーン認識が必要です。この論文では、シーン認識にルールベースのアプローチを使用しています。
#左上の図: 赤い点線が観測環境を感知した時刻、黒い点線がモーション プランニングの時刻であることがわかります。動作計画で使用するセンシング情報が tp 時刻以前であること。さらに、動作計画は連続性を確保する必要があるため、動作計画の計算サイクル tpin 内の計画された軌道は一貫している必要があります。さらに重要なことは、アクチュエータの遅延により、tsafe 時間内に軌道の安全性を確保する必要があることです。論文では、 tsafe= 2tpin; 上と中央の図: 直線道路の走行は 2 つの状況に分けられます: 検知範囲内に車両が存在しない場合と、検知範囲内に車両が存在する場合: 1 つは、走行検知範囲外に車両が存在すると仮定し、検知範囲内に車両が存在しない 停止車両を仮想静止障害物として設定し、そのガウス分布特性により制動時の前後変位と速度制約を満たすように計算できる安全な瞬間内に最大のブレーキ能力でブレーキをかける、第二に、感知範囲内に車両が存在する場合、感知は不可能であると考えてください。ガウス分布特性を通じて、安全時間内の最大制動能力で制動の縦方向の変位と速度の制約を満たすように計算できます; 上の右の図: 交差点での運転、によるとIDM モデルでは、ADC が道を譲る必要があるか、それとも優先する権利があるかを計算され、先に通行する意図を明確に示す必要があります。最終的に直進走行用の2種類の拘束に変換しました。 2.4 シングル エージェントシングル エージェントは、これをシングル エージェントの問題と見なします。つまり、ADC は、他のトラフィック参加者に対する ADC の動作決定の影響を考慮せずに、周囲の環境に関する決定を下します。明らかに、この仮定は間違っていますが、これにより動作計画の問題が単純化されます。 行動的意思決定は、自動運転の開発に影響を与えるもう 1 つの重要な側面であり、自動運転のレベルが向上するにつれて、行動的意思決定の重要性が高まります。行動に関する意思決定の難しさは、自動運転車のインテリジェンスをどのように具現化するか、そして自動運転車が人間のドライバーと同じように高次元で複数の制約がある複雑なシナリオを処理できるようにするか、さらには人間のドライバーよりも優れたパフォーマンスを発揮できるようにするかということです。 現在のメソッドはルールベースのメソッドであり、機能が限られています。ルール法に基づく行動意思決定の観点から、ランプ外条件では、ランプ入口からの距離の閾値が設計されるのが一般的です。 ADC からランプまでの距離がしきい値以内になると、一番右の車線への車線変更が始まります。 このしきい値が 2 km であると仮定すると、ADC がランプ交差点の 2.1 m の中央車線を走行しており、前方に低速で車がいる場合、ルールに基づく行動の意思決定は行われません。一般的には左車線への変更を選択します(左車線には制限速度があり、追い越しは左車線に従わなければなりません。左車線が優先であることはXiaopeng NGPなどからわかります)。ただし、車線変更後のランプ入口までの距離閾値は2km未満であり、この際、一番右の車線に車線変更する必要があり、2回連続で車線変更を行う必要があり、スマートとは言えません。 もう 1 つの例は、ランプの 500 メートル手前で右端の車線を走行している場合で、工事や事故で前方の道路が走行できなくなった場合、ドライバーが引き継ぐことしかできません。実際の労働条件は複雑であるため、ルールに基づいた行動の意思決定方法では良好な運転体験を達成するのが難しいことがわかります。 香港科技大学の OPMDP に関する行動意思決定作業 [11] では、ルールベースの方法と比較してパフォーマンスが一定の向上しています。 OPMDP には時間がかかります。ただし、他のトラフィック参加者が ADC の動作を回避することなどが考慮されています。これは、複数のエージェントが対処すべき問題であることがわかります。2.5 複数のエージェント
上記の単一エージェントでは、トラフィック参加者は ADC の動作に関して対応する決定を下さないと考えられていますが、実際には, ADC が決定を下した後、その動作は他の交通参加者の動作に影響を及ぼし、元の予測結果の信頼性が低下します。特に、一部の単純なルールベースの予測はモーション プランニングの結果に依存しません。モーションプランニングの前フレームを使用した結果(Apollo)。 たとえば、下の左の図では、ADC L が軌道 1 に沿って移動しているとき、A2 はそれを避けるために減速する可能性があります。 ADC L が軌道 2 に沿って移動すると、A2 は交差点を通過して加速する可能性があります。しかし、ADC L が軌道 2 に沿って走行している場合、A2 が交差点を加速する可能性があると予測されますが、A2 は ADC L の意図を誤解して減速し、2 台の車両がロックアップする可能性があります。したがって、ADC が他の交通参加者の意図をどのように理解するか、また他の交通車両が ADC の意図をどのように理解するかが重要です [12]。 2.6 エンジニアリング上の問題モーション プランニングでは、主に次の側面を含むいくつかのエンジニアリング上の問題にも直面しています。リアルタイム: 最初の質問で述べた最適性の問題。3 次元空間での検索計算の複雑さにより、これが解決される場合、リアルタイムのパフォーマンスは保証されますが、これによりアプリケーションも制限されます。共同時空間計画の理由。さらに、最適化アルゴリズムにおける大規模な制約と非線形性もリアルタイムの課題に直面しています。
完全性: 補間や格子などのアルゴリズムは確率的に完全ですが、特に複雑な複数の障害物がある環境では、限られたサンプリングで衝突のない軌道を取得することは困難です。最適化手法は数値解法であるため完全性を達成できず、一般的に使用される osqp ソルバーでは不正確な解が得られる場合もあります。
数値化が難しい: 動作計画における評価指標の多くは快適性や通過性など主観的なものであり、定量的に評価することが困難です。乗客の主観的な感覚とも異なるさまざまな身体感覚を得るために、さまざまなエンジニアがパラメータを調整します。したがって、動作計画におけるパラメータや車線変更戦略を学習するための機械学習方法が提案されています。
上記の問題や課題に対応して、業界の企業もいくつかのソリューションを積極的に検討および提案しています。そのうちの 1 つまたは 2 つを以下に挙げます。
Qingzhou Zhihang は、時空間共同計画を使用して最適性問題を解決し、計画パフォーマンスを向上させ、効率的な解決策を実現するための自社開発の非線形プランナーを開発しています [2]。
TuSimple の新世代フレームワークでは、認識モジュールは、障害物の位置や速度などの情報を提供しながら、意思決定計画が事前に安全で快適な意思決定を行えるようにするために、不確実性または確率情報を提供します [13]。
テスラは、交通参加者が使用する他の車両にも Planner を使用しています。ただし、他の車両とやり取りする場合、計画は ADC だけのためのものではなく、すべての交通参加者のために共同で計画し、シーン全体の交通の流れに合わせて最適化する必要があります。これを行うために、シーン内の参加オブジェクトごとにオートパイロット プランナーが実行されます。さらに、駐車シナリオでは、A 検索アルゴリズムとニューラル ネットワークの組み合わせ戦略が使用され、A アルゴリズムのノード探索が大幅に削減されます [15]。
Xpeng と Tesla は、車線の欠落と道路トポロジーの変化の問題を最適化しました [14]。
Waymo は意思決定パフォーマンスを向上させるために ChauffeurNet を提案し [16]、Apollo は ChauffeurNet に基づく独自の強化学習アーキテクチャを提案しました [17]。
以上が自動運転の意思決定計画における問題と課題について説明した記事の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。