ホームページ >テクノロジー周辺機器 >AI >歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有!
軌道予測は過去 2 年間で脚光を浴びていますが、そのほとんどは車両の軌道予測の方向に焦点を当てています。今日、自動運転の中心は NeurIPS - SHENet 上の歩行者軌道予測のアルゴリズムを共有します。 、これは制限されたシナリオで人間によって使用されます。移動パターンは通常、ある程度制限された法則に準拠します。この仮定に基づいて、SHENet は暗黙のシーン ルールを学習することで人の将来の軌道を予測します。この記事は自動運転ハート様よりオリジナル記事として認定されました!
人間の動きのランダム性と主観性により、人の将来の軌道を予測することは、現在でも依然として困難な問題です。ただし、シーンの制約 (フロア プラン、道路、障害物など) と人間対人間、または人間対オブジェクトのインタラクティブ性により、制約のあるシーンでの人間の動きのパターンは、通常、ある程度限られた法則に従います。したがって、この場合、個人の軌跡もこれらの法則のいずれかに従う必要があります。言い換えれば、ある人のその後の軌跡は、他の人によってたどられた可能性が高いということです。この仮定に基づいて、この記事のアルゴリズム (SHENet) は、暗黙のシーン ルールを学習することによって人の将来の軌道を予測します。具体的には、シーン内の人物や環境の過去のダイナミクスに内在する規則性をシーン履歴と呼びます。次に、シーン履歴情報は、歴史的なグループの軌跡と、個人と環境の間の相互作用の 2 つのカテゴリに分類されます。これら 2 種類の情報を軌道予測に活用するために、本論文では、シーン履歴をシンプルかつ効果的な方法で活用する新しいフレームワーク Scene History Mining Network (SHENet) を提案します。特に、この設計の 2 つのコンポーネントは、将来の経路の候補として代表的なグループの軌跡を抽出するために使用されるグループ軌跡ライブラリ モジュールと、個人の過去の軌跡間の相互作用をモデル化するために使用されるクロスモーダル相互作用モジュールです。とその周囲の環境を考慮して軌道を改善します。また、SHENetでは、前述した人間の動きのランダム性や主観による真の軌道の不確実性を軽減するために、学習プロセスや評価指標に滑らかさを取り入れています。最後に、さまざまな実験データセットで検証し、SOTA 手法と比較して優れたパフォーマンスを実証しました。
Human Trajectory Prediction (HTP) は、ビデオ クリップから対象者の将来の進路を予測することを目的としています。これは、車両が歩行者の状態を事前に感知し、衝突の可能性を回避できるため、スマート交通にとって非常に重要です。 HTP 機能を備えた監視システムは、警備員が容疑者の逃走経路を予測するのに役立ちます。近年多くの研究が行われていますが、主にこのタスクの 2 つの課題、つまり人間の動きのランダム性と主観性のため、十分に信頼でき、現実世界のシナリオでの応用に一般化できるものはほとんどありません。ただし、制約のある現実世界のシナリオでは、その課題が絶対に解決できないわけではありません。図 1 に示すように、このシーンで以前にキャプチャされたビデオを考慮すると、人間の移動パターンは通常、このシーンの対象者が従ういくつかの基本法則に従うため、対象者の将来の軌跡 (赤いボックス) はより予測可能になります。したがって、軌道を予測するには、まずこれらのパターンを理解する必要があります。私たちは、これらの規則性が、歴史的な人間の軌跡 (図 1 左)、個人の過去の軌跡、周囲の環境、およびそれらの間の相互作用 (図 1 右) に暗黙的にコード化されており、これらをシーン履歴と呼ぶと主張します。
図 1: シーン履歴を利用する概略図: 人の軌跡を予測するための歴史的なグループの軌跡と個々の環境の相互作用。
私たちは歴史情報を 2 つのカテゴリに分類します: 歴史的グループ軌跡 (HGT) と個人と環境の相互作用 (ISI)。 HGT は、シーン内のすべての歴史的な軌跡のグループ表現を指します。 HGT を使用する理由は、シーン内に新しいターゲット人物がいるとすると、その人物の軌跡は、歴史的な軌跡の単一のインスタンスよりも、グループの軌跡の 1 つとの類似性、主観性、規則性が高くなる可能性が高いためです。前述のランダム性。ただし、グループの軌跡は個人の過去の状態や対応する環境とはあまり関連がなく、個人の将来の軌跡にも影響を与える可能性があります。 ISI は、コンテキスト情報を抽出することにより、履歴情報をより完全に活用する必要があります。既存の手法では、個人の過去の軌跡と歴史的軌跡の類似性が考慮されることはほとんどありません。ほとんどの試みは個人と環境の間の相互作用のみを調査しており、個人の軌跡、環境の意味情報、およびそれらの間の関係をモデル化することに多大な労力が費やされています。 MANTRA は再構成方法でトレーニングされたエンコーダーを使用して類似性をモデル化し、MemoNet は履歴軌跡の意図を保存することで類似性を簡素化しますが、どちらもグループ レベルではなくインスタンス レベルで類似性の計算を実行するため、トレーニングされたユーザーの能力に影響を受けやすくなります。コーダー。上記の分析に基づいて、HTP に HGT と ISI を共同利用する、シンプルかつ効果的なフレームワーク、Scene History Mining Network (SHENet) を提案します。特に、このフレームワークは、(i) Group Trajectory Base (GTB) モジュール、および (ii) Cross-Modal Interaction (CMI) モジュールの 2 つの主要コンポーネントで構成されます。 GTB は、すべての過去の個別軌道から代表的なグループ軌道を構築し、将来の軌道予測のための候補経路を提供します。 CMI は、観察された個々の軌道と周囲の環境を個別にエンコードし、クロスモーダル変換器を使用してそれらの相互作用をモデル化し、検索された候補軌道を改良します。
さらに、上記の 2 つの特性 (つまり、ランダム性と主観性) の不確実性を軽減するために、トレーニング プロセスと現在の評価メトリクス、平均および最終変位誤差 (つまり、ADE と最終変位誤差) に曲線を導入します。 FDE) 平滑化 (CS)。これにより、2 つの新しいインジケーター CS-ADE および CS-FDE が得られます。さらに、HTP 研究の発展を促進するために、PAV と呼ばれるさまざまな運動パターンを含む新しい挑戦的なデータセットを収集しました。このデータセットは、MOT15 データセットから固定カメラ ビューと複雑な人間の動きを含むビデオを選択することによって取得されます。
この研究の貢献は次のように要約できます: 1) HTP の個々の軌跡を検索するためにグループ履歴を導入します。 2) 我々は、HTP のための 2 種類のシーン履歴 (つまり、歴史的なグループの軌跡と個人と環境の相互作用) を共同利用する、シンプルかつ効果的なフレームワーク SHENet を提案します。 3) 新しい挑戦的なデータセット PAV を構築しました; さらに、人間の移動パターンのランダム性と主観性を考慮して、より優れたベースライン HTTP パフォーマンスを達成するために、新しい損失関数と 2 つの新しい指標が提案されています。 4) SHENet の優れたパフォーマンスと各コンポーネントの有効性を実証するために、ETH、UCY、および PAV について包括的な実験を実施しました。
ユニモーダル手法 ユニモーダル手法は、過去の軌道の規則性から個々の動きを学習して将来の軌道を予測することに依存しています。たとえば、Social LSTM は、ソーシャル プーリング モジュールを通じて個々の軌跡間の相互作用をモデル化します。 STGAT は、アテンション モジュールを使用して空間相互作用を学習し、近隣に適切な重要性を割り当てます。 PIE は、時間的注意モジュールを使用して、各タイム ステップで観察された軌跡の重要性を計算します。
マルチモーダル手法 さらに、マルチモーダル手法では、HTP に対する環境情報の影響も検査されます。 SS-LSTM は、シーンのグローバル情報をキャプチャするためのシーン インタラクション モジュールを提案します。 Trajectron は、グラフ構造を使用して軌跡をモデル化し、環境情報や他のエンティティと対話します。 MANTRA は外部メモリを活用して長期的な依存関係をモデル化します。過去の単一エージェントの軌跡をメモリに保存し、環境情報をエンコードして、このメモリから検索された軌跡を絞り込みます。
前作との違い シングルモーダル手法とマルチモーダル手法はどちらも、シーン履歴の単一または部分的な側面を使用し、歴史的なグループの軌跡を無視します。私たちの研究では、シーン履歴情報をより包括的な方法で統合し、さまざまな種類の情報をそれぞれ処理するための専用モジュールを提案します。私たちの方法と以前の研究、特にメモリベースの方法とクラスタリングベースの方法の主な違いは次のとおりです。 i) MANTRA と MemoNet は歴史的な個人の軌跡を考慮しますが、私たちが提案する SHENet は歴史的なグループの軌跡に焦点を当てています。シナリオ。 ii) 軌道予測のために人物と近隣人物をグループ化するいくつかの研究もあります; 軌道分類のために軌道を固定数のカテゴリにクラスタリングします; 私たちの SHENet は、個々の軌道予測の参照として代表的な軌道を生成します。
提案されたシーン履歴マイニング ネットワーク (SHENet) のアーキテクチャを図 2 に示します。これは 2 つの主要コンポーネントで構成されます。軌道ライブラリ モジュール (GTB) とクロスモーダル インタラクション モジュール (CMI)。形式的には、シーンの観察ビデオ内のすべての軌跡 、シーン画像 、および最後のタイム ステップでの対象人物 の過去の軌跡が与えられるとします。 p はタイム ステップ t における人の位置を表します。SHENet では、可能な限り真の軌跡に近づくように、次のフレームでの歩行者の将来の位置を予測する必要があります。提案された GTB は、最初に を代表的なグループ軌道に圧縮します。次に、観測された軌道をキーとして使用して、最も近い代表グループの軌道を将来の軌道の候補として検索します。同時に、過去の軌跡とシーンの画像がそれぞれ軌跡エンコーダとシーンエンコーダに送信され、それぞれ軌跡特徴とシーン特徴が生成されます。エンコードされた特徴はクロスモーダル トランスフォーマーに入力され、グラウンド トゥルースの軌道からオフセット が学習されます。 を に加算すると、最終的な予測 が得られます。トレーニング段階中に、 までの距離がしきい値よりも大きい場合、人の軌跡 (つまり、 と ) が軌跡ライブラリに追加されます。トレーニングが完了すると、バンクは推論用に固定されます。
図 2: SHENet のアーキテクチャは、グループ軌跡ライブラリ モジュール (GTB) とクロスモーダル インタラクション モジュール (CMI) の 2 つのコンポーネントで構成されています。 GTB は、すべての履歴軌跡を代表的なグループ軌跡のセットにクラスタリングし、最終的な軌跡予測の候補を提供します。 GTBはトレーニングフェーズにおいて、予測軌跡の誤差に基づいて対象者の軌跡をグループ軌跡ライブラリに組み込むことで表現能力を拡張します。 CMIは、対象人物の過去の軌跡と観察されたシーンをそれぞれ特徴抽出のための軌跡エンコーダとシーンエンコーダの入力として取り、クロスモーダルコンバータとリファインメントを通じて過去の軌跡とその周囲環境との相互作用を効果的にモデル化します。候補軌道を提供するために実行されます。
図 3: クロスモーダル変圧器の図。軌跡特徴とシーン特徴はクロスモーダル変換器に入力され、探索軌跡とグラウンドトゥルース軌跡の間のオフセットが学習されます。
グループ軌跡ライブラリ モジュール (GTB) は、シーン内に代表的なグループ軌跡を構築するために使用されます。 GTB のコア機能は、バンクの初期化、軌道検索、軌道更新です。
軌道ライブラリの初期化 記録された多数の軌道の冗長性により、それらを単に使用するのではなく、疎な代表的な軌道のセットを次のように生成します。軌跡ライブラリの初期値。具体的には、トレーニング データ内の軌跡を として表し、各 を観察された軌跡 と将来の軌跡 のペアに分割します。これにより、 は、観測セット と対応する将来セット に分割されます。次に、、 の各軌跡ペア間のユークリッド距離を計算し、K-medoids クラスタリング アルゴリズムを通じて軌跡クラスタを取得します。 の初期メンバーシップは、同じクラスターに属する軌跡の平均です (アルゴリズム 1、ステップ 1 を参照)。の各軌跡は、人々のグループの移動パターンを表します。
軌跡の検索と更新 グループ軌跡ライブラリでは、各軌跡を過去と未来のペアとして表示できます。数値的には、 、ここで は過去の軌跡と未来の軌跡の組み合わせを表し、 は 内の過去と未来のペアの数です。軌跡 が与えられた場合、観測された をキーとして使用して、 の過去の軌跡 との類似性スコアを計算し、代表的なセックス軌跡を見つけます。 は、最大の類似性に基づいてスコア付けされます (アルゴリズム 1、ステップ 2 を参照)。類似度関数は、代表的な軌道
にオフセット
(式 2 を参照) を追加することにより、次のように表すことができます。観測者の予測軌道を取得します (図 2 を参照)。ほとんどの場合、初期軌道ライブラリはうまく機能しますが、ライブラリ (アルゴリズム 1、ステップ 3 を参照) の一般化を改善するために、距離に基づいて を更新するかどうかを決定します。閾値 θ 。
このモジュールは、個人の過去の軌跡と環境情報の間の相互作用に焦点を当てています。これは、人間の動きとシーン情報をそれぞれ学習する 2 つのシングルモーダル エンコーダーと、それらの相互作用をモデル化するクロスモーダル トランスフォーマーで構成されます。
軌道エンコーダ 軌道エンコーダは、 セルフ アテンション (SA) を持つ Transformer ネットワークのマルチヘッド アテンション構造を使用します。層。 SA レイヤーは、さまざまなタイム ステップで人間の動きを のサイズでキャプチャし、次元 から までの動きの特徴を投影します。ここで、 はtrajectory エンコーダの埋め込み次元。したがって、軌道エンコーダを使用して人間の動きの表現を取得します。
シーン エンコーダ 事前学習済みの Swin Transformer は特徴表現において魅力的なパフォーマンスを備えているため、これをシーン エンコーダとして採用します。サイズ のシーンの意味論的特徴を抽出します。ここで、 (事前トレーニングされたシーン エンコーダーの ) は、人や道路などの意味論的クラスの数です。 ## と は空間解像度です。後続のモジュールが動き表現と環境情報を簡単に融合できるようにするために、意味論的特徴をサイズ () から () に再変更し、多層の知覚層を通じて次元 () から () に投影します。その結果、シーン エンコーダ を使用してシーン表現 を取得します。
クロスモーダル トランスフォーマー シングルモーダル エンコーダーは、独自のモダリティから特徴を抽出し、人間の動きと環境情報の間の相互作用を無視します。 層を備えたクロスモーダル変換器は、この相互作用を学習することで候補軌道 を改良することを目的としています (セクション 3.2 を参照)。環境情報に制約される重要な人間の動作を捉えるストリームと、人間の動作に関連する環境情報を抽出するストリームの2ストリーム構造を採用しています。クロスアテンション (CA) レイヤーとセルフアテンション (SA) レイヤーは、クロスモーダル コンバーターの主要コンポーネントです (図 3 を参照)。環境の影響を受ける重要な人体の動きを捕捉し、動きに関連した環境情報を取得するために、CA 層は 1 つのモダリティをクエリとして扱い、もう 1 つのモダリティを 2 つのモダリティと相互作用するキーと値として扱います。 SA レイヤーは、内部接続の改善を促進し、シーンに制約されたモーションまたはモーション関連の環境情報内の要素 (クエリ) と他の要素 (キー) の間の類似性を計算するために使用されます。したがって、クロスモーダル トランスフォーマー () を介してマルチモーダル表現を取得します。探索軌跡 と真の軌跡 の間のオフセット を予測するには、最後の要素 (LE) ## を取得します。 ## およびグローバル プーリング層 (GPL) の後の出力。オフセット は次のように表すことができます:
ここで [; ] はベクトル連結を表し、MLP は多層知覚層です。
SHENet の全体的なフレームワークをエンドツーエンドでトレーニングして、目的関数を最小化します。トレーニング中、シーン エンコーダは ADE20K で事前トレーニングされているため、セグメンテーション部分をフリーズし、MLP ヘッドのパラメータを更新します (セクション 3.3 を参照)。既存の作業に従って、ETH/UCY データセットの予測軌跡とグラウンド トゥルース軌跡の間の平均二乗誤差 (MSE) を計算します:。
より困難な PAV データセットでは、カーブ スムージング (CS) 回帰損失を使用します。これは、個々のバイアスの影響を軽減するのに役立ちます。軌道を平滑化した後に MSE を計算します。 CS 損失は次のように表すことができます。
ここで、CS は曲線平滑化関数 [2] を表します。実験
ETH、UCY、PAV、Stanford Drone Dataset (SDD) データセットでの手法を評価します。シングルモーダル手法では軌跡データのみに焦点を当てますが、マルチモーダル手法ではシーン情報を考慮する必要があります。 ETH/UCY データセットと比較すると、PAV は PETS09-S2L1 (PETS)、ADL-Rundle-6 (ADL)、Venice-2 (VENICE) などの複数のモーション モードでより困難です。これらのデータは次のとおりです。静的カメラからキャプチャされ、HTP タスクに十分な軌道を提供します。ビデオをトレーニング セット (80%) とテスト セット (20%) に分割し、PETS/ADL/VENICE にはそれぞれ 2,370/2,935/4,200 のトレーニング シーケンスと 664/306/650 のテスト シーケンスが含まれています。さまざまな方法の長期予測結果を比較できるように、
観測フレームを使用して将来のフレームを予測します。
ETH/UCY や PAV データセットとは異なり、SDD は大学キャンパスの鳥瞰図からキャプチャされた大規模なデータセットです。これは、対話する複数のエージェント (歩行者、自転車、自動車など) とさまざまなシナリオ (歩道や交差点など) で構成されます。前作に続き、過去 8 フレームを使用して未来の 12 フレームを予測します。
図 4: 提案されたメトリクス CS-ADE および CS-FDE の図。
図 5: 曲線平滑化後のいくつかのサンプルの視覚化。
評価指標 ETHおよびUCYデータセットについては、HTPの標準指標である平均変位誤差(ADE)と最終変位誤差(FDE)を使用します。 ADE はすべてのタイム ステップにおける予測軌道と真の軌道の間の平均誤差であり、FDE は最終タイム ステップにおける予測軌道と真の軌道の間の誤差です。 PAV の軌道には多少のジッターがあります (急なターンなど)。したがって、合理的な予測では、従来の指標 ADE および FDE を使用した非現実的な予測とほぼ同じ誤差が生じる可能性があります (図 7(a) を参照)。軌道自体のパターンと形状に焦点を当て、ランダム性と主観性の影響を軽減するために、CS-ADE および CS-FDE である CS-Metric を提案します (図 4 を参照)。 CS-ADE は次のように計算されます:
ここで、CS は曲線平滑化関数であり、セクション 3.4 の Lcs と同じように定義されます。 CS-ADE と同様に、CS-FDE は軌道を滑らかにした後、最終的な変位誤差を計算します。滑らかな軌道に変換します。 実装詳細SHENetでは、グループ軌跡ライブラリの初期サイズが に設定されています。軌跡エンコーダとシーン エンコーダの両方に 4 つのセルフ アテンション (SA) 層があります。クロスモーダル Transformer には 6 つの SA レイヤーとクロス アテンション (CA) レイヤーがあります。すべての埋め込み寸法を 512 に設定します。軌跡エンコーダの場合、サイズ
(ETH/UCY では、PAV では
) の人間の動き情報を学習します。シーン エンコーダーの場合、サイズ 150 × 56 × 56 のセマンティック特徴を出力します。サイズを150×56×56から150×3136に変更し、150×3136から150×512に投影します。 4 つの NVIDIA Quadro RTX 6000 GPU で 100 エポックのモデルをトレーニングし、1e − 5 の固定学習率で Adam オプティマイザーを使用します。 アブレーション実験表 1 では、Group Trajectory Library (GTB) モジュールと軌跡 Encoder ( TE)、シーン エンコーダー (SE)、およびクロスモーダル インタラクション (CMI) モジュール。
GTB の影響まず、GTB のパフォーマンスを調査します。 CMI (TE、SE、CMT) と比較して、GTB は PETS の FDE を 21.2% 改善します。これは大幅な改善であり、GTB の重要性を示しています。ただし、GTB (表 1 行 1) だけでは十分ではなく、パフォーマンスは CMI よりもわずかに劣ります。そこで、CMI モジュール内のさまざまな部品の役割を調査しました。
TE と SE の影響TE と SE のパフォーマンスを評価するために、TE から抽出された軌跡の特徴と SE から抽出されたシーンの特徴を連結します (表 1 の 3 行目)。 、より小さな動きで ADL と VENICE のパフォーマンスが向上します (TE 単独と比較して)。これは、軌道予測に環境情報を組み込むことで結果の精度が向上することを示しています。
CMT の効果 表 1 の 3 行目と比較すると、CMT (表 1 の 4 行目) はモデルのパフォーマンスを大幅に向上させることができ、PETS 上で連結された TE と SE のパフォーマンスよりも優れており、ADE は 7.4% 向上していることに注目してください。 GTB 単独の場合、完全な CMI は ADE を平均 12.2% 改善します。
ETH/UCY データセット上の最先端のメソッドとモデルを比較します: SS-LSTM、Social-STGCN、MANTRA、AgentFormer、YNet。結果を表 2 にまとめます。私たちのモデルは平均 FDE を 0.39 から 0.36 に削減し、最先端の手法である YNet と比較して 7.7% 改善しました。特に、軌道が大きく動く場合、私たちのモデルは ETH に関する以前の手法を大幅に上回り、ADE と FDE をそれぞれ 12.8% と 15.3% 改善しました。
表 2: ETH/UCY データセットにおける最先端 (SOTA) メソッドの比較。 * は、単峰性アプローチよりも小さいセットを使用することを示します。上位 20 位の最高のものを使用して評価します。
表 3: PAV データセットの SOTA メソッドとの比較。
長期予測におけるモデルのパフォーマンスを評価するために、軌道ごとに 観測フレームを使用して PAV で実験を実施しました。 個の将来のフレーム。表 3 は、以前の HTP メソッド (SS-LSTM、Social-STGCN、Next、MANTRA、YNet) とのパフォーマンスの比較を示しています。 YNet の最新の結果と比較すると、提案された SHENet CS-ADE と CS-FDE は、それぞれ平均 3.3% と 10.5% の改善を達成しています。 YNet は軌跡のヒートマップを予測するため、軌跡の動きが小さい場合 (VENICE など)、パフォーマンスが向上します。それにもかかわらず、私たちの方法は VENICE で依然として競争力があり、より大きな動きや交差を伴う PETS では他の方法よりも大幅に優れています。特に、私たちの方法は YNet と比較して PETS 上で CS-FDE を 16.2% 改善します。また、従来の ADE/FDE メトリクスでも大きな進歩を遂げました。
距離閾値θ θは、軌道ライブラリの更新を決定するために使用されます。 θの代表的な値は、軌道長に基づいて設定されます。予測誤差の絶対値は、一般に、グラウンド トゥルースの軌跡がピクセル単位で長いほど大きくなります。ただし、それらの相対誤差は同等です。したがって、誤差が収束すると、θ はトレーニング誤差の 75% に設定されます。実験では、PETS では θ = 25、ADL では θ = 6 に設定しました。表 4 に示すように、「75% トレーニング誤差」は実験結果から得られます。
表 4: PAV データセットのさまざまなパラメーター θ の比較。結果は 3 つのケースの平均です。
表 5: PAV データセット上のクラスター K の初期数の比較。
K 中心点のクラスターの数 以下に示すように、初期クラスター K の異なる数を設定した場合の影響を研究しました。表 5 に示します。特に初期クラスター数が 24 ~ 36 の場合、クラスターの初期数は予測結果の影響を受けないことがわかります。したがって、実験では K を 32 に設定できます。
銀行の複雑さの分析 検索と更新の時間計算量はそれぞれ O(N) と O(1) です。それらの空間複雑さは O(N) です。グループ軌跡の数 N≤1000。クラスタリング プロセスの時間計算量は ββ、空間計算量は ββ です。 β はクラスタリング軌跡の数です。 はクラスターの数、 はクラスタリング手法の反復数です。
図 6: 私たちのアプローチと最先端の手法の定性的な視覚化。青い線は観測された軌跡です。赤と緑の線は、予測された軌跡と実際の軌跡を示します。
図 7: CS を使用しない場合と使用する場合の定性的な視覚化。
図 6 は、SHENet およびその他の手法の定性的結果を示しています。対照的に、人が道端まで歩いて引き返すという非常に困難なケース (緑の曲線) では、他のすべての方法ではうまく処理できないのに、私たちが提案する SHENet ではまだ処理できることに驚いています。これは、特別に設計された歴史的グループ軌跡ライブラリ モジュールの役割によるものと考えられます。さらに、記憶ベースの方法 MANTRA [20] とは対照的に、私たちは個人だけでなくグループの軌跡を検索します。これはより汎用性が高く、より困難なシナリオにも適用できます。図 7 には、曲線平滑化 (CS) を使用した場合と使用した場合の YNet と SHENet の定性的な結果が含まれています。最初の行は、MSE 損失 を使用した結果を示します。ある程度のノイズを伴う過去の軌道 (突然の急な方向転換など) の影響を受け、YNet の予測軌道点は密集しており、明確な方向を提示できませんが、私たちの方法は過去のグループ軌道に基づいて潜在的な経路を提供できます。 2 つの予測は視覚的に異なりますが、数値誤差 (ADE/FDE) はほぼ同じです。対照的に、私たちが提案する CS 損失の定性的結果は、図 7 の 2 行目に示されています。提案された CS はランダム性と主観性の影響を大幅に軽減し、YNet と私たちの方法を通じて合理的な予測を生成することがわかります。
結論元のリンク: https://mp.weixin.qq.com/s/GE-t4LarwXJu2MC9njBInQ
以上が歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。