歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！-AI-php.cn

ホームページ

テクノロジー周辺機器

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

王林

Oct 17, 2023 am 11:13 AM

知的ドライブ

軌道予測は過去 2 年間で脚光を浴びていますが、そのほとんどは車両の軌道予測の方向に焦点を当てています。今日、自動運転の中心は NeurIPS - SHENet 上の歩行者軌道予測のアルゴリズムを共有します。、これは制限されたシナリオで人間によって使用されます。移動パターンは通常、ある程度制限された法則に準拠します。この仮定に基づいて、SHENet は暗黙のシーンルールを学習することで人の将来の軌道を予測します。この記事は自動運転ハート様よりオリジナル記事として認定されました！

著者の個人的な理解

人間の動きのランダム性と主観性により、人の将来の軌道を予測することは、現在でも依然として困難な問題です。ただし、シーンの制約 (フロアプラン、道路、障害物など) と人間対人間、または人間対オブジェクトのインタラクティブ性により、制約のあるシーンでの人間の動きのパターンは、通常、ある程度限られた法則に従います。したがって、この場合、個人の軌跡もこれらの法則のいずれかに従う必要があります。言い換えれば、ある人のその後の軌跡は、他の人によってたどられた可能性が高いということです。この仮定に基づいて、この記事のアルゴリズム (SHENet) は、暗黙のシーンルールを学習することによって人の将来の軌道を予測します。具体的には、シーン内の人物や環境の過去のダイナミクスに内在する規則性をシーン履歴と呼びます。次に、シーン履歴情報は、歴史的なグループの軌跡と、個人と環境の間の相互作用の 2 つのカテゴリに分類されます。これら 2 種類の情報を軌道予測に活用するために、本論文では、シーン履歴をシンプルかつ効果的な方法で活用する新しいフレームワーク Scene History Mining Network (SHENet) を提案します。特に、この設計の 2 つのコンポーネントは、将来の経路の候補として代表的なグループの軌跡を抽出するために使用されるグループ軌跡ライブラリモジュールと、個人の過去の軌跡間の相互作用をモデル化するために使用されるクロスモーダル相互作用モジュールです。とその周囲の環境を考慮して軌道を改善します。また、SHENetでは、前述した人間の動きのランダム性や主観による真の軌道の不確実性を軽減するために、学習プロセスや評価指標に滑らかさを取り入れています。最後に、さまざまな実験データセットで検証し、SOTA 手法と比較して優れたパフォーマンスを実証しました。

はじめに

Human Trajectory Prediction (HTP) は、ビデオクリップから対象者の将来の進路を予測することを目的としています。これは、車両が歩行者の状態を事前に感知し、衝突の可能性を回避できるため、スマート交通にとって非常に重要です。 HTP 機能を備えた監視システムは、警備員が容疑者の逃走経路を予測するのに役立ちます。近年多くの研究が行われていますが、主にこのタスクの 2 つの課題、つまり人間の動きのランダム性と主観性のため、十分に信頼でき、現実世界のシナリオでの応用に一般化できるものはほとんどありません。ただし、制約のある現実世界のシナリオでは、その課題が絶対に解決できないわけではありません。図 1 に示すように、このシーンで以前にキャプチャされたビデオを考慮すると、人間の移動パターンは通常、このシーンの対象者が従ういくつかの基本法則に従うため、対象者の将来の軌跡 (赤いボックス) はより予測可能になります。したがって、軌道を予測するには、まずこれらのパターンを理解する必要があります。私たちは、これらの規則性が、歴史的な人間の軌跡 (図 1 左)、個人の過去の軌跡、周囲の環境、およびそれらの間の相互作用 (図 1 右) に暗黙的にコード化されており、これらをシーン履歴と呼ぶと主張します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 1: シーン履歴を利用する概略図: 人の軌跡を予測するための歴史的なグループの軌跡と個々の環境の相互作用。

私たちは歴史情報を 2 つのカテゴリに分類します: 歴史的グループ軌跡 (HGT) と個人と環境の相互作用 (ISI)。 HGT は、シーン内のすべての歴史的な軌跡のグループ表現を指します。 HGT を使用する理由は、シーン内に新しいターゲット人物がいるとすると、その人物の軌跡は、歴史的な軌跡の単一のインスタンスよりも、グループの軌跡の 1 つとの類似性、主観性、規則性が高くなる可能性が高いためです。前述のランダム性。ただし、グループの軌跡は個人の過去の状態や対応する環境とはあまり関連がなく、個人の将来の軌跡にも影響を与える可能性があります。 ISI は、コンテキスト情報を抽出することにより、履歴情報をより完全に活用する必要があります。既存の手法では、個人の過去の軌跡と歴史的軌跡の類似性が考慮されることはほとんどありません。ほとんどの試みは個人と環境の間の相互作用のみを調査しており、個人の軌跡、環境の意味情報、およびそれらの間の関係をモデル化することに多大な労力が費やされています。 MANTRA は再構成方法でトレーニングされたエンコーダーを使用して類似性をモデル化し、MemoNet は履歴軌跡の意図を保存することで類似性を簡素化しますが、どちらもグループレベルではなくインスタンスレベルで類似性の計算を実行するため、トレーニングされたユーザーの能力に影響を受けやすくなります。コーダー。上記の分析に基づいて、HTP に HGT と ISI を共同利用する、シンプルかつ効果的なフレームワーク、Scene History Mining Network (SHENet) を提案します。特に、このフレームワークは、(i) Group Trajectory Base (GTB) モジュール、および (ii) Cross-Modal Interaction (CMI) モジュールの 2 つの主要コンポーネントで構成されます。 GTB は、すべての過去の個別軌道から代表的なグループ軌道を構築し、将来の軌道予測のための候補経路を提供します。 CMI は、観察された個々の軌道と周囲の環境を個別にエンコードし、クロスモーダル変換器を使用してそれらの相互作用をモデル化し、検索された候補軌道を改良します。

さらに、上記の 2 つの特性 (つまり、ランダム性と主観性) の不確実性を軽減するために、トレーニングプロセスと現在の評価メトリクス、平均および最終変位誤差 (つまり、ADE と最終変位誤差) に曲線を導入します。 FDE) 平滑化 (CS)。これにより、2 つの新しいインジケーター CS-ADE および CS-FDE が得られます。さらに、HTP 研究の発展を促進するために、PAV と呼ばれるさまざまな運動パターンを含む新しい挑戦的なデータセットを収集しました。このデータセットは、MOT15 データセットから固定カメラビューと複雑な人間の動きを含むビデオを選択することによって取得されます。

この研究の貢献は次のように要約できます: 1) HTP の個々の軌跡を検索するためにグループ履歴を導入します。 2) 我々は、HTP のための 2 種類のシーン履歴 (つまり、歴史的なグループの軌跡と個人と環境の相互作用) を共同利用する、シンプルかつ効果的なフレームワーク SHENet を提案します。 3) 新しい挑戦的なデータセット PAV を構築しました; さらに、人間の移動パターンのランダム性と主観性を考慮して、より優れたベースライン HTTP パフォーマンスを達成するために、新しい損失関数と 2 つの新しい指標が提案されています。 4) SHENet の優れたパフォーマンスと各コンポーネントの有効性を実証するために、ETH、UCY、および PAV について包括的な実験を実施しました。

方法

全体の紹介

提案されたシーン履歴マイニングネットワーク (SHENet) のアーキテクチャを図 2 に示します。これは 2 つの主要コンポーネントで構成されます。軌道ライブラリモジュール (GTB) とクロスモーダルインタラクションモジュール (CMI)。形式的には、シーンの観察ビデオ内のすべての軌跡、シーン画像、および最後のタイムステップでの対象人物の過去の軌跡が与えられるとします。 p はタイムステップ t における人の位置を表します。SHENet では、可能な限り真の軌跡に近づくように、次のフレームでの歩行者の将来の位置を予測する必要があります。提案された GTB は、最初にを代表的なグループ軌道に圧縮します。次に、観測された軌道をキーとして使用して、最も近い代表グループの軌道を将来の軌道の候補として検索します。同時に、過去の軌跡とシーンの画像がそれぞれ軌跡エンコーダとシーンエンコーダに送信され、それぞれ軌跡特徴とシーン特徴が生成されます。エンコードされた特徴はクロスモーダルトランスフォーマーに入力され、グラウンドトゥルースの軌道からオフセットが学習されます。をに加算すると、最終的な予測が得られます。トレーニング段階中に、までの距離がしきい値よりも大きい場合、人の軌跡 (つまり、と ) が軌跡ライブラリに追加されます。トレーニングが完了すると、バンクは推論用に固定されます。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 2: SHENet のアーキテクチャは、グループ軌跡ライブラリモジュール (GTB) とクロスモーダルインタラクションモジュール (CMI) の 2 つのコンポーネントで構成されています。 GTB は、すべての履歴軌跡を代表的なグループ軌跡のセットにクラスタリングし、最終的な軌跡予測の候補を提供します。 GTBはトレーニングフェーズにおいて、予測軌跡の誤差に基づいて対象者の軌跡をグループ軌跡ライブラリに組み込むことで表現能力を拡張します。 CMIは、対象人物の過去の軌跡と観察されたシーンをそれぞれ特徴抽出のための軌跡エンコーダとシーンエンコーダの入力として取り、クロスモーダルコンバータとリファインメントを通じて過去の軌跡とその周囲環境との相互作用を効果的にモデル化します。候補軌道を提供するために実行されます。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 3: クロスモーダル変圧器の図。軌跡特徴とシーン特徴はクロスモーダル変換器に入力され、探索軌跡とグラウンドトゥルース軌跡の間のオフセットが学習されます。

グループ軌跡ライブラリモジュール

グループ軌跡ライブラリモジュール (GTB) は、シーン内に代表的なグループ軌跡を構築するために使用されます。 GTB のコア機能は、バンクの初期化、軌道検索、軌道更新です。

軌道ライブラリの初期化 記録された多数の軌道の冗長性により、それらを単に使用するのではなく、疎な代表的な軌道のセットを次のように生成します。軌跡ライブラリの初期値。具体的には、トレーニングデータ内の軌跡をとして表し、各を観察された軌跡と将来の軌跡のペアに分割します。これにより、は、観測セットと対応する将来セットに分割されます。次に、、の各軌跡ペア間のユークリッド距離を計算し、K-medoids クラスタリングアルゴリズムを通じて軌跡クラスタを取得します。の初期メンバーシップは、同じクラスターに属する軌跡の平均です (アルゴリズム 1、ステップ 1 を参照)。の各軌跡は、人々のグループの移動パターンを表します。

軌跡の検索と更新 グループ軌跡ライブラリでは、各軌跡を過去と未来のペアとして表示できます。数値的には、、ここでは過去の軌跡と未来の軌跡の組み合わせを表し、は内の過去と未来のペアの数です。軌跡が与えられた場合、観測されたをキーとして使用して、の過去の軌跡との類似性スコアを計算し、代表的なセックス軌跡を見つけます。は、最大の類似性に基づいてスコア付けされます (アルゴリズム 1、ステップ 2 を参照)。類似度関数は、代表的な軌道

にオフセット歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

(式 2 を参照) を追加することにより、次のように表すことができます。観測者の予測軌道

を取得します (図 2 を参照)。ほとんどの場合、初期軌道ライブラリはうまく機能しますが、ライブラリ (アルゴリズム 1、ステップ 3 を参照) の一般化を改善するために、距離に基づいてを更新するかどうかを決定します。閾値 θ 。

クロスモーダル相互作用モジュール

このモジュールは、個人の過去の軌跡と環境情報の間の相互作用に焦点を当てています。これは、人間の動きとシーン情報をそれぞれ学習する 2 つのシングルモーダルエンコーダーと、それらの相互作用をモデル化するクロスモーダルトランスフォーマーで構成されます。

軌道エンコーダ 軌道エンコーダは、セルフアテンション (SA) を持つ Transformer ネットワークのマルチヘッドアテンション構造を使用します。層。 SA レイヤーは、さまざまなタイムステップで人間の動きをのサイズでキャプチャし、次元からまでの動きの特徴を投影します。ここで、はtrajectory エンコーダの埋め込み次元。したがって、軌道エンコーダを使用して人間の動きの表現を取得します。

シーンエンコーダ 事前学習済みの Swin Transformer は特徴表現において魅力的なパフォーマンスを備えているため、これをシーンエンコーダとして採用します。サイズのシーンの意味論的特徴を抽出します。ここで、 (事前トレーニングされたシーンエンコーダーの ) は、人や道路などの意味論的クラスの数です。 ## とは空間解像度です。後続のモジュールが動き表現と環境情報を簡単に融合できるようにするために、意味論的特徴をサイズ () から () に再変更し、多層の知覚層を通じて次元 () から () に投影します。その結果、シーンエンコーダを使用してシーン表現を取得します。

クロスモーダルトランスフォーマーシングルモーダルエンコーダーは、独自のモダリティから特徴を抽出し、人間の動きと環境情報の間の相互作用を無視します。層を備えたクロスモーダル変換器は、この相互作用を学習することで候補軌道を改良することを目的としています (セクション 3.2 を参照)。環境情報に制約される重要な人間の動作を捉えるストリームと、人間の動作に関連する環境情報を抽出するストリームの2ストリーム構造を採用しています。クロスアテンション (CA) レイヤーとセルフアテンション (SA) レイヤーは、クロスモーダルコンバーターの主要コンポーネントです (図 3 を参照)。環境の影響を受ける重要な人体の動きを捕捉し、動きに関連した環境情報を取得するために、CA 層は 1 つのモダリティをクエリとして扱い、もう 1 つのモダリティを 2 つのモダリティと相互作用するキーと値として扱います。 SA レイヤーは、内部接続の改善を促進し、シーンに制約されたモーションまたはモーション関連の環境情報内の要素 (クエリ) と他の要素 (キー) の間の類似性を計算するために使用されます。したがって、クロスモーダルトランスフォーマー () を介してマルチモーダル表現を取得します。探索軌跡と真の軌跡の間のオフセットを予測するには、最後の要素 (LE) ## を取得します。 ## およびグローバルプーリング層 (GPL) の後の出力。オフセットは次のように表すことができます:

ここで [; ] はベクトル連結を表し、MLP は多層知覚層です。歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

SHENet の全体的なフレームワークをエンドツーエンドでトレーニングして、目的関数を最小化します。トレーニング中、シーンエンコーダは ADE20K で事前トレーニングされているため、セグメンテーション部分をフリーズし、MLP ヘッドのパラメータを更新します (セクション 3.3 を参照)。既存の作業に従って、ETH/UCY データセットの予測軌跡とグラウンドトゥルース軌跡の間の平均二乗誤差 (MSE) を計算します:

。

より困難な PAV データセットでは、カーブスムージング (CS) 回帰損失を使用します。これは、個々のバイアスの影響を軽減するのに役立ちます。軌道を平滑化した後に MSE を計算します。 CS 損失は次のように表すことができます。

ここで、CS は曲線平滑化関数 [2] を表します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！実験

実験設定

データセット

ETH、UCY、PAV、Stanford Drone Dataset (SDD) データセットでの手法を評価します。シングルモーダル手法では軌跡データのみに焦点を当てますが、マルチモーダル手法ではシーン情報を考慮する必要があります。 ETH/UCY データセットと比較すると、PAV は PETS09-S2L1 (PETS)、ADL-Rundle-6 (ADL)、Venice-2 (VENICE) などの複数のモーションモードでより困難です。これらのデータは次のとおりです。静的カメラからキャプチャされ、HTP タスクに十分な軌道を提供します。ビデオをトレーニングセット (80%) とテストセット (20%) に分割し、PETS/ADL/VENICE にはそれぞれ 2,370/2,935/4,200 のトレーニングシーケンスと 664/306/650 のテストシーケンスが含まれています。さまざまな方法の長期予測結果を比較できるように、

観測フレームを使用して将来の

フレームを予測します。

ETH/UCY や PAV データセットとは異なり、SDD は大学キャンパスの鳥瞰図からキャプチャされた大規模なデータセットです。これは、対話する複数のエージェント (歩行者、自転車、自動車など) とさまざまなシナリオ (歩道や交差点など) で構成されます。前作に続き、過去 8 フレームを使用して未来の 12 フレームを予測します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 4: 提案されたメトリクス CS-ADE および CS-FDE の図。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 5: 曲線平滑化後のいくつかのサンプルの視覚化。

評価指標 ETHおよびUCYデータセットについては、HTPの標準指標である平均変位誤差(ADE)と最終変位誤差(FDE)を使用します。 ADE はすべてのタイムステップにおける予測軌道と真の軌道の間の平均誤差であり、FDE は最終タイムステップにおける予測軌道と真の軌道の間の誤差です。 PAV の軌道には多少のジッターがあります (急なターンなど)。したがって、合理的な予測では、従来の指標 ADE および FDE を使用した非現実的な予測とほぼ同じ誤差が生じる可能性があります (図 7(a) を参照)。軌道自体のパターンと形状に焦点を当て、ランダム性と主観性の影響を軽減するために、CS-ADE および CS-FDE である CS-Metric を提案します (図 4 を参照)。 CS-ADE は次のように計算されます:

ここで、CS は曲線平滑化関数であり、セクション 3.4 の Lcs と同じように定義されます。 CS-ADE と同様に、CS-FDE は軌道を滑らかにした後、最終的な変位誤差を計算します。滑らかな軌道に変換します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

実装詳細

SHENetでは、グループ軌跡ライブラリの初期サイズがに設定されています。軌跡エンコーダとシーンエンコーダの両方に 4 つのセルフアテンション (SA) 層があります。クロスモーダル Transformer には 6 つの SA レイヤーとクロスアテンション (CA) レイヤーがあります。すべての埋め込み寸法を 512 に設定します。軌跡エンコーダの場合、サイズ歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

(ETH/UCY では

、PAV では

) の人間の動き情報を学習します。シーンエンコーダーの場合、サイズ 150 × 56 × 56 のセマンティック特徴を出力します。サイズを150×56×56から150×3136に変更し、150×3136から150×512に投影します。 4 つの NVIDIA Quadro RTX 6000 GPU で 100 エポックのモデルをトレーニングし、1e − 5 の固定学習率で Adam オプティマイザーを使用します。アブレーション実験表 1 では、Group Trajectory Library (GTB) モジュールと軌跡 Encoder ( TE)、シーンエンコーダー (SE)、およびクロスモーダルインタラクション (CMI) モジュール。

GTB の影響

まず、GTB のパフォーマンスを調査します。 CMI (TE、SE、CMT) と比較して、GTB は PETS の FDE を 21.2% 改善します。これは大幅な改善であり、GTB の重要性を示しています。ただし、GTB (表 1 行 1) だけでは十分ではなく、パフォーマンスは CMI よりもわずかに劣ります。そこで、CMI モジュール内のさまざまな部品の役割を調査しました。

TE と SE の影響

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

TE と SE のパフォーマンスを評価するために、TE から抽出された軌跡の特徴と SE から抽出されたシーンの特徴を連結します (表 1 の 3 行目)。、より小さな動きで ADL と VENICE のパフォーマンスが向上します (TE 単独と比較して)。これは、軌道予測に環境情報を組み込むことで結果の精度が向上することを示しています。

CMT の効果表 1 の 3 行目と比較すると、CMT (表 1 の 4 行目) はモデルのパフォーマンスを大幅に向上させることができ、PETS 上で連結された TE と SE のパフォーマンスよりも優れており、ADE は 7.4% 向上していることに注目してください。 GTB 単独の場合、完全な CMI は ADE を平均 12.2% 改善します。

SOTA との比較

ETH/UCY データセット上の最先端のメソッドとモデルを比較します: SS-LSTM、Social-STGCN、MANTRA、AgentFormer、YNet。結果を表 2 にまとめます。私たちのモデルは平均 FDE を 0.39 から 0.36 に削減し、最先端の手法である YNet と比較して 7.7% 改善しました。特に、軌道が大きく動く場合、私たちのモデルは ETH に関する以前の手法を大幅に上回り、ADE と FDE をそれぞれ 12.8% と 15.3% 改善しました。

表 2: ETH/UCY データセットにおける最先端 (SOTA) メソッドの比較。 * は、単峰性アプローチよりも小さいセットを使用することを示します。上位 20 位の最高のものを使用して評価します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

表 3: PAV データセットの SOTA メソッドとの比較。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

長期予測におけるモデルのパフォーマンスを評価するために、軌道ごとに観測フレームを使用して PAV で実験を実施しました。個の将来のフレーム。表 3 は、以前の HTP メソッド (SS-LSTM、Social-STGCN、Next、MANTRA、YNet) とのパフォーマンスの比較を示しています。 YNet の最新の結果と比較すると、提案された SHENet CS-ADE と CS-FDE は、それぞれ平均 3.3% と 10.5% の改善を達成しています。 YNet は軌跡のヒートマップを予測するため、軌跡の動きが小さい場合 (VENICE など)、パフォーマンスが向上します。それにもかかわらず、私たちの方法は VENICE で依然として競争力があり、より大きな動きや交差を伴う PETS では他の方法よりも大幅に優れています。特に、私たちの方法は YNet と比較して PETS 上で CS-FDE を 16.2% 改善します。また、従来の ADE/FDE メトリクスでも大きな進歩を遂げました。

分析

距離閾値θ θは、軌道ライブラリの更新を決定するために使用されます。 θの代表的な値は、軌道長に基づいて設定されます。予測誤差の絶対値は、一般に、グラウンドトゥルースの軌跡がピクセル単位で長いほど大きくなります。ただし、それらの相対誤差は同等です。したがって、誤差が収束すると、θ はトレーニング誤差の 75% に設定されます。実験では、PETS では θ = 25、ADL では θ = 6 に設定しました。表 4 に示すように、「75% トレーニング誤差」は実験結果から得られます。

表 4: PAV データセットのさまざまなパラメーター θ の比較。結果は 3 つのケースの平均です。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

表 5: PAV データセット上のクラスター K の初期数の比較。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

K 中心点のクラスターの数 以下に示すように、初期クラスター K の異なる数を設定した場合の影響を研究しました。表 5 に示します。特に初期クラスター数が 24 ～ 36 の場合、クラスターの初期数は予測結果の影響を受けないことがわかります。したがって、実験では K を 32 に設定できます。

銀行の複雑さの分析 検索と更新の時間計算量はそれぞれ O(N) と O(1) です。それらの空間複雑さは O(N) です。グループ軌跡の数 N≤1000。クラスタリングプロセスの時間計算量は ββ、空間計算量は ββ です。 β はクラスタリング軌跡の数です。はクラスターの数、はクラスタリング手法の反復数です。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 6: 私たちのアプローチと最先端の手法の定性的な視覚化。青い線は観測された軌跡です。赤と緑の線は、予測された軌跡と実際の軌跡を示します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 7: CS を使用しない場合と使用する場合の定性的な視覚化。

定性的結果

図 6 は、SHENet およびその他の手法の定性的結果を示しています。対照的に、人が道端まで歩いて引き返すという非常に困難なケース (緑の曲線) では、他のすべての方法ではうまく処理できないのに、私たちが提案する SHENet ではまだ処理できることに驚いています。これは、特別に設計された歴史的グループ軌跡ライブラリモジュールの役割によるものと考えられます。さらに、記憶ベースの方法 MANTRA [20] とは対照的に、私たちは個人だけでなくグループの軌跡を検索します。これはより汎用性が高く、より困難なシナリオにも適用できます。図 7 には、曲線平滑化 (CS) を使用した場合と使用した場合の YNet と SHENet の定性的な結果が含まれています。最初の行は、MSE 損失を使用した結果を示します。ある程度のノイズを伴う過去の軌道 (突然の急な方向転換など) の影響を受け、YNet の予測軌道点は密集しており、明確な方向を提示できませんが、私たちの方法は過去のグループ軌道に基づいて潜在的な経路を提供できます。 2 つの予測は視覚的に異なりますが、数値誤差 (ADE/FDE) はほぼ同じです。対照的に、私たちが提案する CS 損失の定性的結果は、図 7 の 2 行目に示されています。提案された CS はランダム性と主観性の影響を大幅に軽減し、YNet と私たちの方法を通じて合理的な予測を生成することがわかります。

結論

この文書では、HTP シナリオの歴史を最大限に活用する新しいアプローチである SHENet を提案します。 SHENet には、すべての歴史的な軌跡に基づいてグループ軌跡ライブラリを構築し、ライブラリから観察された人物の代表的な軌跡を取得するための GTB モジュールが含まれており、この代表的な軌跡を洗練するための CMI モジュール (人間の動きと環境情報の間の相互作用) も含まれています。当社は HTP ベンチマークで SOTA パフォーマンスを達成しており、当社のアプローチは、困難なシナリオにおける大幅な改善と汎用性を実証しています。しかし、現在の枠組みでは、堤防の建設プロセスが人間の動きのみに焦点を当てているなど、まだ解明されていない部分がいくつかあります。今後の作業には、インタラクティブな情報 (人の動きやシーンの情報) を使用した軌跡ライブラリのさらなる探索が含まれます。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！元のリンク: https://mp.weixin.qq.com/s/GE-t4LarwXJu2MC9njBInQ

以上が歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ホットトピック

Gmailメールのログイン入り口はどこですか？

7465

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です