北京大学とEVLOイノベーションチームは共同で、自動運転用の4次元時空事前トレーニングアルゴリズムであるDriveWorldを提案した。この方法では、事前トレーニングにワールド モデルを使用し、4 次元時空間モデリング用の記憶状態空間モデルを設計し、シーンの占有グリッドを予測することで自動運転が直面するランダムな不確実性と知識の不確実性を軽減します。この論文は CVPR 2024 に受理されました。
論文のタイトル: DriveWorld: 自動運転のための世界モデルによる 4D 事前トレーニング済みシーンの理解
論文のリンク: https://www.php.cn/link/293643def1ba1161bcdcfbfe434ab76d
1.
自動運転のシーン理解タスクには、シーンの認識や将来の変化の予測など、複数のレベルが含まれます。これらのレベルには、空間の 3 次元構造だけでなく、時間次元での動的な変化も含まれます。この複雑なシーンを理解するには、正確な意思決定を行うために、モデルが 4 次元の空間と時間の本質的な相関関係を捉えて理解できる必要があります。自然シーンの確率的性質、環境の局所的な観測可能性、およびさまざまな下流タスクの多様性により、4 次元の時空間表現を学習することは非常に困難です。事前トレーニングは、大量のデータから普遍的な表現を取得する上で重要な役割を果たし、普遍的な知識を備えた基本モデルの構築を可能にします。しかし、自動運転における 4 次元時空に関する事前トレーニング研究はまだ比較的少数です。
自動運転システムの設計と実装では、さまざまな不確実性に直面し、対処する必要があります。不確実性は、主に 2 つのカテゴリに分類されます: 偶然的な不確実性と認識的な不確実性。偶然の不確実性は、歩行者の突然の動きや車両の予期せぬ動作など、世界に固有のランダム性から発生します。認識論的不確実性は、オクルージョンやセンサーの限界による情報の欠如など、環境に関する不完全な知識から生じます。これらの不確実性に効果的に対処するために、自動運転システムは過去の経験を利用して起こり得る将来の状態を予測し、目に見えない領域について推論できなければなりません。この研究では、事前トレーニングされた 4 次元の時空間モデルを通じてこの課題に対処し、認識、予測、計画タスクにおける自動運転システムのパフォーマンスを向上させることを目的としています。
2. 方法
自動運転サラウンドカメラシステムによって観察された一連の T ビデオフレーム o1:T と、それらに対応する専門家の行動 a1:T および 3 次元占有グリッド ラベル y1:T について、ここで、3 次元占有ラスター ラベルは、3D LiDAR 点群と姿勢データを使用して取得できます。私たちは、過去のマルチビュー画像とアクションから現在および将来の 3D 占有グリッドを予測する世界モデルからコンパクトな BEV 表現を学習することを目指しています。
2.1 時系列確率モデル
モデルに 4 次元の空間と時間をモデル化する機能を与えるために、最初に 2 つの潜在的な変数 (h1:T、s1:T) を導入します。ここで、ht はタイム ステップ t、st におけるすべての履歴情報を含む履歴情報変数は、将来の状態を予測するモデルの鍵となるランダムな状態変数を表します。 ht は履歴情報 h1:t−1 とランダム状態 s1:t−1 を通じて更新されます。将来の状態を予測するために、リカレント状態空間モデル (RSSM) に従い、事後状態分布 q(st∣o≤t,a BEV 特徴の次元が高いことを考慮して、それを 1 次元ベクトル xt に変換し、(ht,at−1,xt) からガウス分布をサンプリングして事後状態分布を生成します: 観察された画像がない場合、モデルは履歴情報と予測されたアクションに基づいて以前の状態分布を導出します: 2.1.1 動的メッセージング 自動運転のシーン理解では、将来の状態を正確に予測するために、物体の動きを考慮することが重要です。この動的情報を捕捉するために、動的情報の伝播中に運動知覚を実現するための運動パラメータを導入することによって物体の運動をモデル化することを提案します。モーション認識レイヤー正規化 (MLN) を導入します。動きの属性には、速度 v と相対時間間隔 Δt が含まれます。 (v,Δt) は平坦化され、2 つの線形層 (ξ1,ξ2) を介してアフィン ベクトル γ と β に変換されます: γ=ξ1(v,Δt),β=ξ2(v,Δt)。 次に、アフィン変換が実行されて、st=γ⋅LN(st)+β として表される、運動知覚の基礎となる確率的状態が取得されます。車両が移動すると、決定論的な履歴状態 ht によって動的メモリ ライブラリ h1:t が構築されます。ダイナミック メモリ バンクを使用してクロスアテンション メカニズムの計算を実行することにより、決定論的な履歴状態 ht を取得できます。 2.1.2 空間情報伝達 自動運転のシーン理解では、動的変化情報に加えて、空間構造情報も同様に重要です。連続したシーン フレームには通常、わずかな変更しか含まれておらず、シーンの主要なコンテンツは多くの場合、道路、樹木、交通標識などの静的なオブジェクトで構成されているため、この情報を処理するときに、入力画像を直接変換することができます。これにより、重要な空間構造情報が失われます。 1 ~ T フレームからフレーム o' をランダムに選択し、その BEV 特徴 b' を使用して、空間知覚構造を記述する潜在静的表現 b^=zθ(b') を構築します。空間を意識した静的表現 b^ と動的に変化する動き表現 st を組み合わせて、周囲のシーンの包括的な表現を取得します。 2.2 事前トレーニング補助タスク 自動運転には、周囲環境を包括的に理解することが不可欠です。私たちは、車両の周囲の環境を記述するために、物理世界を 3 次元の占有グリッド構造としてモデル化することを提案します。 3 次元占有グリッド デコーダは y^t=lθ(mθ(h~t,st),b^) に設定されます。ここで、mθ は 1 次元特徴を BEV 次元に拡張するネットワークであり、lθ は次のように使用されます。占有グリッド 3D 畳み込みネットワークを予測します。この 4 次元占有グリッドの事前トレーニングでは、シーンの静的な構造を捉えるだけでなく、時間の経過に伴うシーンの動的な変化も理解できるため、自動運転システムにとってより豊かで動的な環境の理解を実現できます。 2.3 タスクプロンプトメカニズム 4 次元の時空間表現はワールドモデルによって設計された事前トレーニングタスクを通じて学習できますが、異なる下流タスクは異なる情報に焦点を当てます。この問題を軽減するために、数ショットの画像認識のためのセマンティック キューと、マルチタスク学習における視覚的な例に基づいたキューにヒントを得て、さまざまなタスクに特定のキューを提供し、タスク関連の抽出をガイドする「タスク ヒント」メカニズムが導入されました。特徴。異なるタスク間には意味的な相関関係があるため、大規模言語モデル gφ(⋅) (例: BERT、CLIP) を利用してこれらのタスク ヒントを構築します。たとえば、3 次元占有グリッド再構成タスクのタスク プロンプトは、現在のシーンにより重点を置き、「タスクは現在のシーンの 3 次元占有グリッドを予測することです」に設定されています。プロンプト ptext を gφ(⋅) に入力して、プロンプト エンコーディング gφ(ptext) を取得します。次に、qφ(gφ(ptext)) で示される BEV の次元に拡張され、学習された時空間特徴と統合されます。 2.4 事前トレーニング目的関数 DriveWorld の事前トレーニング目標には、事後状態分布と事前状態分布の差 (つまり、カルバック ライブラー (KL) 発散) を最小限に抑えること、および過去と過去の状態分布の間の差を最小限に抑えることが含まれます。将来の 3 次元占有グリッド (すなわち、クロスエントロピー損失 (CE)) およびアクション (すなわち、L1 損失) に関連する損失。このモデルを採用して、T タイムステップの入力を観察し、将来の 3 次元占有グリッドとアクションの L ステップを予測します。 3. 実験 3.1 実験設定 自動運転データセットについて nuScenes と OpenScenes で事前トレーニングし、nuScenes で微調整しました。マルチフレーム LiDAR 点群集約を使用して、高密度の 3D 占有グリッド ラベルを取得します。 3.2 実験結果 結果の一部をここに示します。詳細な結果については、論文を参照してください。 4. まとめ DriveWorld は、ワールド モデルに基づく 4 次元時空の事前トレーニングを通じて、自動運転システムの周囲環境の理解と予測能力を向上させ、自動運転が直面する不確実性を軽減します。 DriveWorld は、時空間モデリングのためのメモリ状態空間モデルを提案しました。これには、タイミングを意識した表現を学習するための動的メモリ ストレージ モジュールと、空間を意識した表現を学習するための静的シーン伝播モジュールが含まれています。モデルの適応性と柔軟性をさらに向上させるために、DriveWorld はタスク プロンプト メカニズムも導入しています。これにより、モデルは現在のタスク要件に応じてその表現を適応的に調整できるため、さまざまな自動運転タスクで最高のパフォーマンスを実現できます。 参考 [1]Chen Min、他、3D シーン再構築によるマルチカメラ統合事前トレーニング[J]、IEEE Robotics and Automation Letters、2024。 [2]Chen Min、他。 Occupancy-mae: マスクされた占有オートエンコーダを使用した自己教師付き事前トレーニング大規模 LIDAR 点群 [J]。IEEE Transactions on Intelligent Vehicles、2023 年。 EVOL イノベーション チームの紹介 Zhao Jian、中国電信人工インテリジェント研究所のマルチメディア認知学習研究所 (EVOL Lab) のインテリジェンス ディレクターおよび若手科学者、ノースウェスタン工科大学オプトエレクトロニクスおよびインテリジェンス研究所の研究員および博士指導者。シンガポール国立大学を卒業し、博士号を取得しました。研究対象には、マルチメディア分析、ローカル セキュリティ、およびインテリジェントな実装が含まれます。 T-PAMI×2 (IF: 24.314) と IJCV×3 (IF: 13.369) を含む、合計 60 以上の CCF-A 論文が公開されています。最初の発明者は 5 つの国内発明特許を承認しました。関連する技術成果は、Baidu、Ant Financial、Qihoo 360 を含むテクノロジー業界の大手企業 6 社によって適用され、大きな利益をもたらしています。中国科学技術協会と北京科学技術協会の「若手人材育成プロジェクト」に選出され、国家自然青少年科学基金など6つのプロジェクトを主催した。 Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023)、Wu Wenjun Artificial Intelligence Natural Science Award の最優秀賞 (2022 年 2 月 5 日)、シンガポールパターン認識機械知能協会 (PREMIA) Lee Hwee Kuan Award、およびACM Multimedia Paper Award の唯一の最優秀学生(最初の作品、1/208、CCF-A カンファレンス、2018 年)は、重要な国際科学技術イベントで 7 回優勝しました。 北京画像グラフィック協会の理事、国際的に有名なジャーナル「Artificial Intelligence Advances」および「IET Computer Vision」の編集委員、「Pattern Recognition Letters」および「Electronics」の特別号のゲスト編集者を務めました。 」、VALSE シニアフィールドチェアマン、および ACM Multimedia 2021 スコアラー。フォーラム会長、CICAI 2022/2023 エリア会長、CCBR 2024 フォーラム会長、中国人工知能協会/中国画像グラフィックス協会の上級会員、「チャレンジ」の審査員「Cup」大学生科学技術作品コンテスト、中国人工知能コンテスト専門委員会委員など GitHub ホームページ: https://zhaoj9014.github.io 大学ホームページ: https://www.php.cn/link/2e36742b377be90ffbf553692153d9a1 Jin Lei 、北京郵電大学特別准教授研究者、主な研究分野には、コンピュータ ビジョン、データ マイニング、パターン認識が含まれ、人間の姿勢推定、人間の行動認識、人体分析、その他の分野に関する詳細な研究が行われており、関連する成果はハイレベルの会議や雑誌で発表されています。 CVPR、AAAI、NIPS、ACMMM として出版されており、合計 40 以上の SCI/EI インデックス付き論文があり、そのうち 11 件のハイレベル論文が含まれており、その中には中国学士院の JCR エリア 1 の筆頭著者として掲載された論文も含まれます。 of Sciences (IEEE Transactions on MultiMedia)、CCF-A カンファレンス CVPR、ACMMM 論文、中国科学院 JCR Area 2 (センサー)、IEEE Sensor Journal) 論文など。中国国家自然科学財団青年基金を主催し、2つの国家重点研究開発プロジェクトと4つの中国自然科学財団プロジェクトに参加した。私たちは、トップカンファレンスを利用して ICCV2021/CVPR2023 ワークショップ (Anti-UAV Workshop & Challenge) を何度も開催してきました。全国大学バイオインターネット技術および応用「3 つの革新」コンペティション (北京郵電大学が認定するカテゴリー A コンペティション) で学生が優勝するよう指導します。 Min Cheng、北京大学コンピューターサイエンス学部出身、中国科学院コンピューター技術研究所特別研究助手 彼の主な研究方向には、自動運転、身体化された知能、および 3 つの分野が含まれます。次元再構成に関する研究結果は、CVPR、ICCV、ICRA、RAL などのハイレベルの会議や学術誌に掲載されており、CCF-A 会議の筆頭著者としての CVPR、トップのロボット工学会議 ICRA、権威あるロボット工学雑誌 RAL などが含まれます。 。数多くの国家的重要研究開発プロジェクトに参加。
p(st ∣ht− 1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),
ここで、 st は対角共分散を持つ正規分布としてパラメータ化され、初期分布は s1∽N(0,I) に設定されます。 (μϕ,σϕ) は、パラメーター化された事後状態分布を持つ多層パーセプトロンです。
p(st∣ht−1,st−1)∽N(μθ(ht,a^t− 1) ,σθ(ht,a^t−1)I),
ここで、(μθ,σθ) は事前状態分布をパラメータ化します。 ?? は、履歴情報 ht-1 とランダム状態 st-1 に基づいて、アクション a^t-1 を予測するために使用されるポリシー ネットワークです。
決定論的な歴史的状態は ht+1=fθ(ht,st) です。
以上がCVPR 2024 | 自動運転世界モデルの 4 次元時空事前トレーニングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

一个普通人用一台手机就能制作电影特效的时代已经来了。最近,一个名叫Simulon的3D技术公司发布了一系列特效视频,视频中的3D机器人与环境无缝融合,而且光影效果非常自然。呈现这些效果的APP也叫Simulon,它能让使用者通过手机摄像头的实时拍摄,直接渲染出CGI(计算机生成图像)特效,就跟打开美颜相机拍摄一样。在具体操作中,你要先上传一个3D模型(比如图中的机器人)。Simulon会将这个模型放置到你拍摄的现实世界中,并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
