<section><blockquote data-author-name="" data-content-utf8-length="22" data-source-title="" data-type="2" data-url=""><section><section>80 多篇論文搞清楚「機器人+3D」研究進展。 </section></section></blockquote></section><section><br></section><section>前段時間,多家媒體報道稱,著名AI 學者、史丹佛大學教授李飛飛的創業公司World Labs 在短短三個月內已經完成了兩輪融資,其中最新一輪融資中籌到了約1 億美元,公司估值已超過10 億美元,成為新晉獨角獸。 </section><section><br></section><section>World Labs 的發展方向聚焦於「空間智能」,即開發能夠理解三維物理世界的模型,模擬物體的物理特性、空間位置和功能。李飛飛認為「空間智能」是AI 發展的關鍵一環,她的團隊正在史丹佛大學實驗室裡訓練電腦和機器人在三維世界中採取行動,例如使用大型語言模型讓一個機械手臂根據口頭指令執行開門、做三明治等任務。 (詳情請參見<a href="https://www.php.cn/link/7881f1e0495cfb89d108dae7db90f763" rel="nofollow" target="_blank">《李飛飛解讀創業方向「空間智能」,讓AI 真正理解世界》</a>)</section><section><img src="https://img.php.cn/upload/article/000/000/000/172379745543511.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section><em><sup>為了解釋「空間智能」這一概念,李飛飛展示了一張貓伸出爪子玻璃杯推向桌子邊緣的圖片。她表示,在一瞬間,人類大腦可以評估「這個玻璃杯的幾何形狀,它在三維空間中的位置,它與桌子、貓和所有其他東西的關係」,然後預測會發生什麼,並採取行動加以阻止。 </sup></em></section><section><br></section><section>其實,除了李飛飛,現在有很多研究團隊都在關注 3D 視覺 + 機器人這一方向。這些團隊認為,目前 AI 存在的許多限制都是因為模型缺乏對 3D 世界的深刻理解。如果要補全這一拼圖,勢必要在 3D 視覺方向投入更多的研究精力。此外,3D 視覺提供了對環境的深度感知和空間理解能力,這對於機器人在複雜三維世界中的導航、操作和決策至關重要。 </section><section><br></section><section>那麼,有沒有一份系統的研究資料可以供這一方向的研究者參考呢?本站最近找到了一份:</section><section><img src="https://img.php.cn/upload/article/000/000/000/172379745742884.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section>專案連結:https://github.com/zubair-irshad/Awesome-Robotics-3D</section><section><br></section><section>這個名叫「Awesome-Robotics-3D”的GitHub 儲存庫總共收集了80 多篇「3D 視覺+ 機器人」方向的論文,大部分論文都給出了相應的論文、專案、程式碼連結。 </section><section><img src="https://img.php.cn/upload/article/000/000/000/172379745994443.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section>這些論文可以分為以下幾個主題: </section><section><br></section><ul> <li><section>策略學習</section></li> <li> <section></section>模擬、資料集和基準</li> <li><section></section></li> <li> <section>這些論文既有arXiv 預印本,也有RSS、ICRA、IROS、CORL 等機器人學頂會以及CVPR、ICLR、ICML 等電腦視覺、機器學習領域的頂會論文,含金量非常高。</section><section><br></section><section>每部分的论文列表如下:</section><section><br></section><section>1、策略学习</section><section><img src="https://img.php.cn/upload/article/000/000/000/172379746152820.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section><img src="https://img.php.cn/upload/article/000/000/000/172379746359812.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section>2、预训练</section><section><img src="https://img.php.cn/upload/article/000/000/000/172379746585768.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section>3、VLM 和LLM</section><section><img src="https://img.php.cn/upload/article/000/000/000/172379746748563.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section><img src="https://img.php.cn/upload/article/000/000/000/172379746937145.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section> <section>4、表示</section><section><img src="https://img.php.cn/upload/article/000/000/000/172379747117658.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section><img src="https://img.php.cn/upload/article/000/000/000/172379747397501.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section>5、模拟,数据集和基准</section><section><img src="https://img.php.cn/upload/article/000/000/000/172379747516373.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section><img src="https://img.php.cn/upload/article/000/000/000/172379747777731.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><section>此外,作者还给出了两篇可以参考的综述论文: </section><section><br></section><ul> <li><section>论文1:When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models</section></li> <li><section>论文链接:https://arxiv.org/pdf/2405.10255</section></li> </ul> <section><br> </section><section>论文介绍:这篇论文全面概述了使LLM 能够处理、理解和生成3D 数据的方法论,并强调了LLM 的独特优势,例如in-context learning、step-by-step 推理、开放词汇能力和广泛的世界知识,这些优势有望显着推进具身人工智能系统中的空间理解和交互。研究涵盖了从点云到神经辐射场(NeRF)的各种3D 数据表示方法,并考察了它们与LLM 的集成,用于3D 场景理解、描述生成、问答和对话,以及基于LLM 的代理进行空间推理、规划和导航等任务。此外,论文还简要回顾了其他将 3D 和语言进行整合的方法。通过对这些研究的元分析,论文揭示了取得的显着进展,并强调了开发新方法以充分利用 3D-LLM 潜力的必要性。 </section><section><br></section><section>为了支持这项调查,作者建立了一个项目页面,整理和列出了与主题相关的论文:https://github.com/ActiveVisionLab/Awesome-LLM-3D</section><section><img src="https://img.php.cn/upload/article/000/000/000/172379747979715.png" alt="想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單"></section><ul> <li> <section>论文2:A Comprehensive Study of 3-D Vision-Based Robot Manipulation</section> </li> <li><section>论文链接:https://ieeexplore.ieee.org/document/9541299</section></li> </ul> <section><br></section><section>论文介绍:这篇文章全面分析了3D 视觉在机器人操控领域的最新进展,特别是在模仿人类智能和赋予机器人更灵活工作能力方面。文章讨论了传统机器人操控通常依赖的 2D 视觉系统及其局限性,指出了 3D 视觉系统在开放世界中面临的挑战,如在杂乱背景下的一般物体识别、遮挡估计以及类似人类的灵活操控。文章涵盖了 3D 数据获取与表示、机器人视觉校准、3D 物体检测 / 识别、6 自由度姿态估计、抓取估计和运动规划等关键技术。此外,还介绍了一些公开数据集、评估标准、比较分析以及当前面临的挑战。最后,文章探讨了机器人操控的相关应用领域,并对未来的研究方向和开放问题进行了讨论。 </section><section><br></section><section>感兴趣的读者可以点击项目链接开始学习。 </section> </li> </ul>