不需要人工标注,只需要一次训练,就能让3D模型理解语言并识别未标注过的类别。
3D模型分割现在也解放双手了!
香港大学和字节梦幻联动,搞出了个新方法:
不需要人工标注,只需要一次训练,就能让3D模型理解语言并识别未标注过的类别。
比如看下面这个例子,未标注的(unannotated)黑板和显示器,3D模型经过这个方法训练之后,就能很快“抓准”目标进行划分。
再比如,给它分别输入sofa、cough这类同义词刁难一下,也是轻松拿下。
甚至连浴室(bathroom)这类抽象分类也能搞定。
这个新方法名叫PLA (Point-Language Assocation),是一种结合点云(目标表面特性的海量点集合)和⾃然语⾔的方法。
目前,该论文已经被CVPR 2023接收。
不过话说回来,不需要⼈⼯标注,只进行⼀次训练,同义词抽象分类也能识别……这可是重重buff叠加。
要知道一般方法使用的3D数据和⾃然语⾔并不能够直接从⽹上免费获取,往往需要昂贵的⼈⼯标注,而且一般方法也⽆法根据单词之间的语义联系识别新类别。
那PLA又是如何做到的呢?一起来看~
具体原理
其实说白了,要成功实现3D模型划分,最重要的一步就是让3D数据也能理解⾃然语⾔。
专业点来说,就是要给3D点云引⼊⾃然语⾔的描述。
那怎么引入?
鉴于目前2D图像的划分已经有比较成功的方法,研究团队决定从2D图像入手。
首先,把3D点云转换为对应的2D图像,然后作为2D多模态⼤模型的输⼊,并从中提取对于图像的语⾔描述。
紧接着,利⽤图⽚和点云之间的投影关系,图⽚的语言描述也就自然能够关联到3D点云数据了。
并且,为了兼容不同粒度的3D物体,PLA还提出了多粒度的3D点云-⾃然语⾔关联方法。
对于整个3D场景⽽⾔,PLA将场景对应所有图⽚提取的语⾔描述进⾏总结,并⽤这个总结后的语⾔关联整个3D场景。
对于每个图像视⻆对应的部分3D场景⽽⾔,PLA直接利⽤图像作为桥梁来关联对应的3D点云和语⾔。
对于更加细粒度的3D物体⽽⾔,PLA通过⽐较不同图像对应点云之间的交集和并集,以及语⾔描述部分的交集和并集,提供了⼀种更加细粒度的3D-语⾔关联⽅式。
这样一来,研究团队就能够得到成对的3D点云-⾃然语⾔,这一把直接解决了人工标注的问题。
PLA用得到的“3D点云-⾃然语⾔”对和已有的数据集监督来让3D模型理解检测和分割问题定义。
具体来说,就是利⽤对⽐学习来拉近每对3D点云-⾃然语⾔在特征空间的距离,并推远不匹配的3D点云和⾃然语⾔描述。
讲了这么多原理,那PLA在具体分割任务中表现到底如何?
语义分割任务超越基准65%
研究⼈员通过测试3D开放世界模型在未标注类别的性能作为主要衡量标准。
先是在ScanNet和S3DIS的语义分割任务上,PLA超过以前的基线⽅法35%~65%。
在实例分割任务中,PLA也有提升,对比之前的方法,PLA提升幅度15%~50%不等。
研究团队
这个项目的研究团队来自香港大学的CVMI Lab和字节跳动。
CVMI Lab是香港大学的一个人工智能实验室,实验室2020年2月1日成立。
研究范围涵盖了计算机视觉与模式识别,机器学习/深度学习,图像/视频内容分析以及基于机器智能的工业大数据分析。
论⽂地址:https://arxiv.org/pdf/2211.16312.pdf
项⽬主⻚:https://github.com/CVMI-Lab/PLA
以上是3D模型分割新方法解放双手!不用人工标注,只需一次训练,未标注类别也能识别|港大&字节的详细内容。更多信息请关注PHP中文网其他相关文章!

Openai推出了强大的GPT-4.1系列:一个专为现实世界应用设计的三种高级语言模型家族。 这种巨大的飞跃提供了更快的响应时间,增强的理解和大幅降低了成本

大型语言模型(LLM)已成为现代AI应用不可或缺的一部分,但是评估其功能仍然是一个挑战。长期以来,传统的基准一直是测量LLM性能的标准,但随着RA

AI聊天机器人变得越来越聪明,并且越来越复杂。 Google DeepMind的最新实验模型Gemini 2.5 Pro代表了AI Chatbot功能中的一个重大飞跃。具有改进的CONTEX

Openai的O3:推理和多模式能力的飞跃 OpenAI的O3模型代表了AI推理能力的重大进步。 O3专为复杂解决问题,分析任务和自主工具的使用而设计

Canva Create 2025:用Canva Code和AI革新设计 Canva的Create 2025活动推出了重大进步,将其平台扩展到AI驱动的工具,企业解决方案,尤其是开发人员工具。 关键更新包括ENH

简单任务的应用程序跃跳时的时代即将结束。 想象一下,通过一次对话预订假期,或者自动进行账单。 这是AI代理商的力量 - 您期望您需求的新数字助手,而不是JUS

Openai的开创性O3和O4-Mini推理模型:向Agi迈出的巨大飞跃 在GPT 4.1 Family发射之后,Openai在AI:O3和O4-Mini推理模型中推出了其最新进步。 这些不仅仅是AI模型;这

利用骆驼4和自动基因的力量建立智能AI代理 Meta的Llama 4模型家族正在改变AI景观,提供了本地的多模式能力来彻底改变智能系统的发展。 本文探索


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

禅工作室 13.0.1
功能强大的PHP集成开发环境

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

记事本++7.3.1
好用且免费的代码编辑器