搜索
首页科技周边人工智能3D模型分割新方法解放双手!不用人工标注,只需一次训练,未标注类别也能识别|港大&字节

不需要人工标注,只需要一次训练,就能让3D模型理解语言并识别未标注过的类别。

3D模型分割现在也解放双手了!

香港大学和字节梦幻联动,搞出了个新方法:

不需要人工标注,只需要一次训练,就能让3D模型理解语言并识别未标注过的类别。

比如看下面这个例子,未标注的(unannotated)黑板和显示器,3D模型经过这个方法训练之后,就能很快“抓准”目标进行划分。

图片

再比如,给它分别输入sofa、cough这类同义词刁难一下,也是轻松拿下。

图片

甚至连浴室(bathroom)这类抽象分类也能搞定。

图片

这个新方法名叫PLA (Point-Language Assocation),是一种结合点云(目标表面特性的海量点集合)和⾃然语⾔的方法。

目前,该论文已经被CVPR 2023接收。

图片

不过话说回来,不需要⼈⼯标注,只进行⼀次训练,同义词抽象分类也能识别……这可是重重buff叠加。

要知道一般方法使用的3D数据和⾃然语⾔并不能够直接从⽹上免费获取,往往需要昂贵的⼈⼯标注,而且一般方法也⽆法根据单词之间的语义联系识别新类别。

那PLA又是如何做到的呢?一起来看~

具体原理

其实说白了,要成功实现3D模型划分,最重要的一步就是让3D数据也能理解⾃然语⾔。

专业点来说,就是要给3D点云引⼊⾃然语⾔的描述。

那怎么引入?

鉴于目前2D图像的划分已经有比较成功的方法,研究团队决定从2D图像入手。

首先,把3D点云转换为对应的2D图像,然后作为2D多模态⼤模型的输⼊,并从中提取对于图像的语⾔描述。

图片

紧接着,利⽤图⽚和点云之间的投影关系,图⽚的语言描述也就自然能够关联到3D点云数据了。

并且,为了兼容不同粒度的3D物体,PLA还提出了多粒度的3D点云-⾃然语⾔关联方法。

对于整个3D场景⽽⾔,PLA将场景对应所有图⽚提取的语⾔描述进⾏总结,并⽤这个总结后的语⾔关联整个3D场景。

对于每个图像视⻆对应的部分3D场景⽽⾔,PLA直接利⽤图像作为桥梁来关联对应的3D点云和语⾔。

对于更加细粒度的3D物体⽽⾔,PLA通过⽐较不同图像对应点云之间的交集和并集,以及语⾔描述部分的交集和并集,提供了⼀种更加细粒度的3D-语⾔关联⽅式。

这样一来,研究团队就能够得到成对的3D点云-⾃然语⾔,这一把直接解决了人工标注的问题。

PLA用得到的“3D点云-⾃然语⾔”对和已有的数据集监督来让3D模型理解检测和分割问题定义。

具体来说,就是利⽤对⽐学习来拉近每对3D点云-⾃然语⾔在特征空间的距离,并推远不匹配的3D点云和⾃然语⾔描述。

图片

讲了这么多原理,那PLA在具体分割任务中表现到底如何?

语义分割任务超越基准65%

研究⼈员通过测试3D开放世界模型在未标注类别的性能作为主要衡量标准。

先是在ScanNet和S3DIS的语义分割任务上,PLA超过以前的基线⽅法35%~65%。

图片

在实例分割任务中,PLA也有提升,对比之前的方法,PLA提升幅度15%~50%不等。

图片

研究团队

这个项目的研究团队来自香港大学的CVMI Lab和字节跳动。

CVMI Lab是香港大学的一个人工智能实验室,实验室2020年2月1日成立。

研究范围涵盖了计算机视觉与模式识别,机器学习/深度学习,图像/视频内容分析以及基于机器智能的工业大数据分析。

图片

论⽂地址:​​https://arxiv.org/pdf/2211.16312.pdf​​​
项⽬主⻚:​​​https://github.com/CVMI-Lab/PLA​​

以上是3D模型分割新方法解放双手!不用人工标注,只需一次训练,未标注类别也能识别|港大&字节的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
所有有关打开AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有关打开AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了强大的GPT-4.1系列:一个专为现实世界应用设计的三种高级语言模型家族。 这种巨大的飞跃提供了更快的响应时间,增强的理解和大幅降低了成本

什么是LLM基准?什么是LLM基准?Apr 26, 2025 am 10:13 AM

大型语言模型(LLM)已成为现代AI应用不可或缺的一部分,但是评估其功能仍然是一个挑战。长期以来,传统的基准一直是测量LLM性能的标准,但随着RA

Gemini 2.5 Pro的7个任务比任何其他聊天机器人都更好!Gemini 2.5 Pro的7个任务比任何其他聊天机器人都更好!Apr 26, 2025 am 10:00 AM

AI聊天机器人变得越来越聪明,并且越来越复杂。 Google DeepMind的最新实验模型Gemini 2.5 Pro代表了AI Chatbot功能中的一个重大飞跃。具有改进的CONTEX

6 O3提示您今天必须尝试 - 分析Vidhya6 O3提示您今天必须尝试 - 分析VidhyaApr 26, 2025 am 09:56 AM

Openai的O3:推理和多模式能力的飞跃 OpenAI的O3模型代表了AI推理能力的重大进步。 O3专为复杂解决问题,分析任务和自主工具的使用而设计

我尝试了Canva代码,并在此处进行了。我尝试了Canva代码,并在此处进行了。Apr 26, 2025 am 09:53 AM

Canva Create 2025:用Canva Code和AI革新设计 Canva的Create 2025活动推出了重大进步,将其平台扩展到AI驱动的工具,企业解决方案,尤其是开发人员工具。 关键更新包括ENH

AI聊天机器人用于任务:AI代理如何悄悄替换应用程序AI聊天机器人用于任务:AI代理如何悄悄替换应用程序Apr 26, 2025 am 09:50 AM

简单任务的应用程序跃跳时的时代即将结束。 想象一下,通过一次对话预订假期,或者自动进行账单。 这是AI代理商的力量 - 您期望您需求的新数字助手,而不是JUS

O3和O4-Mini:Openai最先进的推理模型O3和O4-Mini:Openai最先进的推理模型Apr 26, 2025 am 09:46 AM

Openai的开创性O3和O4-Mini推理模型:向Agi迈出的巨大飞跃 在GPT 4.1 Family发射之后,Openai在AI:O3和O4-Mini推理模型中推出了其最新进步。 这些不仅仅是AI模型;这

用Llama 4和Autogen建立AI代理用Llama 4和Autogen建立AI代理Apr 26, 2025 am 09:44 AM

利用骆驼4和自动基因的力量建立智能AI代理 Meta的Llama 4模型家族正在改变AI景观,提供了本地的多模式能力来彻底改变智能系统的发展。 本文探索

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器