찾다
기술 주변기기일체 포함명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

최근에는 체화지능(embodied Intelligence) 방향으로 많은 진전이 있었습니다. Google의 RT-H부터 OpenAI와 Figure가 공동으로 제작한 Figure 01에 이르기까지 로봇은 더욱 상호 작용적이고 다양해지고 있습니다.

미래에 로봇이 사람들의 일상생활에서 보조자가 된다면 로봇이 어떤 작업을 수행할 수 있을 것으로 기대하시나요? 김이 모락모락 나는 손으로 끓인 커피를 만들고, 바탕 화면을 정리하고, 로맨틱한 데이트 준비까지 도와주는 칭화의 새로운 지능 구현 프레임워크인 'CoPa'는 단 하나의 명령으로 이러한 작업을 완료할 수 있습니다.

CoPa(Robotic Manipulation through Spatial Constraints of Parts)는 칭화대학교 로봇공학 연구팀이 Gao Yang 교수가 이끄는 최신 지능형 프레임워크입니다. 이 프레임워크는 다양한 시나리오에서 장거리 작업과 복잡한 3D 동작에 직면할 때 로봇의 일반화 능력을 처음으로 실현합니다.

명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

  • 논문 주소: https://arxiv.org/abs/2403.08248

  • 프로젝트 홈페이지: https://copa-2024.github.io/

대규모 필요로 인해 시각적 언어 모델(VLM)의 고유한 응용 프로그램인 CoPa는 특별한 교육 없이 개방형 시나리오에서 일반화할 수 있으며 복잡한 지침을 처리할 수 있습니다. CoPa의 가장 놀라운 점은 장면 속 물체의 물리적 특성에 대한 깊은 이해와 정확한 계획 및 조작 능력을 보여주는 능력입니다.

예를 들어, CoPa는 연구자들이 손으로 끓인 커피 한 잔을 만드는 데 도움을 줄 수 있습니다. 명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

이 작업에서 CoPa는 복잡한 탁상 디스플레이에서 각 개체의 역할을 이해할 수 있을 뿐만 아니라 정확한 제어를 통해 제어를 완료할 수 있습니다. 통제. 예를 들어, "주전자의 물을 깔때기에 붓는다"는 작업에서는 로봇이 주전자를 깔때기 위로 이동시킨 후, 물이 주전자 입구에서 깔때기로 흘러 들어갈 수 있도록 정확한 각도로 회전시킵니다.

CoPa는 로맨틱한 데이트도 신중하게 준비할 수 있습니다. 연구원들의 데이트 요구 사항을 이해한 후 CoPa는 그들이 아름다운 서양식 식탁을 차릴 수 있도록 도와주었습니다. 명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

CoPa는 사용자의 요구를 깊이 이해하면서도 물체를 정확하게 조작하는 능력도 보여줍니다. 예를 들어 '꽃병에 꽃 꽂기' 작업에서는 로봇이 먼저 꽃 줄기를 잡고 꽃병을 향할 때까지 회전시킨 뒤 마지막으로 꽂는다.

명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

방법 소개

알고리즘 흐름

대부분의 작업 작업은 물체를 잡는 단계와 작업을 완료하는 데 필요한 후속 작업의 두 단계로 나눌 수 있습니다. 예를 들어, 서랍을 열 때는 먼저 서랍 손잡이를 잡고 직선을 따라 서랍을 당겨 빼내야 합니다. 이를 바탕으로 연구진은 먼저 물체를 파는 로봇의 자세를 생성하는 '작업 중심 파악 모듈(Task-Oriented Grasping)'을 통해, 다음으로 '작업 관련 동작 계획'을 통해 두 단계를 설계했다. 모듈(Task-Aware) "Motion Planning)"은 잡은 후 작업을 완료하는 데 필요한 포즈를 생성합니다. 인접한 자세 간 로봇의 이동은 전통적인 경로 계획 알고리즘을 통해 달성될 수 있습니다.

명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

중요 부품 감지 모듈

연구원들은 대부분의 조작 작업에는 장면의 개체에 대한 자세한 "부분 수준 이해"가 필요하다는 사실을 관찰했습니다. 예를 들어, 칼로 자를 때는 칼날 대신 손잡이를 잡고, 안경을 쓸 때는 렌즈 대신 프레임을 잡습니다. 연구팀은 이러한 관찰을 바탕으로 현장에서 작업과 관련된 부분을 찾아내기 위해 '거친 부분부터 미세한 부분까지 접지 모듈'을 설계했습니다. 구체적으로 CoPa는 먼저 대략적인 객체 감지를 통해 장면에서 작업과 관련된 객체를 찾은 다음, 세밀한 부분 감지를 통해 이러한 객체에서 작업과 관련된 부분을 찾습니다.

명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

"작업 지향 그래빙 모듈"에서 CoPa는 먼저 중요한 부품 감지 모듈을 통해 그래빙 위치(예: 도구의 손잡이)를 찾습니다. 이 위치 정보는 GraspNet(할 수 있는 도구)을 필터링하는 데 사용됩니다. 가능한 모든 쥐는 자세의 장면) 모델을 생성한 다음 최종 쥐는 자세를 얻습니다.

작업 관련 모션 기획 모듈

시각 언어의 대형 모델이 로봇의 작동 작업을 돕기 위해 본 연구에서는 대형 모델이 언어로 추론할 수 있을 뿐만 아니라 로봇 작동을 용이하게 하는 인터페이스를 설계해야 합니다. 연구팀은 작업을 실행하는 동안 작업과 관련된 객체가 일반적으로 많은 공간적 기하학적 제약을 받는다는 사실을 발견했습니다. 예를 들어, 휴대폰을 충전할 때는 충전 헤드가 충전 포트를 향해야 하며, 병 뚜껑을 닫을 때는 병 입구에 캡을 똑바로 놓아야 합니다. 연구팀은 이를 바탕으로 시각적 언어 대형 모델과 로봇 사이의 가교로서 공간적 제약을 활용할 것을 제안했다. 구체적으로 CoPa는 먼저 대규모 시각적 언어 모델을 사용하여 작업 관련 개체가 작업을 완료할 때 충족해야 하는 공간 제약 조건을 생성한 다음 해결 모듈을 사용하여 이러한 제약 조건을 기반으로 로봇의 자세를 해결합니다.

명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

실험 결과

CoPa 역량 평가

CoPa는 실제 운영 작업에서 강력한 일반화 역량을 입증했습니다. CoPa는 시각적 언어의 대규모 모델에 내장된 상식적 지식을 사용함으로써 장면에 있는 객체의 물리적 특성을 깊이 이해하고 있습니다.

예를 들어, "망치 못 만들기" 작업에서 CoPa는 먼저 망치의 손잡이를 잡은 다음 망치 머리가 못을 향할 때까지 망치를 회전시킨 다음 마지막으로 아래쪽으로 망치질을 했습니다. 이 작업에는 망치 손잡이, 망치 표면 및 못 표면의 정확한 식별과 공간적 관계에 대한 완전한 이해가 필요했으며, 이는 장면에 있는 물체의 물리적 특성에 대한 CoPa의 심층적인 이해를 입증했습니다.

명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

"지우개를 서랍에 넣는 작업"에서 CoPa는 먼저 지우개의 위치를 ​​알아냈고, 그 후 지우개 부분이 종이에 싸여 있는 것을 발견하고 그 부분을 교묘하게 잡아서 확실하게 지웠는지 확인했습니다. 지우개는 얼룩지지 않을 것입니다.

명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

"숟가락을 컵에 넣기' 작업에서 CoPa는 먼저 숟가락의 손잡이를 잡고 수직 아래로 향하고 컵을 향하도록 회전시킨 다음 마지막으로 컵에 삽입하여 CoPa가 할 수 있음을 증명했습니다. 작업을 완료하기 위해 객체가 충족해야 하는 공간적 기하학적 제약을 쉽게 이해합니다.

명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

연구팀은 10가지 실제 작업에 대해 충분한 정량적 실험을 수행했습니다. 표 1에서 볼 수 있듯이 CoPa는 이러한 복잡한 작업에 대한 기본 방법뿐만 아니라 많은 절제 변형보다 훨씬 뛰어난 성능을 발휘합니다.

명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.

절제 실험

연구원들은 일련의 절제 실험을 통해 CoPa 프레임워크에서 기본 모델, 거친 부품 감지 및 공간 제한 생성이라는 세 가지 구성 요소의 중요성을 입증했습니다. 실험 결과를 위의 표 1에 나타내었다.

  • 기본 모델

표의 기초 절제 실험이 없는 CoPa는 CoPa에서 기본 모델의 사용을 제거하고 대신 감지 모델을 사용하여 물체를 찾고 규칙 기반 방법을 사용하여 공간 제약 조건을 생성합니다. 실험 결과에 따르면 이 절제 변형의 성공률은 매우 낮으며 이는 CoPa의 기본 모델에 포함된 풍부한 상식 지식의 중요한 역할을 입증합니다. 예를 들어, "Sweeping Nuts" 작업에서 절제 변형은 장면의 어떤 도구가 청소에 적합한지 알 수 없습니다.

  • 거친 부분부터 미세한 부분까지 감지

표의 CoPa w/o 거친 부분부터 미세한 부분까지 제거 실험은 CoPa 거친 부분부터 미세한 부분까지 감지 설계를 제거하고 대신 세밀한 분할을 직접 사용하여 개체를 찾습니다. 이 변형은 객체의 중요한 부분을 찾는 상대적으로 어려운 작업에서 성능을 크게 저하시킵니다. 예를 들어, "망치 못" 작업에서는 "거친 것부터 미세한 것까지" 디자인이 부족하여 망치 표면을 식별하기가 어렵습니다.

  • 공간 제약 생성

표의 CoPa w/o 제약 절제 실험은 CoPa의 공간 제약 생성 모듈을 제거하고 대신 대형 시각적 언어 모델에서 로봇의 특정 값을 직접 출력할 수 있도록 합니다. 타겟 포즈. 실험을 통해 현장 사진을 기반으로 로봇 타겟 포즈를 직접 출력하는 것은 매우 어렵다는 것을 보여줍니다. 예를 들어, "물 붓기" 작업에서는 주전자를 특정 각도로 기울여야 하는데 이 변형은 현재 로봇의 자세를 전혀 생성할 수 없습니다.

자세한 내용은 원문을 참고해주세요.

위 내용은 명령 하나만으로 커피를 만들고, 레드와인을 붓고, 못을 박는 등의 작업이 가능한 칭화의 스마트 코파가 출시됐다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
DSA如何弯道超车NVIDIA GPU?DSA如何弯道超车NVIDIA GPU?Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

百度文心一言全面向全社会开放,率先迈出重要一步百度文心一言全面向全社会开放,率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验Oct 11, 2023 am 11:21 AM

杭州第19届亚运会不仅是国际顶级体育盛会,更是一场精彩绝伦的中国科技盛宴。本届亚运会中,快手StreamLake与杭州电信深度合作,联合打造智慧观赛新体验,在击剑赛事的转播中,全面应用了快手StreamLake六自由度技术,其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示,依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网,通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频,

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!