찾다
기술 주변기기일체 포함딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.

로봇공학이 자연어 처리(NLP), 비전 및 기타 인공 지능 분야에 비해 훨씬 뒤처지는 이유는 무엇입니까? 무엇보다도 데이터 부족이 가장 큰 이유입니다. 이 문제를 해결하기 위해 Google DeepMind 및 기타 기관에서는 개방형 X-Embodiment 데이터 세트를 출시하고 보다 강력한 RT-X 모델 학습에 성공했습니다

딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.
대형 모델의 지속적인 혁신 2023년에는 연구 대형 모델을 두뇌로 활용해 작업을 보조하는 지능형 로봇 구현도 빠르게 발전하고 있다.

2달 전 Google DeepMind는 로봇을 제어하기 위한 최초의 VLA(Vision-Language-Action) 모델인 RT-2를 출시했습니다. 이 모델을 통해 로봇은 복잡한 인간 지시를 해석할 수 있을 뿐만 아니라 앞에 있는 물체를 이해하고(물체가 이전에 본 적이 없더라도) 지시에 따라 조치를 취할 수 있습니다. 예를 들어, 로봇에게 테이블 위의 "멸종 동물"을 집어 올리라고 요청합니다. 앞에 있는 공룡 인형을 잡아요.

딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.

당시 Google 경영진은 RT-2가 로봇 제작 및 프로그래밍 방식에 있어서 큰 도약이라고 말했습니다. "이번 변화로 인해 우리는 전체 연구 계획을 다시 생각해야 했습니다."

더 놀라운 것은 두 달이 조금 넘었는데 딥마인드의 로봇 모델이 다시 개선되어 순식간에 3배로 늘어났다는 것입니다.

이것은 어떻게 달성됩니까?

우리는 로봇이 일반적으로 한 가지 일을 하는 데 매우 전문적이지만 일반적인 능력이 좋지 않다는 것을 알고 있습니다. 일반적으로 각 작업, 로봇, 환경에 대해 모델을 훈련해야 합니다. 변수를 변경하려면 처음부터 다시 시작해야 하는 경우가 많습니다. 하지만 다양한 로봇공학 분야의 지식을 결합하여 범용 로봇을 훈련하는 방법을 만들 수 있다면 어떨까요?

이것이 DeepMind가 오랫동안 해왔던 일입니다. 그들은 22개의 서로 다른 로봇 유형의 데이터를 모아 Open X-Embodiment 데이터 세트를 만든 다음 더 유능한 RT-X(각각 RT-1-X 및 RT-2-X)를 교육했습니다.

RT-1-X 모델을 5개의 서로 다른 연구실에서 테스트한 결과, 각 로봇에 대해 독립적으로 개발된 방법과 비교하여 일반적으로 사용되는 5개의 서로 다른 로봇에서 새로운 방법의 성공률이 50% 증가한 것으로 나타났습니다. . 또한 위 데이터세트로 훈련된 RT-2-X가 실제 로봇 기술의 성능을 2배 향상시키고, 새로운 데이터를 학습함으로써 RT-2-X가 많은 새로운 기술을 습득한다는 것을 보여줍니다. 이 작업은 여러 로봇 유형의 데이터로 훈련된 단일 모델이 단일 로봇 유형의 데이터로 훈련된 모델보다 여러 로봇에서 훨씬 더 나은 성능을 발휘한다는 것을 보여줍니다.

딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.

이 연구는 DeepMind 단독으로 완료한 것이 아니라 33개 학술 연구소와의 협력의 결과라는 점을 언급할 가치가 있습니다. 그들은 개방적이고 책임감 있는 방식으로 이 기술을 개발하기 위해 최선을 다하고 있습니다.
딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.
현재 Open X-Embodiment 데이터 세트와 RT-1-X 모델 체크포인트는 광범위한 연구 커뮤니티에서 사용할 수 있습니다.
딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.
Nvidia의 선임 인공 지능 과학자인 Jim Fan은 오늘이 로봇을 위한 ImageNet의 순간이 될 수 있다고 말했습니다.

딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.

Google 연구원 Karol Hausman도 같은 한숨을 쉬었습니다. 드디어 로봇의 ImageNet 순간이 도래했습니다.

딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.

Open X-Embodiment 데이터 세트, 로봇 공학을 위한 ImageNet Moment

여기에서 훈련된 데이터 세트와 모델은 AI 발전을 발전시키는 데 핵심적인 역할을 했습니다. ImageNet이 컴퓨터 비전 연구를 발전시킨 것처럼 Open X-Embodiment도 로봇공학을 발전시켰습니다.

다양한 데이터 세트를 구축하는 것은 항상 범용 모델을 훈련하는 데 핵심이었습니다. 이러한 훈련된 모델은 다양한 유형의 로봇을 제어하고, 다양한 지침을 따르고, 복잡한 작업에 대한 기본 추론을 수행하고, 일반적인 작업 변경을 효율적으로 수행할 수 있습니다. 그러나 이러한 데이터 세트를 수집하는 것은 단일 실험실에서 너무 리소스 집약적입니다.

이를 위해 DeepMind는 33개 기관의 학술 연구소와 협력하여 Open X-Embodiment 데이터 세트를 구축했습니다. 그들은 1백만 개 이상의 클립에 걸쳐 22개의 로봇 인스턴스로부터 데이터를 수집하여 500개 이상의 기술과 150,000개 작업에서 로봇의 성능을 보여주었습니다. 이 데이터세트는 동종 로봇공학 데이터세트 중 가장 포괄적인 것입니다.
딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.
                                                                         공개 샘플
딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.
                                             
RT-1-X: 성공률이 50% 증가합니다.

RT-X는 두 개의 로봇변압기(RT) 모델을 기반으로 구성되었습니다.

특히 그림 3과 같이 Transformer 아키텍처를 기반으로 구축되고 로봇 제어용으로 설계된 35M 매개변수 네트워크인 RT-1을 사용하여 RT-1-X를 교육했습니다.

또한 인터넷 규모의 비전 및 언어 데이터와 훈련된 로봇 제어 데이터에 대해 대규모 시각적 언어 동작 모델(VLA) 제품군인 RT-2에서 RT-2-X를 훈련했습니다.

RT-1-X를 평가하기 위해 DeepMind는 이를 문 열기와 같은 특정 작업을 위해 개발된 모델과 비교했습니다. 결과는 Open X-Embodiment 데이터 세트를 사용하여 훈련된 RT-1-X가 원래 모델보다 평균 50% 더 나은 성능을 보인다는 것을 보여줍니다. RT-1-X의 평균 성공률은 원래 방법보다 50% 더 높습니다.
딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.
关于 다양한 협력 기관의 RT-1-X 효과 표시

RT-2-X: 무장애 잠금 해제의 새로운 기술
RT-X의 지식 이동을 연구하기 위해 기능을 갖춘 DeepMind는 다른 실험을 수행했습니다. 이러한 실험에는 RT-2 데이터 세트에는 없지만 다른 로봇의 데이터 세트에는 있는 개체와 기술이 포함되었습니다. 결과에 따르면 RT-2-X는 이전 최고 모델인 RT-2보다 새로운 기술을 3배 더 성공적으로 습득한 것으로 나타났습니다. 이는 또한 다른 플랫폼의 데이터를 사용한 공동 훈련이 RT-2-X에 원래 데이터 세트에 없는 추가 기술을 제공하여 새로운 작업을 수행할 수 있음을 보여줍니다. 위 그림은 RT-2-X가 물체 간의 공간적 관계를 이해하는 모습을 보여줍니다.
딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.
일련의 결과는 RT-2-X가 공간에 대한 더 나은 이해를 포함하여 이전에 RT-2로 달성할 수 없었던 기술을 달성한다는 것을 보여줍니다. 예를 들어, 목표 요구 사항을 달성하기 위해 로봇에게 "사과를 천 근처로 이동"하라고 요청하거나 로봇에게 "사과를 천으로 이동"하라고 요청하면 로봇은 완전히 다른 궤적을 취하게 됩니다. 로봇이 취하는 동작을 조정하려면 전치사를 "near"에서 "on"으로 변경하기만 하면 됩니다.
RT-2-X는 다른 로봇의 데이터를 RT-2-X 교육에 통합하면 로봇의 작업 범위를 향상시킬 수 있지만 충분히 고용량 아키텍처를 사용하는 경우에만 가능하다는 것을 보여줍니다. ㅋㅋ                                              RT-2-X(55B): 학술 실험실에서 알려지지 않은 작업을 수행하는 현재까지 가장 큰 모델 중 하나

딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.


연구 영감: 로봇은 서로에게서 배워야 합니다. 연구원 마찬가지입니다

딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.

로봇공학 연구는 흥미로운 초기 단계에 있습니다. DeepMind의 이 새로운 연구는 더 다양한 데이터와 더 나은 모델로 학습을 확장함으로써 더 유용한 보조 로봇을 개발하는 것이 가능할 수 있음을 보여줍니다. 전 세계 연구실과 자원을 협력하고 공유하는 것은 개방적이고 책임감 있는 방식으로 로봇공학 연구를 발전시키는 데 매우 중요합니다. DeepMind는 데이터 소스를 공개하고 안전하지만 제한된 모델을 제공함으로써 장벽을 줄이고 연구를 가속화하기를 희망합니다. 로봇 공학의 미래는 로봇이 서로 학습하고, 가장 중요하게는 연구자들이 서로 배울 수 있도록 하는 데 달려 있습니다.
이 작업은 모델이 다양한 환경에서 일반화될 수 있으며 Google DeepMind의 로봇이나 전 세계 여러 대학의 로봇에서 성능이 크게 향상되었음을 입증합니다. 향후 연구에서는 이러한 발전을 RoboCat의 자체 개선 속성과 결합하여 모델이 자체 경험을 기반으로 지속적으로 개선할 수 있는 방법을 탐구할 수 있습니다. 또 다른 향후 방향은 서로 다른 데이터 세트를 혼합하는 것이 교차 구현 에이전트 일반화에 어떻게 영향을 미치는지, 그리고 이러한 일반화가 어떻게 달성되는지 더 자세히 탐구하는 것입니다.

RT-X에 대해 더 알고 싶다면 DeepMind에서 발행한 이 논문을 참조하세요:

논문 링크: https://robotics-transformer-x.github.io / paper.pdf

프로젝트 링크: https://robotics-transformer-x.github.io/

딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.참고 링크: https://www.deepmind.com/blog/scaling - 다양한 로봇 유형에 걸친 상향 학습

위 내용은 딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.