Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

PHPz

Apr 21, 2023 pm 07:34 PM

Google기계 인간

잘보세요, 앞에 있는 남자가 로봇에게 "빨간색 블록 사이에 녹색 별을 밀어주세요", "파란색 블록을 왼쪽 하단으로 이동하세요"와 같이 끊임없이 자연어로 명령을 내리면 로봇이 응답합니다. 한 번 입력한 각 지침은 실시간으로 완료될 수 있습니다.

1960년대부터 로봇공학 전문가들은 로봇이 사람의 '자연어 지시'를 이해하고 특정 행동을 수행할 수 있도록 노력해 왔습니다.

이상적으로 미래의 로봇은 사용자가 자연어로 설명할 수 있는 모든 관련 작업에 실시간으로 반응합니다. ㅋㅋㅋ

또한 실시간 언어를 사용하면 인간과 로봇이 복잡하고 장기적인 작업에서 더 쉽게 협업할 수 있습니다. 여기서 인간은 가끔씩 구두 피드백을 통해 로봇 작업을 반복적이고 대화형으로 안내할 수 있습니다. Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

현재 관련 작업은 크게 다음 세 부분으로 나눌 수 있습니다.

1. 로봇 본체는 현실 세계에 존재해야 합니다.

2. 풍부한 자연어 명령

3. 대화형(대화형) 언어 명령 실행

능력, 즉 로봇은 작업 실행 중에 새로운 자연어 명령을 받아들여야 합니다.

세 번째 요점은 현재 로봇 분야의 대화형 개발 속도가 여전히 매우 느리기 때문에 로봇에게 "생명감"이 부족하다는 것입니다.

최근 Google은 자연어 명령을 실행하는 실제 실시간 대화형 로봇을 생성할 수 있는 새로운 프레임워크를 제안하는 논문을 발표했으며 관련 데이터 세트, 환경, 벤치마크 및 전략은 모두 공개 사용됩니다. ㅋㅋㅋ 수십만 개의 언어학적 주석이 달린 궤적 데이터 세트에 대한 행동 복제 훈련을 통해 결과 정책은 이전 작업보다 훨씬 더 많은 명령을 적절하게 실행할 수 있습니다. 실제로 연구원들은 이 방법이 87,000개의 서로 다른 자연어 문자열에서 93.5%의 성공률을 보인다고 추정했습니다.

그리고 동일한 전략을 인간이 자연어를 통해 실시간으로 안내하여 "블록으로 웃는 얼굴 만들기" 등과 같은 광범위한 정밀 장거리 재배치 목표를 해결할 수 있습니다. Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

논문과 함께 공개된 데이터 세트에는 거의 600,000개의 언어 태그 궤적이 포함되어 있으며 이는 이전에 사용 가능한 데이터 세트보다 훨씬 더 큰 규모입니다. 인터랙티브 언어: 로봇과 실시간 대화

로봇을 현실 세계에 접목시키기 위해서는 가장 중요한 것은 개방형 자연어 명령어를 처리할 수 있어야 하는데, 머신러닝 관점에서 볼 때 로봇이 공개 어휘를 배우십시오. 언어는 큰 도전입니다.

개방형 표현 모델은 작은 수정 지침 등을 포함하여 많은 작업을 수행해야 합니다. 기존 다중 작업 학습 설정은 신중하게 설계된 모방 학습 데이터 세트 또는 복잡한 강화 학습 보상 기능을 활용하여 각 작업에 대한 학습을 유도하며 이러한 방식으로 설계된 사전 정의된 세트는 그다지 크지 않을 것입니다.

그러므로 개방형 어휘 작업의 핵심 질문은 로봇 데이터 수집 프로세스를 어떻게 확장하여 실제 환경에서 수천 가지 행동을 포괄할 수 있으며 이러한 모든 행동이 최종 사용자와 어떻게 관련될 수 있을까요? 실제로 자연어 지침을 제공하는 것이 가능합니까?

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

대화형 언어에서 Google이 제안하는 대규모 시뮬레이션 학습 프레임워크의 핵심은 대규모 다국어 조건의 로봇 데모 데이터 세트를 생성할 수 있는 확장성입니다.

모든 기술이 정의된 다음 각 기술에 대한 엄선된 데모가 수집된 이전 설정과 달리 연구원은 장면 재설정이나 낮은 수준의 기술 세분화 없이 여러 로봇에서 지속적으로 작업합니다.

실패한 데이터(테이블에서 블록을 떨어뜨리는 등)를 포함한 모든 데이터는 텍스트와 짝을 이루기 전에 HindSight 언어 레이블 재지정 프로세스를 거쳐야 합니다.

이 과정에서 주석 작성자는 가능한 한 많은 행동을 식별하기 위해 긴 로봇 비디오를 시청하고, 각 행동의 시작 및 종료 시간을 표시하고, 무제한 형태의 자연어를 사용하여 각 세그먼트를 설명해야 합니다.

가장 중요한 점은 이전 부트스트래핑 세트와 비교하여 훈련에 사용되는 모든 기술이 연구원이 미리 결정한 것이 아니라 데이터 자체에서 상향식으로 공개된다는 것입니다.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

연구원들은 의도적으로 학습 방법과 아키텍처를 최대한 단순화했습니다. 로봇 정책 네트워크는 보조 손실(보조 손실) 없이 5Hz 비디오 및 텍스트를 5Hz 로봇 동작으로 매핑하는 교차 주의 변환기입니다. . 손실) 표준 지도 학습 동작을 사용하여 대상을 복제합니다.

테스트하는 동안 새로운 자연어 명령은 최대 5Hz의 속도로 음성-텍스트를 통해 정책 네트워크로 전송될 수 있습니다.

오픈 소스 벤치마크

주석 과정에서 연구원들은 자연어 명령을 실행하는 로봇의 실제 440,000개 이상의 시연과 180,000개 이상의 시뮬레이션 시연뿐만 아니라 시연 중에 로봇이 취한 동작이 포함된 언어 표 데이터 세트를 수집했습니다. . 일련의 작업.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

이것은 또한 현재 최대 규모의 언어 조건 로봇 데모 데이터 세트로, 직접적으로 몇 배나 개선되었습니다.

Language-Table은 모델 선택에 사용하거나 다양한 방법으로 훈련된 로봇의 명령 실행 능력을 평가하는 데 사용할 수 있는 시뮬레이션 학습 벤치마크를 출시했습니다.

실시간 언어 행동 학습

실험에서 연구자들은 로봇이 실시간으로 입력된 자연어 명령을 따를 수 있을 때 로봇의 능력이 특히 강력해진다는 것을 발견했습니다.

프로젝트 웹사이트에서 연구원들은 사용자가 정밀한 조정 제어를 위해 오랜 시간이 필요한 목표를 해결하기 위해 자연어만을 사용하여 복잡한 장수평 시퀀스를 통해 로봇을 안내할 수 있음을 시연했습니다.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

예를 들어, 테이블 위에 블록이 많으면 "녹색 눈으로 웃는 얼굴을 만들어라" 또는 "모두 수직선으로 놓아라" 등의 명령을 내릴 수 있습니다.

로봇은 개방형 어휘집 언어를 따르도록 훈련되었기 때문에 실험에서는 로봇이 "빨간 별을 오른쪽으로 부드럽게 이동하세요"와 같은 다양한 언어 교정에 반응하는 것을 확인했습니다.

마지막으로 연구원들은 로봇 데이터 수집을 더욱 효율적으로 만드는 등 실시간 언어의 장점을 조사했습니다. 인간 조작자는 동시에 음성 언어를 사용하여 로봇 4대를 제어할 수 있으며, 이를 통해 로봇 데이터 수집 규모를 잠재적으로 확장할 수 있습니다. , 각 로봇에 주석자를 장착할 필요가 없습니다.

결론

현재 프로젝트는 데스크톱의 고정된 개체 세트로 제한되어 있지만 대화형 언어에 대한 실험 결과는 대규모 모방 학습이 실제로 무료로 따라갈 수 있는 실시간 대화형 로봇을 생성할 수 있다는 예비 징후를 제공할 수 있습니다. -form 터미널 사용자 명령.

물리 로봇의 실시간 언어 제어 기술 발전을 촉진하기 위해 연구진은 언어 조건을 기반으로 한 실제 로봇 시연 데이터 세트 중 최대 규모인 Language-Table을 오픈소스로 공개했습니다. 관련 시뮬레이션 벤치마크로.

연구원들은 이 데이터 세트의 역할이 로봇 제어 분야에만 국한되지 않고 언어 및 동작 조건부 비디오 예측, 로봇 비디오 조건부 언어 모델링 또는 더 넓은 분야의 연구에도 사용될 수 있다고 믿습니다. 머신러닝 환경 다른 많은 흥미로운 활성 이슈가 새로운 출발점을 제공합니다.

위 내용은 Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Hugging Face ' S 7B 모델 올림픽 코더는 Claude 3.7을 이겼습니까?Apr 23, 2025 am 11:49 AM

Hugging Face의 올림픽 코더 -7b : 강력한 오픈 소스 코드 추론 모델 우수한 코드 중심 언어 모델을 개발하기위한 경쟁은 강화되고 있으며, Hugging Face는 엄청난 경쟁자 인 OlympicCoder-7B와 경쟁에 참여했습니다.

4 개의 새로운 쌍둥이 자리 기능을 놓칠 수 없습니다Apr 23, 2025 am 11:48 AM

AI가 단순한 질문에 대답하는 것 이상을 할 수 있기를 바라는 여러분 중 몇 명이 있습니까? 나는 내가 가지고 있다는 것을 알고 있으며, 늦게 그것이 어떻게 변화하고 있는지에 놀랐습니다. AI 챗봇은 더 이상 채팅에 관한 것이 아니라 창작에 관한 것입니다.

Camunda는 에이전트 AI 오케스트레이션에 대한 새로운 점수를 씁니다Apr 23, 2025 am 11:46 AM

Smart AI가 모든 수준의 엔터프라이즈 소프트웨어 플랫폼 및 애플리케이션에 통합되기 시작함에 따라 (강력한 핵심 도구와 덜 안정적인 시뮬레이션 도구가 있음을 강조해야 함) 이러한 에이전트를 관리하려면 새로운 인프라 기능 세트가 필요합니다. 독일 베를린에 본사를 둔 프로세스 오케스트레이션 회사 인 Camunda는 Smart AI가 적절한 역할을 수행하고 새로운 디지털 작업장에서 정확한 비즈니스 목표 및 규칙에 맞게 조정하는 데 도움이 될 수 있다고 생각합니다. 이 회사는 현재 조직이 AI 에이전트를 모델링, 배포 및 관리하도록 돕기 위해 설계된 지능형 오케스트레이션 기능을 제공합니다. 실용적인 소프트웨어 엔지니어링 관점에서, 이것이 무엇을 의미합니까? 확실성과 비 결정적 프로세스의 통합 이 회사는 핵심은 사용자 (일반적으로 데이터 과학자, 소프트웨어)를 허용하는 것이라고 말했다.

선별 된 엔터프라이즈 AI 경험에 가치가 있습니까?Apr 23, 2025 am 11:45 AM

다음 '25 년 Google Cloud에 참석하면서 Google이 AI 제품을 구별하는 방법을보고 싶어했습니다. 에이전트 공간 (여기서 논의 된)과 고객 경험 제품군 (여기서 논의)에 관한 최근의 발표는 유망한 비즈니스 valu를 강조했습니다.

헝겊에 가장 적합한 다국어 임베딩 모델을 찾는 방법은 무엇입니까?Apr 23, 2025 am 11:44 AM

검색 증강 생성 (RAG) 시스템을위한 최적의 다국적 임베딩 모델 선택 오늘날의 상호 연결된 세계에서 효과적인 다국어 AI 시스템을 구축하는 것이 가장 중요합니다. 강력한 다국어 임베딩 모델은 RE에 중요합니다

머스크 : 오스틴의 로보 탁시는 10,000 마일마다 개입이 필요합니다Apr 23, 2025 am 11:42 AM

Tesla의 Austin Robotaxi 런칭 : Musk의 주장에 대한 자세한 내용 Elon Musk는 최근 텍사스 오스틴에서 Tesla의 다가오는 Robotaxi 런칭을 발표하여 안전상의 이유로 소규모 10-20 대의 차량을 배치하여 빠른 확장 계획을 세웠습니다. 시간

AI의 충격적인 피벗 : 작업 도구에서 디지털 치료사 및 라이프 코치까지Apr 23, 2025 am 11:41 AM

인공 지능이 적용되는 방식은 예상치 못한 일 수 있습니다. 처음에 우리 중 많은 사람들이 주로 코드 작성 및 컨텐츠 작성과 같은 창의적이고 기술적 인 작업에 주로 사용되었다고 생각할 수도 있습니다. 그러나 하버드 비즈니스 리뷰 (Harvard Business Review)가 최근 조사한 결과는 그렇지 않습니다. 대부분의 사용자는 일뿐만 아니라 지원, 조직, 심지어 우정을 위해 인공 지능을 추구합니다! 이 보고서는 AI 신청 사례의 첫 번째는 치료 및 동반자라고 밝혔다. 이것은 24/7 가용성과 익명의 정직한 조언과 피드백을 제공하는 능력이 큰 가치가 있음을 보여줍니다. 반면에, 마케팅 작업 (예 : 블로그 작성, 소셜 미디어 게시물 만들기 또는 광고 사본)은 인기있는 사용 목록에서 훨씬 낮습니다. 이게 왜? 연구 결과와 그것이 어떻게 계속되는지 보자.