Google DeepMind는 다양한 로봇을 제어하여 일련의 작업을 수행할 수 있는 RoboCat AI 모델을 개발했습니다.
6월 26일 뉴스에 따르면, 구글 자회사 딥마인드(DeepMind)가 다양한 로봇 팔을 제어해 일련의 작업을 수행할 수 있는 로보캣(RoboCat)이라는 인공지능 모델을 개발했다고 밝혔습니다. 이것만으로는 특별히 새로운 것은 아니지만 DeepMind는 이 모델이 다양한 작업을 해결하고 적응할 수 있으며 다른 실제 로봇을 사용하여 이를 수행할 수 있는 최초의 모델이라고 주장합니다.
RoboCat은 텍스트, 이미지 및 이벤트를 분석하고 처리할 수 있는 DeepMind의 또 다른 AI 모델인 Gato에서 영감을 받았습니다. RoboCat의 훈련 데이터에는 가상 환경의 다른 로봇 제어 모델, 인간이 제어하는 로봇 및 이전 버전의 RoboCat 자체에서 파생된 시뮬레이션 로봇과 실제 로봇의 이미지 및 모션 데이터가 포함됩니다.
DeepMind의 연구 과학자이자 RoboCat 팀의 공동 작업자 중 한 명인 Alex Lee는 TechCrunch와의 이메일 인터뷰에서 다음과 같이 말했습니다. "우리는 단일 대형 모델이 여러 실제 로봇 엔터티에서 해결될 수 있음을 보여주었습니다. 다양한 작업을 수행하고 신속하게 ”
IT House는 RoboCat을 훈련하기 위해 먼저 인간이 제어하는 로봇 팔을 사용하여 100~1000개의 작업 또는 로봇 시연에서 각 데이터를 수집했다고 언급했습니다. 예를 들어, 로봇 팔이 기어를 집거나 빌딩 블록을 쌓게 하세요. 그런 다음 RoboCat을 미세 조정하여 각 작업에 대해 특화된 "파생" 모델을 생성하고 평균 10,000회 연습하도록 했습니다. 연구원들은 파생 모델과 데모 데이터에서 생성된 데이터를 활용하여 RoboCat의 교육 데이터 세트를 계속 확장하고 RoboCat의 새로운 버전을 교육하고 있습니다.
RoboCat의 최종 버전은 총 253개의 작업에 대해 교육을 받았으며 시뮬레이션과 실제 세계에서 이러한 작업의 141가지 변형에 대해 테스트되었습니다. DeepMind는 RoboCat이 몇 시간에 걸쳐 수집된 1,000개의 인간 제어 시연을 관찰한 후 다양한 유형의 로봇 팔을 작동하는 방법을 배웠다고 주장합니다. RoboCat은 두 손가락 팔을 가진 4대의 로봇에 대해 훈련을 받았지만, 모델은 세 손가락 그리퍼와 두 배 더 많은 제어 가능한 입력을 사용하여 더 복잡한 팔에 적응할 수 있었습니다.
그럼에도 불구하고 DeepMind의 테스트에서 RoboCat의 다양한 작업 성공률은 최저 13%에서 최고 99%까지 매우 다양했습니다. 이는 훈련 데이터에 1000개의 시연이 있는 경우입니다. 시연 횟수가 절반으로 줄어들면 그에 따라 성공률도 감소합니다. 그러나 경우에 따라 DeepMind는 RoboCat이 단 100개의 데모를 관찰하여 새로운 작업을 배울 수 있다고 주장합니다.
Alex Lee는 RoboCat이 새로운 작업을 해결하는 것을 덜 어렵게 만들 수 있다고 믿습니다. "새로운 작업에 대한 특정 횟수의 시연이 주어지면 RoboCat은 새로운 작업에 맞게 미세 조정하고 더 많은 데이터를 자체 생성하여 더욱 개선할 수 있습니다."라고 그는 덧붙였습니다.
앞으로 연구팀은 RoboCat에게 새로운 작업을 완료하도록 가르치는 데 필요한 시연 횟수를 10회 미만으로 줄이는 것을 목표로 합니다.
위 내용은 Google DeepMind는 다양한 로봇을 제어하여 일련의 작업을 수행할 수 있는 RoboCat AI 모델을 개발했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.
