대형 언어 모델의 급속한 '돌연변이'로 인해 인류 사회의 방향은 점점 공상과학화되었습니다. 이 기술 트리를 조명한 후, '터미네이터'의 현실이 우리에게 점점 더 가까워지는 것 같습니다.
며칠 전 Microsoft는 ChatGPT를 사용하여 로봇과 드론을 제어할 수 있는 실험적 프레임워크를 발표했습니다.
물론 Google도 그리 뒤처지지 않았습니다. 월요일에 Google과 베를린 기술 대학 팀이 역사상 가장 큰 시각적 언어 모델인 PaLM-E를 출시했습니다.
논문 주소: https://arxiv.org/abs/2303.03378
PaLM-E는 다중 모드 VLM(embodied Visual Language Model)으로 이미지를 이해할 수 있을 뿐만 아니라 이미지도 이해할 수 없습니다. 또한 언어를 이해하고 생성할 수 있으며, 두 언어를 결합하여 복잡한 로봇 명령을 처리할 수도 있습니다.
PaLM-540B 언어 모델과 ViT-22B 시각적 Transformer 모델을 결합하면 PaLM-E의 최종 매개변수 수가 5,620억 개에 달합니다.
Pathways Language Model with Embodied의 전체 이름인 PaLM-E는 구체화된 시각적 언어 모델입니다.
그 힘은 시각적 데이터를 사용하여 언어 처리 능력을 향상시키는 능력에 있습니다.
가장 큰 시각적 언어 모델을 학습시키고 이를 로봇과 결합하면 어떻게 될까요? 그 결과 PaLM-E는 로봇 공학, 비전 및 언어 전반에 걸쳐 5620억 개의 매개변수를 가진 보편적이고 구현된 시각적 언어 일반 전문가입니다.
논문에 따르면 PaLM-E는 디코더 전용 LLM입니다. 또는 프롬프트를 사용하면 자동 회귀 방식으로 텍스트 완성이 생성될 수 있습니다.
훈련 데이터는 시각적, 연속적 상태 추정 및 텍스트 입력 인코딩을 포함하는 다중 모드 문장입니다.
단일 이미지 프롬프트로 훈련한 후 PaLM-E는 로봇이 다양하고 복잡한 작업을 완료하도록 안내할 수 있을 뿐만 아니라 이미지를 설명하는 언어도 생성할 수 있습니다.
PaLM-E는 전례 없는 유연성과 적응성을 보여주며 특히 인간-컴퓨터 상호 작용 분야에서 큰 도약을 나타낸다고 할 수 있습니다.
더 중요한 것은 연구원들이 여러 로봇과 일반 시각적 언어의 다양한 혼합 작업 조합에 대한 교육을 통해 시각적 언어에서 로봇이 작업을 계획하고 데이터를 효과적으로 사용할 수 있도록 구현된 의사 결정으로 전환하는 여러 방법을 가져올 수 있음을 입증했습니다. .
PaLM-E의 특히 뛰어난 점은 강력한 포지티브 마이그레이션 능력을 가지고 있다는 것입니다.
인터넷 규모의 일반 시각-언어 작업을 포함한 다양한 영역에서 훈련된 PaLM-E는 단일 작업을 수행하는 로봇 모델에 비해 크게 향상된 성능을 달성합니다.
그리고 연구원들은 모델 규모에서 상당한 이점을 발견했습니다.
언어 모델이 클수록 시각적 언어 및 로봇 작업 훈련 중에 언어 능력이 더 강력하게 유지됩니다.
모델 규모의 관점에서 보면 5,620억 개의 매개변수를 갖춘 PaLM-E는 거의 모든 언어 기능을 유지합니다.
단일 이미지에 대해서만 교육을 받았지만 PaLM-E는 다중 모드 사고 연쇄 추론 및 다중 이미지 추론과 같은 작업에서 뛰어난 능력을 보여줍니다.
PaLM-E는 OK-VQA 벤치마크에서 새로운 SOTA를 달성했습니다.
테스트에서 연구원들은 PaLM-E를 사용하여 서로 다른 두 개체에 대한 계획 및 장기 작업을 수행하는 방법을 보여주었습니다.
이 모든 결과는 동일한 데이터에 대해 훈련된 동일한 모델을 사용하여 얻은 것입니다.
과거에는 로봇이 장기간 작업을 완료하려면 일반적으로 인간의 도움이 필요했습니다. 하지만 이제 PaLM-E는 독립적인 학습을 통해 이를 수행할 수 있습니다.
예를 들어 "서랍에서 감자칩을 꺼내세요"와 같은 지시에는 여러 계획 단계와 로봇 카메라의 시각적 피드백이 포함됩니다.
엔드투엔드(end-to-end) 학습을 거친 PaLM-E는 픽셀에서 직접 로봇을 계획할 수 있습니다. 모델이 제어 루프에 통합되어 있기 때문에 로봇은 감자칩을 집어들 때 방해가 되는 것에 대해 견고합니다.
인간: 칩 좀 가져와주세요.
로봇: 1. 서랍으로 이동합니다. 2. 상단 서랍을 엽니다. 3. 상단 서랍에서 녹색 감자칩을 집습니다. 4. 카운터에 놓습니다.
마찬가지로 로봇에게 사과를 달라고 하면 그림을 준 후 로봇은 다음과 같이 작업을 수행합니다. -
인간:사과를 줘.
로봇: 1. 사과를 향해 걸어갑니다. 2. 사과를 집습니다. 3. 교환원에게 가져갑니다. 4. 사과를 내려 놓습니다. 5. 끝났습니다.
PaLM-E를 사용하면 로봇은 장거리 작업을 수행하는 것 외에도 빌딩 블록 배열과 같은 계획 작업을 수행할 수 있습니다.
연구원들은 시각적 및 언어적 입력을 기반으로 하고 장기적인 시각적 피드백을 결합하여 다단계 계획을 성공적으로 수행했으며, 이를 통해 모델은 "블록을 색상별로 다양한 카테고리로 분류"하는 장기 작업을 성공적으로 계획할 수 있었습니다. . 모서리".
아래와 같이 배열과 조합 면에서는 로봇이 만능형으로 변신하여 색별로 블록을 분류해 줍니다.
모델을 일반화하면 PaLM-E가 제어하는 로봇은 빨간색 빌딩 블록을 커피 컵 옆으로 이동할 수 있습니다.
데이터세트에는 커피 컵이 포함된 데모가 3개만 포함되어 있지만 그 중 빨간색 빌딩 블록이 포함되어 있지 않다는 점을 언급할 가치가 있습니다.
마찬가지로 모델은 이전에 거북이를 본 적이 없지만 여전히 녹색 블록을 거북이에게 부드럽게 밀어 넣을 수 있습니다.
PaLM - E는 이미지를 통해 농담을 할 수 있으며 지각, 비전 기반 대화, 계획 등의 능력을 보여줍니다.
PaLM-E는 그림 1(왼쪽)이 그림 2(오른쪽)에 있는 것처럼 여러 그림 간의 관계도 이해할 수 있습니다.
또한 PaLM-E는 손으로 쓴 숫자가 있는 이미지에 대해 수학 연산을 수행할 수도 있습니다.
예를 들어 아래 손으로 쓴 레스토랑 메뉴 사진의 경우 피자 2판의 가격은 PaLM-E에서 직접 계산할 수 있습니다.
일반 QA, 주석 및 기타 작업도 가능합니다.
마지막으로, 연구 결과는 언어 모델을 동결하는 것이 언어 기능을 완전히 유지하는 보편적 구현 다중 모드 모델을 향한 실행 가능한 경로임을 보여줍니다.
그러나 동시에 연구원들은 모델 고정을 해제하는 대체 경로도 발견했습니다. 즉, 언어 모델의 크기를 늘리면 치명적인 망각을 크게 줄일 수 있다는 것입니다.
위 내용은 구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!