>기술 주변기기 >일체 포함 >AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.

AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.

WBOY
WBOY앞으로
2023-11-11 08:34:461377검색

AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.

비디오 게임은 현실 세계의 시뮬레이션 무대가 되어 무한한 가능성을 보여주고 있습니다. "GTA"(Grand Theft Auto)를 예로 들어보겠습니다. 게임에서 플레이어는 1인칭 시점에서 가상 도시 로스 산토스의 다채로운 삶을 경험할 수 있습니다. 하지만 인간 플레이어가 로스 산토스에서 플레이를 즐기고 작업을 완료할 수 있다면 GTA에서 캐릭터를 제어하고 작업을 수행하는 "플레이어"가 될 수 있는 AI 시각적 모델도 가질 수 있을까요? GTA의 AI 플레이어가 교통 규칙을 준수하고 경찰이 범인을 잡는 데 도움을 주는 5성 선량한 시민의 역할을 할 수 있습니까? 심지어 노숙자들이 적합한 주택을 찾을 수 있도록 돕는 도움이 되는 행인이 될 수 있을까요?

현재 VLM(시각 언어 모델)은 다중 모드 인식 및 추론에서 상당한 발전을 이루었지만 일반적으로 더 간단한 시각적 질문 응답(VQA) 또는 시각적 주석(캡션) 작업을 기반으로 합니다. 그러나 이러한 작업 설정으로 인해 VLM이 실제 세계에서 실제로 작업을 완료할 수는 없습니다. 실제 작업을 수행하려면 시각적 정보에 대한 이해가 필요할 뿐만 아니라, 실시간으로 업데이트되는 환경 정보를 기반으로 추론을 계획하고 피드백을 제공할 수 있는 능력도 모델에 필요하기 때문입니다. 동시에 생성된 계획은 작업을 현실적으로 완료하기 위해 환경의 개체를 조작할 수 있어야 합니다.

현재 기존 언어 모델(LLM)은 제공된 정보를 기반으로 작업 계획을 수행할 수 있지만 시각적 입력을 이해할 수는 없습니다. 이는 특정 실제 작업, 특히 일부 구현된 지능 작업을 수행할 때 언어 모델의 적용 범위를 크게 제한합니다. 텍스트 기반 입력은 종종 너무 복잡하거나 정교하기 어려워서 언어 모델이 정보를 효율적으로 추출할 수 없게 만든다는 것입니다. 그것에서 작업을 완료합니다. 현재 프로그램 생성에서 언어 모델이 탐색되고 있지만 시각적 입력을 기반으로 구조화되고 실행 가능하며 강력한 코드를 생성하는 탐색은 아직 심층적이지 않습니다. 정확한 계획을 세우고 명령을 실행하는 자율적, 상황 인식 시스템이 필요하다고 싱가포르 난양 기술대학교, 칭화대학교 등의 학자들이 옥토퍼스를 제안했습니다. Octopus는 시각적 입력을 통해 학습하고, 현실 세계를 이해하며, 실행 가능한 코드를 생성하여 다양한 실무 작업을 완료하는 것을 목표로 하는 비전 기반 프로그래밍 가능 에이전트입니다. Octopus는 시각적 입력과 실행 가능한 코드로 구성된 대량의 데이터 쌍을 학습함으로써 비디오 게임 캐릭터를 제어하여 게임 작업을 완료하거나 복잡한 가사 활동을 완료하는 방법을 배웠습니다.

AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.

    논문 링크: https://arxiv.org/abs/2310.08588
  • 프로젝트 웹페이지: https://choiszt.github.io/Octopus/
  • 오픈 소스 코드 링크: https : //github.com/dongyh20/Octopus
다시 작성해야 할 내용은 데이터 수집 및 교육입니다. 재작성된 콘텐츠: 데이터 수집 및 훈련

체화된 지능 작업을 완료할 수 있는 시각적 언어 모델을 훈련하기 위해 연구원들은 Octopus 데이터 및 테스트 환경에 대한 훈련을 제공하는 두 가지 시뮬레이션 시스템이 포함된 OctoVerse도 개발했습니다. 이 두 시뮬레이션 환경은 VLM의 구현된 지능에 대해 사용 가능한 교육 및 테스트 시나리오를 제공하고 모델의 추론 및 작업 계획 기능에 대한 더 높은 요구 사항을 제시합니다.

1. OctoGibson: 스탠포드 대학교에서 개발한 OmniGibson을 기반으로 개발되었으며, 실생활과 일치하는 총 476가지 집안일 활동을 포함합니다. 전체 시뮬레이션 환경에는 실제 가정 환경의 155가지 인스턴스를 다루는 16가지 카테고리의 가정 시나리오가 포함되어 있습니다. 모델은 최종 작업을 완료하기 위해 그 안에 있는 수많은 대화형 개체를 조작할 수 있습니다.

2. OctoGTA: "GTA" 게임을 기반으로 개발되었으며 총 20개의 작업이 구성되어 5개의 시나리오로 일반화되었습니다. 플레이어는 사전 설정된 프로그램을 통해 고정된 위치에 설정되며, 미션을 원활하게 진행할 수 있도록 미션 완료에 필요한 아이템과 NPC를 제공합니다.

아래 그림은 OctoGibson의 작업 분류와 OctoGibson 및 OctoGTA의 일부 통계 결과를 보여줍니다.

AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다. 두 가지 구축된 시뮬레이션 환경에서 훈련 데이터를 효율적으로 수집하기 위해 연구진은 완전한 데이터 수집 시스템을 구축했습니다. 연구진은 작업 실행기로 GPT-4를 도입하여 사전 구현된 기능을 사용하여 시뮬레이션 환경에서 얻은 시각적 입력을 텍스트 정보로 변환하고 이를 GPT-4에 제공했습니다. GPT-4는 현재 단계의 작업 계획과 실행 코드를 반환한 후 시뮬레이션 환경에서 코드를 실행하고 현재 단계의 작업이 완료되었는지 확인합니다. 성공하면 다음 단계를 위한 시각적 입력을 계속 수집하고, 실패하면 이전 단계의 시작 위치로 돌아가 다시 데이터를 수집합니다

위 그림은 OctoGibson 환경에서 Cook a Bacon 작업을 예로 들어 데이터 수집의 전체 프로세스를 보여줍니다. 데이터 수집 과정에서 연구원들은 작업 실행 중 시각적 정보, GPT-4에서 반환된 실행 코드 등을 기록했을 뿐만 아니라 각 하위 작업의 성공도 기록했다는 점에 유의해야 합니다. 보다 효율적인 VLM을 위한 기반을 구축하기 위해 강화 학습이 도입되었습니다. GPT-4는 강력하지만 완벽하지는 않습니다. 오류는 시뮬레이터의 구문 오류 및 물리적 문제를 포함하여 다양한 방식으로 나타날 수 있습니다. 예를 들어, 그림 3에 표시된 것처럼 상태 #5와 #6 사이에서 에이전트가 들고 있는 베이컨과 팬 사이의 거리가 너무 멀기 때문에 "팬에 베이컨 놓기" 작업이 실패했습니다. 이러한 좌절은 작업을 이전 상태로 재설정합니다. 10단계 후에도 작업이 완료되지 않으면 실패한 것으로 간주되고 예산 문제로 인해 작업이 종료되며 이 작업의 모든 하위 작업에 대한 데이터 쌍이 실패한 것으로 간주됩니다.

AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.

연구원들은 일정 규모의 훈련 데이터를 수집한 후 이 데이터를 사용하여 지능형 시각 언어 모델 Octopus를 훈련했습니다. 아래 그림은 전체 데이터 수집 및 학습 프로세스를 보여줍니다. 첫 번째 단계에서 연구진은 감독된 미세 조정을 위해 수집된 데이터를 사용하여 시각적 정보를 고정된 형식의 입력 및 출력으로 수신할 수 있는 VLM 모델을 구축했습니다. 이 단계에서 모델은 시각적 입력 정보를 임무 계획 및 실행 코드에 매핑할 수 있습니다. 두 번째 단계에서 연구원들은 환경 피드백을 활용한 RLEF

강화 학습을 도입하고 이전에 수집된 하위 작업의 성공을 보상 신호로 사용하여 VLM의 작업 계획 기능을 더욱 향상시켜 전체 작업의 성공률을 높였습니다

실험 결과

연구원들은 구축된 OctoGibson 환경에서 현재 주류인 VLM과 LLM을 테스트했습니다. 다음 표는 주요 실험 결과를 보여줍니다. 다양한 테스트 모델의 경우 Vision Model은 다양한 모델에서 사용되는 시각적 모델을 나열합니다. LLM의 경우 연구원은 LLM의 입력으로 시각적 정보를 텍스트로 처리합니다. 그 중 O는 장면 내 상호작용하는 객체에 대한 정보를 제공하는 것을 나타내고, R은 장면 내 객체의 상대적인 관계에 대한 정보를 제공하는 것을 나타내며, GT는 탐지를 위한 추가적인 시각적 모델을 도입하지 않고 실제적이고 정확한 정보를 사용하는 것을 나타낸다.

모든 테스트 작업에 대해 연구원들은 완전한 테스트 통합 능력을 보고하고 이를 4가지 범주로 더 나누어 훈련 세트에 존재하는 시나리오에서 새 작업 완료를 기록하고 그렇지 않은 시나리오에서 새 작업 완료를 기록했습니다. 훈련 세트에는 새로운 작업뿐만 아니라 간단한 후속 작업 및 복잡한 추론 작업에 대한 일반화 능력도 있습니다. 연구원들은 통계의 각 범주에 대해 두 가지 평가 지표를 보고했는데, 그 중 첫 번째는 구현된 지능 작업을 완료하는 모델의 성공률을 측정하는 작업 완료율이고, 두 번째는 작업 계획 정확도를 측정하는 데 사용됩니다. 구현된 지능 작업을 완료하는 데 있어 모델의 성공률은 작업 계획을 수행하는 모델의 능력을 반영합니다.

AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.

또한 연구원들은 OctoGibson 시뮬레이션 환경에서 수집된 시각적 데이터에 대한 다양한 모델의 반응 예도 시연했습니다. 아래 그림은 OctoGibson에서 시각적 입력을 생성하기 위해 TAPA+CodeLLaMA, Octopus 및 GPT-4V의 세 가지 모델을 사용한 후의 응답을 보여줍니다. 감독된 미세 조정만 수행하는 Octopus 모델 및 TAPA+CodeLLaMA와 비교할 때 RLEF로 훈련된 Octopus 모델의 작업 계획이 더 합리적임을 알 수 있습니다. 더 모호한 임무 명령인 "큰 병을 찾아라"도 더 완전한 계획을 제공합니다. 이러한 성능은 모델의 작업 계획 및 추론 기능을 향상시키는 데 있어 RLEF 훈련 전략의 효율성을 더욱 잘 보여줍니다. 전반적으로 시뮬레이션 환경에서 기존 모델의 실제 작업 완료 및 작업 계획 기능은 여전히 ​​동일합니다. 개선을 위해. 연구원들은 몇 가지 주요 결과를 요약했습니다.

AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.1.CodeLLaMA는 모델의 코드 생성 능력을 향상시킬 수 있지만 작업 계획 능력을 향상시킬 수는 없습니다.

연구원들은 실험 결과 CodeLLaMA가 모델의 코드 생성 기능을 크게 향상시킬 수 있음을 보여주었다고 지적했습니다. 기존 LLM과 비교하여 CodeLLaMA를 사용하면 더 좋고 실행 가능한 코드를 얻을 수 있습니다. 그러나 일부 모델은 CodeLLaMA를 사용하여 코드를 생성하지만 전체 임무 성공률은 여전히 ​​임무 계획 기능에 의해 제한됩니다. 작업 계획 기능이 약한 모델의 경우 생성된 코드의 실행 가능성은 더 높지만 최종 작업 성공률은 여전히 ​​낮습니다. Octopus를 살펴보면 CodeLLaMA를 사용하지 않고 코드 실행성이 약간 떨어지지만 강력한 작업 계획 기능으로 인해 전체 작업 성공률은 여전히 ​​다른 모델보다 좋습니다

많은 양의 텍스트 정보 입력에 직면했을 때 , LLM의 처리가 상대적으로 어려워집니다

실제 테스트 과정에서 연구자들은 TAPA와 CodeLLaMA의 실험 결과를 비교한 결과 언어 모델이 긴 텍스트 입력을 잘 처리하기 어렵다는 결론에 도달했습니다. 연구자들은 TAPA 방식을 따르고 작업 계획을 위해 실제 개체 정보를 사용하는 반면, CodeLLaMA는 보다 완전한 정보를 제공하기 위해 개체와 개체 간의 상대적 위치 관계를 사용합니다. 그러나 실험 중 연구자들은 환경에 중복된 정보가 많기 때문에 환경이 복잡해지면 텍스트 입력이 크게 증가하고 LLM이 많은 양의 중복 정보에서 귀중한 단서를 추출하기 어렵다는 사실을 발견했습니다. 정보가 중복되어 미션 성공률이 감소합니다. 이는 또한 LLM의 한계를 반영합니다. 즉, 텍스트 정보를 사용하여 복잡한 장면을 표현하는 경우 중복되고 가치 없는 입력 정보가 ​​대량 생성됩니다.

3.Octopus는 작업 일반화 능력이 좋습니다.

문어는 실험 결과에서 알 수 있듯이 작업 일반화 능력이 뛰어납니다. 훈련 세트에 나타나지 않은 새로운 시나리오에서 Octopus는 작업 완료 성공률과 작업 계획 성공률 모두에서 기존 모델을 능가했습니다. 이는 또한 시각적 언어 모델이 동일한 작업 범주에서 고유한 장점을 가지고 있으며 일반화 성능이 기존 LLM

4.RLEF보다 우수하다는 것을 보여 주며 모델의 작업 계획 능력을 향상시킬 수 있습니다.

연구원들은 실험 결과에서 두 모델의 성능 비교를 제공합니다. 하나는 지도 미세 조정의 첫 번째 단계를 거친 모델이고 다른 하나는 RLEF로 훈련된 모델입니다. RLEF 훈련 후 강력한 추론과 작업 계획 능력이 필요한 작업에서 모델의 전반적인 성공률과 계획 능력이 크게 향상되는 결과를 확인할 수 있습니다. 기존 VLM 훈련 전략과 비교하여 RLEF가 더 효율적입니다. 예제 플롯은 RLEF로 훈련된 모델이 작업 계획에서 향상되었음을 보여줍니다. 복잡한 작업에 직면할 때 모델은 환경을 탐색하는 방법을 배울 수 있으며 작업 계획 측면에서 시뮬레이션 환경의 실제 요구 사항에 더 부합합니다(예를 들어 모델은 개체로 이동해야 합니다. 상호 작용을 시작하기 전에 상호 작용해야 함) 작업을 줄여 계획 실패의 위험

토론

다시 작성해야 할 사항은 다음과 같습니다. 용융 테스트

모델의 실제 기능을 평가한 후 연구원들은 추가로 탐색했습니다. 모델 성능에 영향을 미칠 수 있는 요인. 아래 그림과 같이 연구원들은 세 가지 측면에서 실험을 진행했습니다

다시 작성해야 할 내용은 다음과 같습니다. 1. 훈련 매개변수의 비율

연구원들은 비교 실험을 진행하고 시각적 모델만 훈련한 연결 레이어를 비교했습니다. 언어 모델, 훈련 연결 계층 및 언어 모델, 그리고 완전한 훈련 모델의 성능. 결과는 훈련 매개변수가 증가함에 따라 모델의 성능이 점차 향상된다는 것을 보여줍니다. 이는 훈련 매개변수의 수가 일부 고정된 시나리오에서 모델이 작업을 완료할 수 있는지 여부에 중요하다는 것을 보여줍니다

2. 모델 크기

연구원들은 두 가지 훈련 단계에서 더 작은 3B 매개변수 모델과 기준 7B 모델을 비교했습니다. 비교 결과, 모델의 전체 매개변수 양이 클수록 모델의 성능도 크게 향상되는 것으로 나타났습니다. VLM 분야의 향후 연구에서는 모델이 해당 작업을 완료할 수 있는 능력을 갖추는 동시에 모델의 가볍고 빠른 추론 속도를 보장하기 위해 적절한 모델 훈련 매개변수를 선택하는 방법이 매우 중요한 문제가 될 것입니다

필요 다시 작성 내용은 다음과 같습니다. 3. 시각적 입력의 연속성. 재작성된 콘텐츠: 3. 시각적 입력의 일관성

다양한 시각적 입력이 실제 VLM 성능에 미치는 영향을 연구하기 위해 연구원들은 실험을 수행했습니다. 테스트 중에 모델은 시뮬레이션 환경에서 순차적으로 회전하고 첫 번째 보기 이미지와 두 개의 조감도를 수집한 다음 이러한 시각적 이미지를 VLM에 순차적으로 입력합니다. 실험에서 연구자가 시각적 이미지의 순서를 무작위로 혼란시킨 다음 이를 VLM에 입력하면 VLM의 성능이 더 큰 손실을 입습니다. 한편으로 이는 VLM에 대한 완전하고 구조화된 시각적 정보의 중요성을 보여 주는 반면, VLM은 시각적 입력에 응답할 때 시각적 이미지 간의 본질적인 연결에 의존해야 함을 반영합니다. 이는 VLM의 성능에 큰 영향을 미칠 것입니다

AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.

GPT-4

또한 연구원들은 시뮬레이션 환경에서 GPT-4 및 GPT-4V의 성능에 대한 테스트 및 통계도 수행했습니다.

다시 작성해야 할 사항은 다음과 같습니다. 1. GPT-4

GPT-4의 경우 테스트 프로세스 중에 연구원은 훈련 데이터를 수집하는 데 사용할 때 입력과 정확히 동일한 텍스트 정보를 제공합니다. 테스트 작업에서 GPT-4는 작업의 절반을 완료할 수 있으며, 이는 기존 VLM이 GPT-4와 같은 언어 모델에 비해 여전히 성능 향상의 여지가 많다는 것을 보여줍니다. 또한, GPT-4와 같이 강력한 성능을 갖춘 언어 모델이라 할지라도 구현된 지능 작업에 직면했을 때 작업 계획 능력과 작업 실행 능력이 여전히 더 향상되어야 함을 보여줍니다.

다시 작성해야 하는 내용은 다음과 같습니다. 2. GPT-4V

GPT-4V가 직접 호출할 수 있는 API를 출시한 이후 연구자들은 아직 시도해 볼 시간이 없었지만, 연구자들은 GPT-4V의 성능을 입증하기 위해 몇 가지 예제를 수동으로 테스트하기도 했습니다. 몇 가지 예를 통해 연구원들은 GPT-4V가 시뮬레이션 환경의 작업에 대한 강력한 제로 샘플 일반화 기능을 가지고 있으며 시각적 입력을 기반으로 해당 실행 코드를 생성할 수도 있지만 일부 작업 계획보다 약간 열등하다고 생각합니다. - 시뮬레이션 환경에서 수집된 데이터를 조정합니다.

요약

연구원들은 현재 작업의 몇 가지 한계를 지적했습니다.

현재 Octopus 모델은 복잡한 작업을 처리할 때 제대로 작동하지 않습니다. 복잡한 작업에 직면할 때 Octopus는 종종 잘못된 계획을 세우고 환경의 피드백 정보에 크게 의존하므로 전체 작업을 완료하기 어렵습니다

2. Octopus 모델은 시뮬레이션 환경에서만 훈련되지만 이를 어떻게 현실 세계에는 일련의 문제에 직면하게 될 것입니다. 예를 들어, 실제 환경에서는 모델이 객체의 상대적인 위치 정보를 보다 정확하게 획득하기 어려울 것이며, 객체의 장면에 대한 이해를 구축하는 것도 더욱 어려워질 것입니다.

3. 현재 문어의 시각적 입력은 개별 정적 사진이므로 연속적인 동영상을 처리할 수 있도록 하는 것이 향후 과제가 됩니다. 지속적인 비디오는 작업 완료 시 모델의 성능을 더욱 향상시킬 수 있지만 지속적인 시각적 입력을 효율적으로 처리하고 이해하는 방법이 VLM 성능 향상의 핵심이 될 것입니다

위 내용은 AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제