>  기사  >  기술 주변기기  >  AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 '인간의 생각' 맛이 난다

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 '인간의 생각' 맛이 난다

王林
王林앞으로
2023-04-09 18:21:041081검색

말썽을 피우는 중!

AI는 인간이 GitHub에 업데이트(커밋)를 제출하는 방법을 "살펴본" 다음 인간 프로그래머를 모방하여 코드를 수정했습니다...

결국 이 AI는 지능형 로봇도 성공적으로 "훈련"했습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

농담이 아닙니다. 최근 OpenAI가 발표한 연구에서 이런 끔찍한 일이 실제로 일어났습니다...

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

원래 연구자들이 해결하고 싶었던 것은 GP(유전 프로그래밍) 문제였습니다. 지능적인 로봇이 움직이는 법을 배우게 하는 것이었습니다. .

(GP는 진화 컴퓨팅의 특수 분야입니다. 주로 독립적으로 문제를 해결하는 프로그램을 자동으로 구축하는 것을 목표로 합니다.)

하지만 OpenAI는 다른 접근 방식을 취하여 자체 LLM(대규모 언어 모델)을 넣었습니다. 큰 "예상하지 못한" 일입니다.

과거에는 지능형 에이전트 진화 과정에서 지능형 에이전트가 좋은 방향으로 발전할 수 있도록 인간 연구자들이 몇 가지 세부 조정을 하고 진화 방향을 결정하는 데 참여해야 했습니다.

이제 더 나아졌습니다. 이러한 모든 작업은 큰 모델에서 처리되며 스스로 배우고 코드를 작성할 수 있습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

논문의 첫 번째 저자인 Joel Lehman이 이 문제를 폭로했습니다. 인터넷에서 네티즌들은 즉시 많은 관심을 받았습니다:

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

한 프로그래머 네티즌은 그것을 읽은 후 "(기술) 발전 속도를 따라갈 수 없다"고 말했습니다:

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

심지어 OpenAI 자체는 연구에서 다음과 같이 말했습니다.

인간의 마음 수준에서 작동하는 진화 알고리즘 간의 격차를 해소합니다.

그렇다면 AI는 어떻게 이 "마법"을 달성했을까요?

GitHub를 보면 AI가 스스로 코드를 입력합니다

가상 환경에서 모바일 로봇을 설계하는 것은 유전 알고리즘 연구에서 매우 인기 있는 프로젝트입니다.

특히 소다레이스 대회는 계산이 덜 필요하고 과정을 시각화하기 쉽기 때문에 매우 인기가 높습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

규칙은 간단합니다. "관절"과 "근육"으로 구성된 로봇이 다양한 지형에서 경주합니다.

OpenAI는 또한 최신 프로그래밍 언어에 대한 새로운 방법의 다양성을 보여주기 위해 전용 유전자 코딩에서 Python 버전까지 전체 경쟁 프로그램을 의도적으로 다시 작성했습니다.

예를 들어 이 Python 코드 조각을 초기 시드 로봇으로 사용할 수 있습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

사각형의 꼭지점 관절 4개와 끝 관절을 정의하고, 이를 "근육"으로 연결한 결과는 다음과 같습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

그런데 이런 정사각형 구조는 전혀 움직일 수 없습니다. 다음으로, 유전자 알고리즘으로 코드를 수정해야 합니다.

연구팀은 전통적인 유전자 알고리즘을 사용하여 코드를 수정하는 것과 인간 프로그래머가 직접 코드를 수정하는 것 사이에는 여전히 효율성에 두 가지 격차가 있다고 생각합니다.

하나는 소프트웨어가 점점 더 복잡해지고 있으며 인간은 이를 다음과 같이 처리할 수 있다는 것입니다. 모듈식 코드를 재사용하는 것입니다. 현재 가장 발전된 유전자 알고리즘은 인간이 사용하는 프로그래밍 언어에서 이를 수행할 수 없습니다.

다른 하나는 거의 모든 유전자 알고리즘이 무작위 돌연변이에 의존하며 인간 프로그래머가 코드를 수정할 때마다 기능을 추가하거나 효율성을 향상하거나 버그를 수정하려는 목적이 있다는 것입니다.

그럼 인간이 코드를 수정하는 방식을 AI가 학습할 수 있는 방법이 있을까요?

예, 필수 교육 데이터는 모두 GitHub에 저장되어 있습니다.

우수한 프로그래머는 코드를 제출할 때마다 커밋 설명을 작성하여 이 제출에서 수정된 내용을 명확하게 설명합니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

제출 전과 후의 코드를 비교하는 diff 데이터와 결합된 커밋 설명은 훌륭한 AI 학습 자료입니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

연구원들은 GPT-3 아키텍처 AI 모델을 훈련하기 위해 명확한 설명 의도와 약간의 수정된 코드가 포함된 일부 제출된 데이터를 선별했습니다.

AI가 인간 프로그래머로부터 의도적으로 코드 조각을 수정하는 방법을 배우게 하는 것과 같습니다.

본 논문에서 사용된 모델은 GPT-3 정식 버전의 1750억 매개변수만큼 클 필요는 없으며, 최대 7억 5천만 매개변수이면 충분합니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

이렇게 해서 기본 AI 모델이 얻어지고, 이는 유전 알고리즘에서 돌연변이 연산자 역할을 하게 됩니다.

AI가 새로운 로봇을 디자인하게 하는 다음 과정은 세 단계로 나누어집니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

첫 번째 단계에서는 클래식 MAP-Elites 알고리즘을 사용하여 초기 로봇 세트를 생성합니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

이것은 로봇이 다르게 행동하고 모두 높은 품질을 보장하는 QD(Quality Diversity) 알고리즘입니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

두 번째 단계는 첫 번째 단계에서 생성된 초기 데이터를 사전 훈련에 사용하여 AI가 먼저 훈련 데이터 분포 내에서 로봇 설계 방법을 학습할 수 있도록 하는 것입니다.

AI가 움직일 수 없는 '블록'을 다리를 번갈아 가며 한 단계씩 튀는 이동식 로봇으로 바꾸는 모습을 보여주며 인터넷의 모든 사람들을 놀라게 한 시작 부분의 애니메이션 사진입니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

세 번째 단계에서는 미세 조정을 위한 강화 학습 알고리즘과 결합하여 AI가 다양한 지형 조건에 따라 환경에 적응할 수 있는 로봇을 생성할 수 있습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

마지막으로 연구진은 효과를 입증하기 위해 처음 세 개의 씨앗에서 진화한 로봇을 선택했습니다.

구조와 움직임 방식이 전혀 다르다는 것을 알 수 있습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

네티즌들은 "생각이 너무 명확하다"고 감탄했습니다

이 연구가 발표되자 일석이조의 파동을 일으켰다고 할 수 있죠.

"대형 모델 + 진화 알고리즘"을 결합한 이 참신한 방식에 많은 네티즌들이 감탄했습니다:

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

관련 연구를 해본 연구자들도 대형 모델이 diff 형태로 사용될 수 있다고는 생각도 못했다고 합니다. mutations:

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

연구 형태와 자체에 대한 논의 외에도 일부 네티즌들은 다음과 같은 사진도 게시했습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

으음... 좀 그렇네요.

팀 소개

본 연구의 팀원은 모두 OpenAI 출신입니다.

논문의 첫 번째 저자는 기계 학습 과학자인 Joel Lehman입니다. 중점 분야로는 인공지능 보안, 강화학습, 개방형 검색 알고리즘 등이 있습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

동시에 Joel Lehman은 이전에 인공 지능 개발에 대한 자신의 생각을 바탕으로 과학 서적 "왜 위대함은 계획될 수 없는가: 객관성의 비밀"을 공동 집필했습니다.

AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 인간의 생각 맛이 난다

다음 단계는 다음과 같습니다. 이 연구에서 Joel Lehman은 다음과 같이 말했습니다.

또 다른 중요한 질문은 모델이 다른 환경에 적용될 수 있는 정도입니다.

이제 ELM을 통해 GP의 돌연변이 효능이 크게 향상될 수 있으며, 이는 광범위한 새로운 응용 분야와 연구 방향에 영감을 줄 것입니다.

이 연구가 당신에게 새로운 영감을 주었나요?

참조 링크:

[1]https://arxiv.org/abs/2206.08896

[2]https://twitter.com/joelbot3000/status/1538770905119150080?s=21&t=l8AASYjgC6RAEEimcQa 안개

위 내용은 AI는 에이전트가 진화할 수 있도록 자체 코드를 작성합니다! OpenAI의 대형 모델은 '인간의 생각' 맛이 난다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제