>  기사  >  기술 주변기기  >  리페이페이가 중점을 둔 '체화된 지능'은 어디에 도달했나요?

리페이페이가 중점을 둔 '체화된 지능'은 어디에 도달했나요?

王林
王林앞으로
2023-04-17 21:34:011346검색

2009년 당시 프린스턴 대학에서 근무하던 컴퓨터 과학자 리 페이페이(Li Feifei)는 인공 지능의 역사를 바꾼 데이터 세트인 ImageNet 구축을 주도했습니다. 여기에는 복잡한 기계 학습 모델을 훈련하여 이미지의 개체를 인식하는 데 사용할 수 있는 수백만 개의 레이블이 지정된 이미지가 포함되어 있습니다.

2015년에는 기계 인식 능력이 인간을 능가했습니다. Li Feifei는 곧 또 다른 "북극성"이라고 부르는 것을 찾는 새로운 목표로 전환했습니다. 여기서 "북극성"은 연구자들이 해결에 집중하는 핵심 과학적 문제를 말하며, 이는 연구 열정을 불러일으키고 획기적인 진전을 이룰 수 있습니다.

리페이페이가 중점을 둔 '체화된 지능'은 어디에 도달했나요?

그녀는 많은 육지 동물 종이 처음 등장했던 캄브리아기 생명의 폭발을 5억 3천만 년 전으로 되돌아보며 영감을 얻었습니다. 한 영향력 있는 이론은 새로운 종의 폭발이 부분적으로는 생물이 처음으로 주변 세계를 볼 수 있게 해 준 눈의 출현에 의해 주도되었다고 제안합니다. Li Feifei는 동물의 시각이 고립되어 발생하는 것이 아니라 "급격하게 변화하는 환경에서 움직이고, 탐색하고, 생존하고, 조작하고 변화해야 하는 전체에 깊이 내재되어 있다"고 말했습니다. 오늘날 Li Feifei의 작업은 데이터 세트에서 정적 이미지를 수신할 수 있을 뿐만 아니라 3차원 가상화를 수행하고 주변 환경과 상호 작용할 수 있는 AI 에이전트에 중점을 두고 있습니다.

이것이 “체화된 AI”라는 새로운 분야의 광범위한 목표입니다. 로봇은 현실 세계에서 구현된 AI 에이전트 및 강화 학습과 물리적으로 동일하다고 볼 수 있다는 점에서 로봇 공학과 겹칩니다. 리페이페이가 중점을 둔 '체화된 지능'은 어디에 도달했나요?Li Feifei와 다른 사람들은 이미지 인식과 같은 기계 학습의 단순한 능력에서부터 오믈렛 만들기와 같은 여러 단계를 통해 복잡한 인간과 유사한 작업을 수행하는 방법을 배우는 것까지, 구현된 AI가 우리에게 큰 변화를 가져올 수 있다고 믿습니다.

현재 구체화된 AI 작업에는 자체 환경을 감지하고 변경할 수 있는 모든 에이전트가 포함됩니다. 로봇 공학에서 AI 에이전트는 항상 로봇 몸체에 거주하는 반면, 실제 시뮬레이션의 에이전트는 가상 몸체를 가질 수도 있고 움직이는 카메라 위치를 통해 세계를 인식하고 주변 환경과 상호 작용할 수도 있습니다. "화신의 의미는 신체 자체가 아니라 환경과 상호 작용하고 환경에서 일을 하는 전반적인 요구와 기능입니다."라고 Li Feifei는 설명했습니다.

이러한 상호 작용은 상담원에게 세상을 이해하는 새롭고 더 나은 방법을 제공합니다. 이는 이전에는 두 개체 사이의 가능한 관계를 관찰하기만 했으나 이제는 이 관계를 직접 실험하고 만들 수 있다는 사실과 동일합니다. 이 새로운 이해를 통해 아이디어가 실행되고 더 큰 지혜가 뒤따릅니다. 새로운 가상 세계 세트가 실행되면서 구현된 AI 에이전트는 이러한 잠재력을 깨닫기 시작했으며 새로운 환경에서 상당한 발전을 이루었습니다.

독일 오스네브뤼크 대학교의 체형 AI 연구원인 비비안 클레이(Viviane Clay)는 “현재로서는 세상과 상호작용하여 학습하지 않는 지능이 존재한다는 증거가 없습니다.”라고 말했습니다.

완벽한 시뮬레이션을 향하여

연구원들은 오랫동안 AI 에이전트가 탐색할 수 있는 실제 가상 세계를 만들고 싶었지만, 만들어진 지 약 5년밖에 되지 않았습니다. 이 기능은 영화 및 비디오 게임 산업의 그래픽 개선에서 비롯됩니다. 2017년에는 AI 에이전트가 실내 공간을 집에 있는 것처럼 사실적으로 묘사할 수 있습니다. 가상이지만 문자 그대로의 '집'입니다. Allen Institute for Artificial Intelligence의 컴퓨터 과학자들은 에이전트가 자연스러운 부엌, 욕실, 거실 및 침실을 돌아다닐 수 있는 AI2-Thor라는 시뮬레이터를 구축했습니다. 에이전트는 이동에 따라 변화하는 3차원 보기를 학습할 수 있으며, 자세히 살펴보기로 결정하면 시뮬레이터가 새로운 각도를 보여줍니다.

이 새로운 세계는 지능형 에이전트에게 새로운 차원의 "시간"의 변화에 ​​대해 생각할 수 있는 기회도 제공합니다. Simon Fraser University의 컴퓨터 그래픽 연구원인 Manolis Savva는 "이것은 큰 변화입니다. 구현된 AI 환경에서는 제어할 수 있는 시간적으로 일관된 정보 흐름이 있습니다."라고 말했습니다. 완전히 새로운 작업을 수행하도록 상담원을 교육할 수 있을 만큼 충분합니다. 물체를 인식할 수 있을 뿐만 아니라, 물체와 상호 작용하고, 집어 들고 주변을 탐색할 수도 있습니다. 모든 에이전트가 환경을 이해하려면 겉보기에 작은 단계가 필요합니다. 2020년에는 가상 에이전트가 비전을 뛰어넘어 가상 사물이 내는 소리를 들을 수 있게 되어 사물을 이해하고 사물이 세상에서 어떻게 작동하는지에 대한 새로운 관점을 제공합니다.

가상 세계(ManipulaTHOR 환경)에서 실행할 수 있는 구체화된 AI 에이전트는 다른 방식으로 학습하며 더 복잡하고 인간과 유사한 작업에 더 적합할 수 있습니다.

그러나 시뮬레이터에는 자체적인 한계도 있습니다. 스탠포드 대학의 컴퓨터 과학자인 Daniel Yamins는 “최고의 시뮬레이터라도 실제 세계보다 훨씬 덜 현실적입니다.”라고 말합니다. Yamins는 MIT 및 IBM의 동료들과 함께 가상 세계에서 액체의 거동과 일부 물체가 한 영역에서는 단단하고 다른 영역에서는 다시 유연해지는 방식과 같은 실제 물리학을 시뮬레이션하는 데 초점을 맞춘 프로젝트인 ThreeDWorld를 공동 개발했습니다. .

이것은 AI가 새로운 방식으로 학습해야 하는 매우 어려운 작업입니다.

신경망과 비교

지금까지 구현된 AI의 진행 상황을 측정하는 간단한 방법은 구현된 에이전트의 성능을 더 간단한 정적 이미지 작업에 대해 훈련된 알고리즘과 비교하는 것입니다. 연구원들은 이러한 비교가 완벽하지는 않지만 초기 결과는 구현된 AI가 이전 AI와 다르게, 때로는 더 잘 학습한다는 것을 시사합니다.

최근 논문("Interactron: Embodied Adaptive ObjectDetection")에서 연구자들은 내장된 AI 에이전트가 특정 개체를 감지하는 데 있어 기존 방법보다 거의 12% 더 정확하다는 사실을 발견했습니다. Allen Institute for Artificial Intelligence의 컴퓨터 과학자인 공동 저자인 Roozbeh Mottaghi는 "객체 감지 분야가 이 수준의 개선을 달성하는 데 3년 이상이 걸렸습니다. 그리고 우리는 상호 작용을 통해 많은 것을 달성했습니다."라고 말했습니다. "다른 논문에서는 구체화된 AI의 형태를 취하여 가상 공간을 한 번 탐색하거나 돌아다니면서 객체에 대한 여러 관점을 수집할 때 객체 감지 알고리즘이 발전하는 것으로 나타났습니다.

연구원들은 또한 구현된 알고리즘과 기존 알고리즘이 완전히 다르게 학습한다는 사실을 발견했습니다. 이를 입증하기 위해 모든 구현된 알고리즘과 많은 구현되지 않은 알고리즘의 학습 기능 뒤에 있는 기본 요소인 신경망을 고려해보세요. 신경망은 인간 두뇌의 네트워크를 따라 느슨하게 모델링된 여러 층의 인공 뉴런 노드로 구성됩니다. 두 개의 개별 논문에서 연구자들은 구현된 에이전트의 신경 네트워크에서 시각적 정보에 반응하는 뉴런의 수가 적다는 사실을 발견했습니다. 이는 각 개별 뉴런이 반응하는 방식에 있어 더 선택적이라는 것을 의미합니다. 분리된 네트워크는 훨씬 덜 효율적이므로 대부분의 시간 동안 활성 상태를 유지하려면 더 많은 뉴런이 필요합니다. 한 연구 팀(신임 NYU 교수 Grace Lindsay가 이끄는)은 구현된 신경망과 비구체화된 신경망을 살아있는 뇌(생쥐의 시각 피질)의 신경 활동과 비교하여 구현된 신경망이 생명체에 가장 가까운 것임을 발견했습니다. 몸.

Lindsay는 이것이 반드시 구현된 버전이 더 낫다는 의미는 아니며 단지 다를 뿐이라는 점을 재빠르게 지적합니다. 객체 감지 논문과 달리 Lindsay 등의 연구에서는 동일한 신경망의 잠재적인 차이를 비교하여 에이전트가 완전히 다른 작업을 완료할 수 있도록 하므로 목표를 달성하려면 다르게 작동하는 신경망이 필요할 수 있습니다.

실현 신경망과 비구체 신경망을 비교하는 것은 개선을 측정하는 한 가지 방법이지만, 연구자가 실제로 원하는 것은 기존 작업에서 구체화된 에이전트의 성능을 향상시키는 것이 아니라 구현된 에이전트의 성능을 향상시키는 것입니다. 기존 작업에 대한 에이전트의 목표는 더 복잡하고 인간과 유사한 작업을 배우는 것입니다. 이것이 연구자들을 가장 흥분시키는 부분이며, 특히 탐색 작업에서 인상적인 진전을 보이고 있습니다. 이러한 작업에서 에이전트는 목적지의 장기 목표를 기억하는 동시에 길을 잃거나 물체에 부딪히지 않고 목적지에 도달하기 위한 계획을 세워야 합니다.

Meta AI의 연구 책임자이자 Georgia Tech 컴퓨터 과학자인 Dhruv Batra가 이끄는 팀은 불과 몇 년 만에 "포인트 목표 탐색 진행"이라는 특정 탐색 작업에서 큰 진전을 이루었습니다. 이 작업에서 에이전트는 완전히 새로운 환경에 배치되며 지도 없이 특정 좌표(예: "북쪽 5m, 동쪽 10m 지점으로 이동")로 이동해야 합니다.

Batra는 "AI Habitat"이라는 메타 가상 세계에서 에이전트를 훈련시키고 GPS와 나침반을 제공하여 표준 데이터 세트에서 99.9% 이상의 정확도를 달성할 수 있다는 것을 발견했다고 말했습니다. 최근에는 나침반이나 GPS 없이 보다 어렵고 현실적인 시나리오로 결과를 성공적으로 확장했습니다. 그 결과, 에이전트는 이동하는 동안 본 픽셀 스트림만을 사용하여 위치를 추정하는 데 94%의 정확도를 달성했습니다.

리페이페이가 중점을 둔 '체화된 지능'은 어디에 도달했나요?

Meta AI Dhruv Batra 팀이 만든 "AI Habitat" 가상 세계입니다. 그들은 구현된 AI가 벽시계 시간 20분 만에 20년의 시뮬레이션 경험을 달성할 수 있을 때까지 시뮬레이션 속도를 높이기를 희망합니다.

Mottaghi는 "이것은 큰 개선이지만 탐색 문제가 완전히 해결되었다는 의미는 아닙니다. 다른 많은 유형의 탐색 작업에는 "주방을 통과하세요"와 같이 더 복잡한 언어 지침을 사용해야 하기 때문입니다. 침실에 있는 침대 옆 탁자 위에 있는 물건을 가져가려면 안경'을 사용하더라도 정확도는 여전히 30~40% 정도에 불과합니다.

그러나 에이전트가 환경을 이동할 때 아무것도 조작할 필요가 없기 때문에 내비게이션은 구현된 AI에서 가장 간단한 작업 중 하나로 남아 있습니다. 지금까지 구현된 AI 에이전트는 객체 관련 작업을 마스터하는 것과는 거리가 멀습니다. 문제 중 하나는 에이전트가 새로운 개체와 상호 작용할 때 많은 오류를 범할 수 있고 오류가 쌓일 수 있다는 것입니다. 현재 대부분의 연구자들은 단 몇 단계만으로 작업을 선택하여 이 문제를 해결하지만, 베이킹이나 설거지와 같은 대부분의 인간과 유사한 활동에는 여러 개체에 대한 긴 일련의 작업이 필요합니다. 이 목표를 달성하려면 AI 에이전트가 더욱 발전해야 합니다.

Fei-Fei Li는 ImageNet 프로젝트가 객체 인식을 위해 수행한 것처럼 구체화된 AI에 기여하기 위해 그녀의 팀이 시뮬레이션 데이터세트인 BEHAVIOR를 개발하면서 이 점에서 다시 선두에 설 수 있습니다.

리페이페이가 중점을 둔 '체화된 지능'은 어디에 도달했나요?

이 데이터 세트에는 에이전트가 완료해야 하는 100개 이상의 인간 활동이 포함되어 있으며 테스트는 모든 가상 환경에서 완료할 수 있습니다. Fei-Fei Li 팀의 새로운 데이터 세트를 사용하면 이러한 작업을 수행하는 에이전트와 동일한 작업을 수행하는 인간의 실제 비디오를 비교하는 지표를 생성하여 커뮤니티에서 가상 AI 에이전트의 진행 상황을 더 잘 평가할 수 있습니다.

에이전트가 이러한 복잡한 작업을 성공적으로 완료하면 Li Feifei는 시뮬레이션의 목적이 최종 작동 가능한 공간인 현실 세계를 위해 훈련하는 것이라고 믿습니다.

"제 생각에는 시뮬레이션은 로봇 공학 연구에서 가장 중요하고 흥미로운 분야 중 하나입니다." Li Feifei가 말했습니다.

로봇공학 연구의 새로운 개척

로봇은 본질적으로 지능을 구현한 것입니다. 그들은 현실 세계에서 일종의 육체에 거주하며 가장 극단적인 형태의 구체화된 AI 에이전트를 나타냅니다. 그러나 많은 연구자들은 그러한 에이전트도 가상 세계에서의 훈련을 통해 이점을 얻을 수 있다는 사실을 발견했습니다.

Mottaghi는 강화 학습과 같은 로봇 공학의 가장 발전된 알고리즘이 의미 있는 것을 학습하려면 수백만 번의 반복이 필요한 경우가 많다고 말했습니다. 따라서 어려운 작업을 수행하도록 실제 로봇을 훈련시키는 데는 수년이 걸릴 수 있습니다.

리페이페이가 중점을 둔 '체화된 지능'은 어디에 도달했나요?

로봇은 현실 세계의 불확실한 지형을 탐색할 수 있습니다. 새로운 연구에 따르면 가상 환경에서의 훈련은 로봇이 이러한 기술과 기타 기술을 익히는 데 도움이 될 수 있습니다.

하지만 먼저 가상 세계에서 훈련시키면 훨씬 더 빨라질 것입니다. 수천 명의 상담원이 수천 개의 서로 다른 회의실에서 동시에 교육을 받을 수 있습니다. 또한 가상 훈련은 로봇과 인간 모두에게 더 안전합니다.

2018년 OpenAI 연구진이 가상 세계에서 에이전트가 학습한 기술이 현실 세계로 전달될 수 있음을 입증하면서 많은 로봇 전문가들이 시뮬레이터에 더 많은 관심을 갖기 시작했습니다. 그들은 시뮬레이션에서만 보았던 큐브를 조작하기 위해 로봇 손을 훈련시켰습니다. 최근 연구에는 드론이 공중 충돌을 피하는 방법을 학습할 수 있게 하고, 서로 다른 두 대륙의 도시 환경에 자율주행차를 배치하고, 다리가 네 개인 로봇 개가 스위스 알프스에서 1시간 하이킹을 완료할 수 있게 하는 것 등이 포함됩니다. 인간과 같은 시간이 소요됩니다.)

미래에는 연구자들이 가상 현실 헤드셋을 통해 인간을 가상 공간으로 보내 시뮬레이션과 현실 세계 사이의 격차를 메울 수도 있습니다. 엔비디아 로봇 연구 수석 디렉터이자 워싱턴 대학 교수인 디터 폭스(Dieter Fox)는 로봇 연구의 핵심 목표는 현실 세계에서 인간에게 도움이 되는 로봇을 만드는 것이라고 지적했다. 하지만 그러기 위해서는 먼저 인간에게 노출되고 인간과 상호작용하는 방법을 배워야 합니다.

Fox는 가상 현실 기술을 사용하여 인간을 이러한 시뮬레이션 환경에 배치한 다음 프레젠테이션을 만들고 로봇과 상호 작용하도록 하는 것이 매우 강력한 접근 방식이 될 것이라고 말합니다.

시뮬레이션이든 실제 세계이든, 구현된 AI 에이전트는 인간과 더 유사해지고 작업을 완료하는 방법을 배우고 있습니다. 새로운 세계, 새로운 업무, 새로운 학습 알고리즘 등 모든 면에서 이 분야가 발전하고 있습니다.

“딥 러닝, 로봇 학습, 비전, 심지어 언어까지의 융합이 보입니다.”라고 Li Feifei는 말했습니다. “이제 구현된 AI에 대한 '문샷' 또는 '북극성'을 통해 지능의 기초를 배울 것이라고 생각합니다. . 기술, 이는 진정한 획기적인 발전을 가져올 수 있습니다."

리페이페이가 중점을 둔 '체화된 지능'은 어디에 도달했나요?

컴퓨터 비전의 "North Star" 문제를 논의한 Li Feifei의 기사. 링크: https://www.amacad.org/publication/searching-computer-vision-north-stars

위 내용은 리페이페이가 중점을 둔 '체화된 지능'은 어디에 도달했나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제