집 >기술 주변기기 >일체 포함 >신경망에는 공간 인식 기능도 있습니다! Nature 하위 잡지에 게재된 Minecraft에서 지도를 만드는 방법을 알아보세요.

신경망에는 공간 인식 기능도 있습니다! Nature 하위 잡지에 게재된 Minecraft에서 지도를 만드는 방법을 알아보세요.

王林원래의: 2024-07-24 09:38:12712검색

인간이 신경망이 자신만의 지도를 만들 수 있다는 것을 보여준 것은 이번이 처음입니다. 낯선 마을에 있다고 상상해 보세요. 처음에는 주변 환경이 낯설더라도 주변을 둘러보며 결국에는 서로 상호작용하는 건물, 거리, 표지판 등이 포함된 환경의 지도를 뇌 속에 그려볼 수 있습니다. . 그들 사이의 위치 관계. 뇌에서 공간 지도를 구성하는 이러한 능력은 인간의 고차원적인 인지 유형의 기초가 됩니다. 예를 들어, 언어는 뇌의 지도와 유사한 구조에 의해 인코딩되는 것으로 이론화됩니다. 그러나 가장 발전된 인공지능과 신경망조차도 그런 지도를 허공에서 구축할 수는 없습니다. 전산 생물학 조교수이자 Heritage Medical Research Institute의 연구원인 Matt Thomson은 다음과 같이 말했습니다. "가장 발전된 인공 지능 모델조차 진정한 지능을 갖지 못한다는 인식이 있습니다. 그들은 우리와 같은 문제를 해결할 수 없으며 입증되지 않은 수학적 결과를 증명할 수도 없습니다. "우리는 이것이 개념 공간에서 탐색할 수 없기 때문이라고 생각합니다. 복잡한 문제를 해결하는 것은 탐색처럼 개념 공간에서 이동하는 것과 같습니다. AI는 암기 학습에 더 가깝습니다. 뒤로 - 입력을 하면 그러나 다른 아이디어를 종합할 수는 없습니다." 최근 Thomson Laboratory의 새 논문에서는 신경망이 "예측 코딩"이라는 알고리즘을 사용할 수 있음을 발견했습니다. 공간 지도를 구축합니다. 이 논문은 7월 18일 Nature Machine Intelligence 저널에 게재되었습니다.

1. 논문 주소: https://www.nature.com/articles/s42256-024-00863-1

코드 주소: https://github.com/jgornet/predictive-coding-recovers-maps

대학원생 James Gornet이 팀을 이끌고 Minecraft에서 복잡한 요소(예: 나무, 강, 동굴)를 통합한 환경을 구축했습니다. 그들은 무작위로 해당 지역을 걷는 플레이어의 비디오를 녹화하고 비디오를 사용하여 예측 코딩 알고리즘을 갖춘 신경망을 훈련했습니다.

연구에 따르면 신경망은 Minecraft 세계의 개체가 어떻게 구성되어 있는지 학습하고 플레이어가 공간을 이동할 때 접하게 될 환경을 "예측"할 수 있는 것으로 나타났습니다.

신경망에는 공간 인식 기능도 있습니다! Nature 하위 잡지에 게재된 Minecraft에서 지도를 만드는 방법을 알아보세요.

예측 코딩 알고리즘과 Minecraft 게임의 결합은 신경망에 공간 맵을 생성한 다음 이러한 공간 맵을 사용하여 비디오의 후속 프레임을 예측하는 방법을 성공적으로 "교육"했습니다. 예측된 이미지와 최종 이미지는 0.094%에 불과했습니다.

더 중요한 것은 연구팀이 신경망을 "개방"(내부 구조를 조사하는 것과 동일)하고 다양한 객체의 표현이 서로에 대해 공간적으로 저장되어 있다는 사실을 발견했다는 것입니다. 즉, 그들은 신경망에 저장된 마인크래프트 환경의 지도를 본 것입니다.

신경망은 GPS를 사용하여 자율 주행 자동차와 같이 인간 설계자가 제공한 지도를 탐색할 수 있지만, 인간이 신경망이 자신의 지도를 만들 수 있음을 입증한 것은 이번이 처음입니다. 정보를 공간적으로 저장하고 구성하는 이러한 능력은 궁극적으로 신경망이 더욱 "스마트"해져서 인간처럼 정말 복잡한 문제를 해결할 수 있도록 도와줄 것입니다.

이 프로젝트는 이상한 결함이 있는 OpenAI의 Sora와 같은 기술에서는 아직 볼 수 없는 AI의 진정한 공간 인식 기능을 보여줍니다.

James Gornet은 Caltech의 신경과학, 기계 학습, 수학, 통계 및 생물학을 다루는 CNS(컴퓨터 및 신경 시스템)학과의 학생입니다.

"CNS 프로그램은 James가 다른 곳에서는 불가능했던 독특한 작업을 수행할 수 있는 장소를 실제로 제공합니다."라고 Thomson은 말했습니다. “우리는 인공 신경망에서 뇌의 속성을 역설계할 수 있는 생물학적으로 영감을 받은 기계 학습 접근 방식을 취하고 있으며, Caltech에는 이러한 유형의 연구를 매우 수용하는 팀이 있습니다. 》

예측 코딩을 수행하는 신경망

예측 코딩 추론 문제의 암시적 공간 표현에서 영감을 받아 연구원들은 예측 코딩 에이전트의 계산적 구현을 개발하고 가상 환경을 탐색하는 동안 에이전트의 동작을 연구했습니다. 학습된 공간 표현.

마인크래프트의 말뫼 환경을 활용해 환경을 만드는 것부터 시작했어요. 물리적 환경은 40 × 65 타일 크기를 가지며 시각적 장면의 세 가지 측면을 포함합니다. 동굴은 글로벌 시각적 랜드마크를 제공하고, 숲은 시각적 장면 간의 유사성을 가능하게 하며, 다리가 있는 강은 에이전트가 시각적 장면을 횡단하는 방식을 제한합니다. 환경 (그림 1a).

신경망에는 공간 인식 기능도 있습니다! Nature 하위 잡지에 게재된 Minecraft에서 지도를 만드는 방법을 알아보세요.

1. 에이전트는 A* 검색에 의해 결정된 경로를 따라 무작위로 샘플링된 위치 사이의 최단 경로를 찾고 각 경로에서 시각적 이미지를 받습니다.

예측 코딩을 수행하기 위해 저자는 인코더-디코더 컨벌루션 신경망을 구축했으며, 인코더는 ResNet-18 아키텍처를 채택하고 디코더는 전치 컨벌루션 ResNet-18 아키텍처를 채택했습니다(그림 1b). 인코더-디코더 아키텍처는 U-Net 아키텍처를 사용하여 인코딩된 잠재 단위를 디코더에 전달합니다.
과거 시각적 관찰 기록을 인코딩하기 위해 잠재 단위 시퀀스를 인코딩하는 다중 헤드 주의 프로세스입니다. 다중 방향 주의에는 h = 8개의 머리가 있습니다. 차원 D = C × H × W, 높이 H, 너비 W 및 채널 C의 코딩 잠재 단위의 경우 단일 헤드의 차원은 d = C × H × W/h입니다.
예측 인코더는 예측된 관측값과 실제 관측값의 차이를 맞추기 위해 평균 제곱 오류 최소화 전략을 채택합니다.

훈련 세부 사항:

샘플 수: 82,630
진화: 200
최적화 도구: Nesterov 운동량 경사 하강법
중량 감소: 5 × 10^(-6)
초기 학습 속도: 10^( - 1)
학습률 스케줄링: OneCycle

훈련 후 예측 인코더는 우수한 시각적 충실도를 달성하고 예측 이미지와 실제 이미지 간의 평균 제곱 오차는 0.094입니다(그림 1c 참조).

신경망에는 공간 인식 기능도 있습니다! Nature 하위 잡지에 게재된 Minecraft에서 지도를 만드는 방법을 알아보세요.

자세한 내용은 원본을 확인해주세요.

참조 링크:

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural- 네트워크는 Github에서 사용 가능한 Minecraft 코드를 사용하여 지도를 만드는 법을 배웁니다

위 내용은 신경망에는 공간 인식 기능도 있습니다! Nature 하위 잡지에 게재된 Minecraft에서 지도를 만드는 방법을 알아보세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 github 算法人工智能 https

성명：

이전 기사：GPT4o 수준을 능가하는 최초의 오픈 소스 모델! Llama 3.1 유출: 4,050억 개의 매개변수, 다운로드 링크 및 모델 카드 사용 가능다음 기사：GPT4o 수준을 능가하는 최초의 오픈 소스 모델! Llama 3.1 유출: 4,050억 개의 매개변수, 다운로드 링크 및 모델 카드 사용 가능