>기술 주변기기 >일체 포함 >LeCun의 최신 인터뷰: 물리적 세계가 결국 LLM의 '아킬레스건'이 되는 이유는 무엇입니까?

LeCun의 최신 인터뷰: 물리적 세계가 결국 LLM의 '아킬레스건'이 되는 이유는 무엇입니까?

WBOY
WBOY앞으로
2024-03-11 12:52:09431검색

인공지능 분야에서 얀 르쿤처럼 65세의 나이에도 여전히 SNS에서 왕성한 활동을 펼치는 학자는 거의 없습니다.

Yann LeCun은 인공지능 분야의 거침없는 비평가로 알려져 있습니다. 그는 오픈 소스 정신의 적극적인 지지자였으며 Meta 팀이 인기 있는 Llama 2 모델을 출시하도록 이끌었고 오픈 소스 대형 모델 분야의 리더가 되었습니다. 많은 사람들이 인공지능의 미래에 대해 불안하고 종말의 시나리오에 대해 걱정하고 있지만 르쿤은 다른 견해를 가지고 있으며 인공지능의 발전이 사회, 특히 초지능의 도래에 긍정적인 영향을 미칠 것이라고 굳게 믿고 있습니다.

최근 LeCun은 다시 Lex Fridman의 팟캐스트에 와서 오픈 소스의 중요성, LLM의 한계, 인공 지능 종말론자가 잘못된 이유와 AGI로 가는 길과 같은 주제에 대해 거의 3시간 동안 대화를 나누었습니다. .

LeCun의 최신 인터뷰: 물리적 세계가 결국 LLM의 아킬레스건이 되는 이유는 무엇입니까?

감상 페이지: https://youtu.be/5t1vTLU7s40?feature=shared

이 팟캐스트에서 몇 가지 중요한 내용을 선택했습니다. 다음은 관련 콘텐츠입니다. LLM

Lex Fridman: 자동 회귀 LLM이 초인적 지능을 향한 진보를 이루는 방식이 아니라고 말씀하셨는데요. 왜 그들은 우리를 끝까지 데려갈 수 없나요?

Yann LeCun

: 여러 가지 이유가 있습니다. 첫째, 지능적인 행동에는 많은 특징이 있습니다. 예를 들어, 세계를 이해하는 능력, 물리적 세계를 이해하는 능력, 사물을 기억하고 인출하는 능력, 지속기억, 추론 및 계획 능력 등이 있습니다. 이는 지능 시스템이나 개체, 인간, 동물의 네 가지 기본 특성입니다. LLM은 이러한 작업을 수행할 수 없거나 매우 원시적인 방식으로만 수행할 수 있으며 실제 세계를 실제로 이해하지 못합니다. LLM에는 실제로 지속되는 기억력이 없으며 실제로 추론할 수 없으며 확실히 계획할 수도 없습니다. 따라서 시스템이 스마트할 것으로 기대하지만 이러한 일을 수행할 수 없다면 실수를 범하고 있는 것입니다. 이것은 자동회귀 LLM이 쓸모없다고 말하는 것이 아닙니다. 확실히 유용하지만 흥미롭지 않으며 이를 중심으로 전체 앱 생태계를 구축할 수 없습니다. 그러나 인간 수준의 지능에 대한 여권으로서 필요한 구성 요소가 부족합니다. 우리는 언어보다 감각 입력을 통해 훨씬 더 많은 정보를 보고, 직관에도 불구하고 우리가 배우고 아는 대부분은 관찰과 현실 세계와의 상호 작용을 통해 말이 아닌 상호 작용합니다. 우리가 인생의 첫해에 배우는 모든 것, 그리고 확실히 동물이 배우는 모든 것은 언어와 아무런 관련이 없습니다.

Lex Fridman: LLM은 물리적 세계에 대한 이해가 부족하다고 말씀하셨나요? 따라서 직관적 물리학, 물리적 공간, 물리적 현실에 대한 상식적 추론은 여러분에게 특별한 것이 아닙니다. 이것이 LLM이 할 수 없는 큰 도약인가요?

Yann LeCun:

오늘날 우리가 사용하는 LLM은 여러 가지 이유로 이 작업을 수행할 수 없지만, 가장 큰 이유는 LLM이 훈련되는 방식이 다음과 같다는 것입니다. 이를 마스크하고 빈 토큰으로 대체한 다음 유전자 신경망을 훈련하여 누락된 단어를 예측합니다. 왼쪽에 있는 단어나 예측하려는 단어만 볼 수 있도록 특별한 방법으로 이 신경망을 구축하면 기본적으로 텍스트의 다음 단어를 예측하려는 시스템이 됩니다. 따라서 텍스트와 프롬프트를 제공하고 다음 단어를 예측하도록 할 수 있습니다. 결코 다음 단어를 정확하게 예측할 수 없습니다. 그래서 이것이 하는 일은 사전에 있는 모든 가능한 단어에 대한 확률 분포를 생성하는 것입니다. 사실, 그것은 단어를 예측하지 않습니다. 단어 덩어리를 하위 단어 단위로 예측하므로 사전에 나타날 수 있는 단어 수가 제한되어 있고 해당 분포만 계산하기 때문에 예측의 불확실성을 쉽게 처리할 수 있습니다. 그런 다음 시스템은 이 분포에서 단어를 선택합니다. 물론, 이 분포에서는 확률이 높은 단어를 선택할 확률이 높아집니다. 따라서 해당 분포에서 샘플링하고 실제로 단어를 생성한 다음 해당 단어를 입력으로 이동하여 시스템이 두 번째 단어를 예측하지 않도록 합니다.

이를 자동 회귀 예측이라고 하며, 이러한 LLM을 "자동 회귀 LLM"이라고 불러야 하지만 우리는 그냥 LLM이라고 부릅니다. 이 과정은 단어를 생산하기 전의 과정과 다르다.

당신과 내가 이야기할 때, 당신과 나는 둘 다 이중 언어를 사용하며 우리가 말할 언어와는 상대적으로 독립적으로 우리가 말할 내용에 대해 생각합니다. 우리가 수학적 개념에 관해 이야기할 때 우리가 하는 생각과 우리가 제시하려는 대답은 그것을 프랑스어로 표현하든, 러시아어로, 영어로 표현하든 관계가 없습니다.

Lex Fridman: 촘스키는 눈을 굴렸지만 알겠습니다. 그러면 언어와 매핑 이전에 더 큰 추상화가 존재한다는 말씀이신가요?

Yann LeCun: 우리가 생각하는 많은 부분은 그렇습니다.

Lex Fridman: 당신의 유머는 추상적인가요? 당신이 트윗할 때, 그리고 당신의 트윗이 때때로 약간 자극적일 때, 트윗이 영어로 매핑되기 전에 당신의 두뇌에 추상적인 표현이 있습니까?

Yann LeCun: 에는 텍스트에 대한 독자의 반응을 상상하는 추상적인 표현이 있습니다. 하지만 수학적 개념을 생각하는 것, 나무로 무엇을 만들고 싶은지 상상하는 것 등은 언어와는 전혀 관계가 없습니다. 특정 언어로 내부 독백이 이루어지지 않습니다. 당신은 사물의 정신적 모델을 상상하고 있습니다. 내 말은, 이 물병을 90도 회전하면 어떤 모습일지 상상해 보라고 한다면 그것은 언어와는 아무런 관련이 없다는 것입니다. 우리의 사고의 대부분은 보다 추상적인 표현 수준에서 발생한다는 것이 분명합니다. 출력이 언어라면 우리는 근육 움직임을 출력하는 대신 답변을 만들기 전에 계획을 세울 것입니다. .

LLM은 그런거 안하고 그냥 본능적으로 한 마디씩 말해요. 그것은 누군가가 당신에게 질문을 하고 당신이 그것에 대답하는 일종의 잠재의식의 움직임과 같습니다. 답을 생각할 시간은 없었지만 간단했습니다. 따라서 주의를 기울일 필요가 없으며 자동으로 반응합니다. 이것이 바로 LLM이 하는 일입니다. 실제로 답에 대해 생각하지 않습니다. 많은 지식을 축적했기 때문에 몇 가지를 검색할 수는 있지만 답을 계획하지 않고 토큰을 토큰으로 뱉어낼 뿐입니다.

Lex Fridman: 토큰별로 토큰을 생성하는 것은 필연적으로 단순하지만, 월드 모델이 충분히 복잡하다면 일련의 토큰을 생성할 가능성이 가장 높으며 이는 심오한 일이 될 것입니다.

Yann LeCun: 하지만 이는 이러한 시스템이 실제로 세계의 영원한 모델을 가지고 있다는 가정에 기반을 두고 있습니다.

동영상 예측

Lex Fridman: 그렇다면 진짜 질문은... 세상에 대한 깊은 이해가 있는 모델을 만들 수 있습니까?

Yann LeCun: 예측을 통해 구축할 수 있나요? 대답은 아마도 '예'일 것입니다. 하지만 단어를 예측하여 구축할 수 있을까요? 대답은 '아니오'일 가능성이 높습니다. 왜냐하면 언어는 약하거나 낮은 대역폭에서 매우 열악하고 정보가 충분하지 않기 때문입니다. 따라서 세계 모델을 구축한다는 것은 세계를 바라보고, 세계가 왜 지금과 같이 진화하는지 이해하고, 세계 모델의 추가 구성 요소는 사용자가 할 수 있는 행동의 결과로 세계가 어떻게 진화할 것인지 예측할 수 있다는 것을 의미합니다. 가져가다.

실제 모델은 다음과 같습니다. 시간 T의 세계 상태에 대한 내 생각은 다음과 같습니다. 그리고 여기에 내가 취할 수 있는 조치가 있습니다. T+1 시점에 예상되는 세계 상태는 무엇입니까? 이제 세계의 상태는 세계에 관한 모든 것을 나타낼 필요는 없습니다. 단지 이 작업을 계획하는 데 관련된 충분한 정보만 나타내면 되지만 반드시 모든 세부 사항을 나타낼 필요는 없습니다.

이제 문제가 발생합니다. 생성 모델은 이를 수행할 수 없습니다. 따라서 생성 모델은 비디오에 대한 훈련이 필요하며 우리는 이를 10년 동안 시도해 왔습니다. 비디오를 찍고 시스템에 비디오를 보여주면 기본적으로 비디오의 알림을 예측하라는 요청을 받습니다. 무슨 일이 일어날지 예측하는 것.

원한다면 대형 비디오 모형을 만들 수 있습니다. 이를 수행하려는 아이디어는 오랫동안 존재해 왔습니다. FAIR에서 저와 동료 중 일부는 10년 동안 이를 시도했지만 LLM에서는 실제로 동일한 트릭을 수행할 수 없습니다. 즉, 정확하게 할 수는 없지만 단어의 순서 뒤에 어떤 단어가 나올지 예측할 수는 있지만 단어의 분포는 예측할 수 있습니다. 이제 가서 비디오를 보면 비디오에서 가능한 모든 프레임의 분포를 예측해야 하는데 우리는 이를 올바르게 수행하는 방법을 모릅니다.

우리는 고차원 연속 공간의 분포를 유용한 방식으로 표현하는 방법을 모릅니다. 이것이 주요 문제이며, 세상은 말보다 훨씬 더 복잡하고 정보가 풍부하기 때문에 우리가 이것을 할 수 있습니다. 텍스트는 불연속적인 반면 비디오는 고차원적이고 연속적입니다. 여기에는 많은 세부 사항이 있습니다. 그래서 제가 이 방의 비디오를 찍고 카메라가 비디오에서 이리저리 움직이고 있다면, 제가 이리저리 돌아다니는 동안 방 안에 있을 모든 것을 예측할 수는 없습니다. 또한 시스템은 카메라가 패닝할 때 실내에 무엇이 나타날지 예측할 수 없습니다. 어쩌면 그것은 방이고 그 안에 빛이 있고 벽이 있다고 예측할 수도 있습니다. 벽에 걸린 그림이 어떤 모습일지, 소파의 질감이 어떤 모습일지 예측할 수 없습니다. 물론 카펫의 질감을 예측할 수 있는 방법은 없습니다. 그래서 나는 그 모든 세부 사항을 예측할 수 없습니다.

그래서 우리가 연구해온 이 문제를 해결할 수 있는 한 가지 방법은 소위 잠재 변수를 사용하여 모델을 구축하는 것입니다. 잠재 변수는 아직 감지하지 못한 세계에 대한 모든 정보를 나타내는 신경망에 공급됩니다. 카펫의 미묘함을 포함하여 픽셀을 잘 예측할 수 있도록 시스템의 예측력을 향상시켜야 합니다. , 소파, 벽의 질감에 그림.

우리는 직접 신경망, GAN, VAE, 다양한 정규화된 자동 인코더를 시도했습니다. 우리는 또한 이러한 방법을 사용하여 이미지나 비디오의 좋은 표현을 학습한 다음 이미지 분류 시스템 등에 대한 입력으로 사용할 수 있도록 노력합니다. 기본적으로 모두 실패했습니다.

이미지나 비디오의 손상된 버전에서 누락된 부분을 예측하려고 시도하는 모든 시스템은 기본적으로 다음을 수행합니다. 이미지나 비디오를 가져와서 손상시키거나 어떤 방식으로든 변환한 다음 손상된 버전에서 재구성하려고 시도합니다. 버전 완전한 비디오 또는 이미지, 그리고 객체 인식, 분할 등에 사용할 수 있는 시스템 내에서 좋은 이미지 표현이 개발될 수 있기를 바랍니다. 이 접근 방식은 기본적으로 완전한 실패이지만 텍스트의 경우 매우 잘 작동합니다. 이것이 LLM에 사용되는 원칙입니다.

Lex Fridman: 실패는 어디서 왔나요? 중요한 정보를 모두 이미지에 잘 담아내는 등 이미지를 잘 표현하는 것이 어려운가요? 영상을 구성하는 것은 이미지와 이미지, 이미지와 이미지의 일관성인가? 당신이 실패하는 모든 방법을 모아서 만든다면 어떤 모습일까요?

Yann LeCun: 우선, 작동하지 않는 것이 무엇인지 말해야 합니다. 왜냐하면 작동하는 다른 일이 있기 때문입니다. 따라서 작동하지 않는 것은 이미지 표현을 학습하도록 시스템을 교육하고 손상된 이미지에서 좋은 이미지를 재구성하도록 시스템을 교육하는 것입니다.

저희는 이를 위한 전체 기술 제품군을 보유하고 있습니다. 이는 모두 잡음 제거 자동 인코더의 변형이며 FAIR의 일부 동료는 MAE(마스킹된 자동 인코더)라는 것을 개발했습니다. 기본적으로 LLM이나 그와 유사한 것입니다. 텍스트를 손상시켜 시스템을 훈련하지만, 이미지를 손상시키고 패치를 제거한 다음 거대한 신경망을 훈련시켜 재구성합니다. 얻은 기능은 좋지 않으며 좋지 않다는 것을 알고 있습니다. 왜냐하면 이제 동일한 아키텍처를 훈련하지만 레이블이 지정된 데이터, 이미지의 텍스트 설명 등을 사용하여 감독하면서 훈련하면 좋은 표현을 얻을 수 있기 때문입니다. 인식 작업에 대한 성과는 이런 종류의 자기 감독 재교육을 수행하는 것보다 훨씬 좋습니다.

구조도 좋고 인코더의 구조도 좋지만 이미지를 재구성하도록 시스템을 훈련시킨다고 해서 이미지의 길고 좋은 일반적인 특징이 생성되는 것은 아닙니다. 그렇다면 대안은 무엇입니까? 또 다른 접근 방식은 조인트 임베딩(Joint Embedding)입니다.

JEPA(Joint Embedding Prediction Architecture)

Lex Fridman:: Joint Embedding Architecture와 LLM의 근본적인 차이점은 무엇인가요? JEPA가 우리를 AGI에 도입할 수 있나요?

Yann LeCun: 첫째, LLM과 같은 생성 아키텍처와 어떻게 다른가요? 재구성을 통해 훈련된 LLM 또는 비전 시스템이 입력을 생성합니다. 생성되는 원시 입력은 손상되지 않고 변환되지 않으므로 모든 픽셀을 예측해야 하며 시스템이 실제로 모든 픽셀과 모든 세부 사항을 예측하려면 많은 리소스가 필요합니다. JEPA에서는 모든 픽셀을 예측할 필요가 없으며 입력의 추상 표현만 예측하면 됩니다. 이것은 여러 면에서 훨씬 쉽습니다. 따라서 훈련 시 JEPA 시스템이 해야 할 일은 입력에서 최대한 많은 정보를 추출하되 상대적으로 예측하기 쉬운 정보만 추출하는 것이다. 그러므로 세상에는 우리가 예측할 수 없는 일들이 많이 있습니다. 예를 들어 자율주행차가 거리나 도로를 달리고 있다면 도로 주변에 나무가 있을 수도 있고, 바람이 많이 부는 날일 수도 있습니다. 그래서 나무의 나뭇잎은 예측할 수 없고 신경 쓰지도 않고 예측하고 싶지도 않은 반혼란적이고 무작위적인 방식으로 움직입니다. 따라서 인코더가 기본적으로 이러한 모든 세부 사항을 제거하기를 원합니다. 나뭇잎이 움직인다는 사실은 알려줄 수 있지만 정확히 무슨 일이 일어나고 있는지는 알려주지 않습니다. 따라서 표현 공간에서 예측할 때 모든 잎의 모든 픽셀을 예측할 필요는 없습니다. 이는 훨씬 더 간단할 뿐만 아니라 시스템이 모델링 및 예측할 수 있는 것은 유지되고 나머지는 인코더에 의해 노이즈로 처리되어 제거되는 세계의 추상적 표현을 본질적으로 학습할 수 있게 해줍니다.

따라서 표현의 추상화 수준이 높아집니다. 생각해 보면 이것은 확실히 우리가 해왔던 일입니다. 현상을 설명할 때마다 특정 추상 수준에서 설명합니다. 우리는 모든 자연 현상을 설명하기 위해 항상 양자장 이론을 사용하지는 않습니다. 그것은 불가능합니다. 따라서 우리는 양자장 이론부터 원자 이론, 분자, 화학, 재료, 현실 세계의 구체적인 물체에 이르기까지 세상에서 무슨 일이 일어나고 있는지 설명하기 위해 여러 수준의 추상화를 가지고 있습니다. 따라서 가장 낮은 수준에서 모든 것을 시뮬레이션할 수는 없습니다. 이것이 바로 JEPA의 기본 아이디어입니다. 자기 지도 방식으로 추상적 표현을 학습하고 계층적으로 학습하는 것입니다. 그래서 저는 이것이 스마트 시스템의 중요한 부분이라고 생각합니다. 언어에 관해서는 이렇게 할 필요가 없습니다. 왜냐하면 언어는 이미 어느 정도 추상적이고 예측할 수 없는 정보를 많이 제거했기 때문입니다. 따라서 공동 임베딩을 수행하거나 추상화 수준을 높이지 않고도 단어를 직접 예측할 수 있습니다.

Lex Fridman: 언어를 말씀하시는 건가요? 우리는 추상적인 표현을 무료로 제공받았기 때문에 언어를 사용하기에는 너무 게으릅니다. 이제는 축소하여 일반적인 지능형 시스템에 대해 실제로 생각해야 합니다. 우리는 물리적인 현실과 엉망인 현실을 다뤄야 합니다. 그리고 당신은 정말로 그렇게 해야 합니다. 완전하고 풍부하며 상세한 현실에서 당신이 추론할 수 있는 것과 모든 종류의 것들에 기초한 추상적인 현실 표현으로 점프해야 합니다.

Yann LeCun: 그렇죠. 표현 공간에서도 예측을 통해 학습하는 자기 지도 알고리즘은 입력 데이터가 더 중복되면 더 많은 개념을 학습합니다. 데이터가 중복될수록 데이터의 내부 구조를 더 잘 포착할 수 있습니다. 따라서 지각 입력, 시각 등 감각 입력에는 텍스트보다 중복되는 구조가 훨씬 많습니다. 언어는 압축되었기 때문에 실제로 더 많은 정보를 나타낼 수 있습니다. 당신 말이 맞습니다. 그러나 이는 중복성이 적다는 것을 의미하므로 자체 감독이 좋지 않을 것입니다.

Lex Fridman: 시각적 데이터에 대한 자기 지도 학습과 언어 데이터에 대한 자기 지도 학습을 결합하는 것이 가능합니까? 토큰 10~13개에 대해 이야기하고 있지만 거기에는 엄청난 양의 지식이 담겨 있습니다. 이 10~13개의 토큰은 Reddit의 쓰레기, 모든 책과 기사의 내용, 그리고 인간의 지성이 지금까지 창조한 모든 것을 포함하여 우리 인간이 알아낸 모든 것을 나타냅니다.

Yann LeCun: 음, 결국 그렇습니다. 하지만 너무 일찍 하면 부정행위를 하게 될 위험이 있다고 생각합니다. 실제로 이것이 바로 사람들이 현재 시각적 언어 모델을 사용하여 수행하고 있는 작업입니다. 우리는 기본적으로 속임수를 쓰고 있습니다. 언어를 버팀목으로 사용하여 부족한 시각 시스템이 이미지와 비디오에서 좋은 표현을 배울 수 있도록 돕습니다.

이 문제는 이미지를 제공하여 언어 모델을 향상시킬 수 있지만, 언어가 없기 때문에 고양이나 개가 가지고 있는 지능이나 세상에 대한 이해 수준에도 도달할 수 없다는 것입니다. . 그들은 언어가 없지만 어떤 LLM보다 세상을 훨씬 더 잘 이해합니다. 그들은 매우 복잡한 행동을 계획하고 일련의 행동의 결과를 상상할 수 있습니다. 언어와 결합하기 전에 기계가 이것을 학습하도록 하려면 어떻게 해야 할까요? 분명히 이것을 언어와 결합하면 결과를 얻을 수 있지만 그때까지는 시스템이 세상이 어떻게 작동하는지 배울 수 있도록 하는 방법에 집중해야 합니다.

사실 우리가 사용하는 기술은 대조되지 않습니다. 따라서 아키텍처가 비생성적일 뿐만 아니라 우리가 사용하는 학습 절차도 비비교적입니다. 우리에게는 두 가지 기술 세트가 있습니다. 한 세트는 이 원리를 사용하는 방법이 많이 있습니다. DeepMind에는 BYOL이라는 것이 있고, 여러 가지 FAIR가 있으며, 하나는 vcREG, 하나는 I-JEPA입니다. vcREG는 증류 방법이 아니지만 I-JEPA와 BYOL은 확실히 그렇습니다. FAIR에서 생산하는 DINO 또는 DINO라는 제품도 있습니다. 이러한 방법의 원리는 인코더를 통해 전체 입력(예: 이미지)을 실행하여 표현을 생성한 다음 입력을 파괴하거나 변형하여 본질적으로 동일한 인코더를 통해 실행하지만 약간의 뉘앙스가 있는 것입니다. 예측기를 훈련시킵니다.

예측기가 매우 간단한 경우도 있고, 존재하지 않는 경우도 있지만 예측자는 손상되지 않은 첫 번째 입력과 손상된 입력 사이의 관계를 예측하도록 훈련됩니다. 하지만 두 번째 분기만 훈련합니다. 손상된 입력을 받는 네트워크 부분만 훈련시킵니다. 다른 네트워크에는 훈련이 필요하지 않습니다. 그러나 동일한 가중치를 공유하므로 첫 번째 네트워크를 수정하면 두 번째 네트워크도 수정됩니다. 다양한 트릭을 통해 앞서 설명한 충돌과 같이 시스템이 기본적으로 입력을 무시하는 경우처럼 시스템 충돌을 방지할 수 있습니다. 그러므로 이 방법은 매우 효과적이다. FAIR에서 개발한 두 가지 기술인 DINO와 I-JEPA는 이와 관련하여 매우 효과적입니다.

최신 버전은 V-JEPA입니다. 기본적으로 I-JEPA와 동일한 아이디어로, 동영상에 적용한 것 뿐입니다. 따라서 전체 비디오를 촬영한 다음 일부를 차단할 수 있습니다. 우리가 마스킹하는 것은 실제로 타임 파이프이므로 전체 비디오의 모든 프레임에 대한 전체 클립입니다.

이것은 비디오의 좋은 표현을 학습할 수 있는 최초의 시스템이므로 이러한 표현을 감독 분류 헤드에 공급하면 비디오에서 어떤 작업이 일어나고 있는지 매우 정확하게 알려줄 수 있습니다. 그래서 우리가 이런 품질의 제품을 얻는 것은 이번이 처음입니다.

결과는 일부 객체가 사라지거나 객체가 갑자기 한 위치에서 다른 위치로 점프하거나 모양이 변경되기 때문에 우리 시스템이 표현을 사용하여 비디오가 물리적으로 가능한지 아니면 완전히 불가능한지 알 수 있음을 나타내는 것 같습니다.

Lex Fridman: 이를 통해 자동차를 운전할 수 있을 만큼 세상을 잘 이해하는 모델을 만들 수 있나요?

Yann LeCun: 거기까지 가는 데 시간이 좀 걸릴 수 있어요. 이 아이디어를 기반으로 한 로봇 시스템이 이미 있습니다. 필요한 것은 약간 수정된 버전입니다. 완전한 비디오가 있고 이 비디오를 사용하여 미래로 시간 이동을 한다고 상상해 보십시오. 따라서 영상의 시작 부분만 볼 수 있고 원본 영상의 후반 부분은 볼 수 없거나 영상의 후반 부분만 차단됩니다. 그런 다음 JEPA 시스템이나 제가 설명한 것과 같은 시스템을 훈련하여 가려진 비디오의 완전한 표현을 예측할 수 있습니다. 그러나 예측자에게 작업도 제공해야 합니다. 예를 들어, 바퀴가 오른쪽으로 10도 회전한다던가, 그렇죠?

이것이 자동차 카메라이고 핸들의 각도를 알고 있다면, 보는 것이 어떻게 변할지 어느 정도 예측할 수 있어야 합니다. 분명히 뷰에 나타나는 객체의 모든 세부 사항을 예측할 수는 없지만 추상적 표현 수준에서는 어떤 일이 일어날지 예측할 수 있습니다. 이제 "이것이 시간 T의 세계 상태에 대한 나의 생각이고 여기에 내가 취하는 조치가 있습니다. 여기에 T + 1, T + 델타 T, T + 2가 있습니다. 초 세상의 상태를 예측하는 것"이 ​​무엇이든. 그러한 모델이 있으면 계획에 사용할 수 있습니다. 이제 LMS가 할 수 없는 일, 즉 하고 싶은 일을 계획할 수 있습니다. 따라서 특정 결과에 도달하거나 특정 목표를 달성할 때.

그래서 목표를 많이 가질 수 있습니다. 이런 물건이 있는데 손을 펴면 떨어질 거라고 예상할 수 있어요. 특정 힘으로 테이블에 밀어 넣으면 움직입니다. 같은 힘으로 테이블을 밀면 아마도 움직이지 않을 것입니다. 결과적으로 우리 마음 속에는 특정 목표를 달성하기 위해 일련의 행동을 계획할 수 있는 세계의 내부 모델이 있습니다. 이제 이 세계 모델이 있다면 일련의 행동을 상상하고, 일련의 행동의 결과를 예측하고, 최종 상태가 테이블 왼쪽으로 병을 옮기는 것과 같은 특정 목표를 얼마나 잘 충족하는지 측정할 수 있습니다. 을 클릭한 다음 이 목표를 최소화하기 위한 일련의 작업 계획을 실행합니다.

우리는 학습에 대해 이야기하는 것이 아니라 추론 시간에 대해 이야기하고 있으므로 실제로 계획입니다. 최적의 제어에서 이것은 매우 고전적인 것입니다. 이를 모델 예측 제어라고 합니다. 일련의 명령에 해당하는 일련의 상태를 예측하는 제어하려는 시스템 모델이 있습니다. 그리고 역할 모델을 기반으로 시스템의 최종 상태가 설정한 목표를 달성할 수 있도록 일련의 지침을 계획하고 있습니다. 로켓 궤적은 1960년대 초 컴퓨터가 출현한 이후 이런 방식으로 계획되었습니다.

강화 학습

Lex Fridman: 공동 임베딩 아키텍처를 선호하여 생성 모델을 포기하라는 제안이요? 당신은 한동안 강화학습을 비판해왔습니다. 이것은 우리가 이야기한 에너지 기반 모델을 선호하여 확률 모델을 포기하고 정규화 방법을 선호하여 대조 방법을 포기하는 법원 증언처럼 느껴집니다.

Yann LeCun: 완전히 버려야 한다고는 생각하지 않지만 샘플링 측면에서 매우 비효율적이기 때문에 사용을 최소화해야 한다고 생각합니다. 따라서 시스템을 훈련하는 올바른 방법은 먼저 기본 관찰(그리고 약간의 상호 작용)을 통해 세계에 대한 좋은 표현과 세계 모델을 배우도록 하는 것입니다.

Lex Fridman: RLHF가 왜 그렇게 효과적인가요?

Yann LeCun: 변형 효과가 있는 것은 인간 피드백이며 이를 사용하는 방법은 다양하며 그 중 일부는 순전히 감독되며 실제로 강화 학습은 아닙니다.

Open Source

Yann LeCun: AI 산업을 갖고, 고유한 편견이 없는 AI 시스템을 갖는 유일한 방법은 모든 그룹이 구축할 수 있는 오픈 소스 플랫폼을 갖는 것입니다. 특화된 시스템 . 필연적인 역사의 방향은 대다수의 AI 시스템이 오픈 소스 플랫폼을 기반으로 구축된다는 것입니다.

Meta는 광고 또는 상업 고객으로부터 자금을 지원받는 서비스를 제공하는 비즈니스 모델을 중심으로 진행됩니다.

예를 들어, WhatsApp을 통해 고객과 대화하여 피자 가게를 도울 수 있는 LLM이 있는 경우 고객은 피자를 주문하기만 하면 시스템에서 다음과 같이 묻습니다. "어떤 토핑을 원하시나요? 또는 어떤 크기를 원하시나요?" 원해요?", 등등". 판매자는 이에 대한 비용을 지불할 것이며 이것이 바로 모델입니다.

그렇지 않고 좀 더 고전적인 서비스 시스템이라면 광고로 지원되거나 여러 모드가 있을 수 있습니다. 그러나 문제는 어쨌든 시스템을 구축해야 할 정도로 잠재 고객 기반이 충분히 크다면 이를 오픈 소스로 공개해도 아무런 해가 없다는 것입니다.

Lex Fridman: Meta의 내기는: 우리가 더 잘할 수 있을까요?

Yann LeCun: 아니요. 우리는 이미 거대한 사용자 기반과 고객 기반을 보유하고 있습니다.

저희가 오픈 소스 시스템이나 기본 모델, 다른 사람이 애플리케이션을 구축할 수 있는 기본 모델을 제공하는 것은 문제가 되지 않습니다. 이러한 앱이 고객에게 유용하다면 고객으로부터 직접 구매할 수 있습니다. 플랫폼을 개선할 수 있습니다. 실제로 우리는 이런 일이 일어나는 것을 목격했습니다. LLaMA 2는 수백만 번 다운로드되었으며 수천 명의 사람들이 플랫폼 개선 방법에 대한 아이디어를 내놓았습니다. 따라서 이는 광범위한 사용자가 시스템을 사용할 수 있게 만드는 프로세스의 속도를 분명히 높이고 수천 개의 기업이 시스템을 사용하여 애플리케이션을 구축하고 있습니다. 따라서 이 기술을 통해 수익을 창출하는 Meta의 능력은 기본 모델의 오픈 소스 배포에 영향을 받지 않습니다.

Llama 3

Lex Fridman: LLaMA 3에서 가장 기대되는 점은 무엇인가요?

Yann LeCun: 이전 LLaMA를 개선한 다양한 버전의 LLaMA(더 크고, 더 좋고, 다중 모드 등)가 있을 것입니다. 그리고 미래 세대에는 세상이 어떻게 돌아가는지 실제로 이해할 수 있는 계획 시스템이 있는데, 아마도 비디오로 훈련을 받아서 그런 종류의 추론과 계획을 할 수 있는 세계의 모델을 갖게 될 것입니다. 아까 얘기했잖아요.

이 작업은 얼마나 걸리나요? 이 방향의 연구가 언제 제품 라인에 적용됩니까? 나는 모르고 당신에게 말할 수 없습니다. 기본적으로 우리는 거기에 도달하기 전에 몇 가지 돌파구를 거쳐야 하지만 우리가 연구를 공개적으로 발표하기 때문에 사람들은 우리의 진행 상황을 모니터링할 수 있습니다. 그래서 지난 주에 우리는 비디오 교육 시스템을 향한 첫 번째 단계인 V-JEPA 노력을 발표했습니다.

다음 단계는 이러한 영상 창의성을 바탕으로 세계 모델을 훈련하는 것입니다. DeepMind도 비슷한 작업을 하고 있으며 UC Berkeley는 세계 모델과 비디오 작업을 하고 있습니다. 많은 사람들이 이 일을 하고 있습니다. 좋은 아이디어가 많이 나올 것 같아요. 내 생각에는 이러한 시스템이 JEPA 경량 시스템이 될 것이며 생성 모델이 아닐 것이며 앞으로 무슨 일이 일어날지 지켜볼 것입니다.

30여 년 전 우리가 조합 네트워크와 초기 신경 네트워크를 연구할 때 저는 인간 수준의 지능, 즉 세상을 이해하고, 기억하고, 계획하고, 추론할 수 있는 시스템으로 가는 길을 보았습니다. 앞으로 나아갈 수 있고 성공할 수 있는 몇 가지 아이디어가 있는데, 저는 그것에 대해 정말 기대하고 있습니다.

내가 좋아하는 점은 우리가 어떻게든 좋은 방향으로 움직이고 있고 내 두뇌가 화이트 소스로 변하기 전에 또는 은퇴해야 하기 전에 성공할 수도 있다는 것입니다.

Lex Fridman: 대부분의 기대는 여전히 이론적인 측면, 즉 소프트웨어 측면에 있습니까?

Yann LeCun: 저는 몇 년 전에는 하드웨어 전문가였습니다. 규모는 필요하지만 충분하지는 않습니다. 앞으로 10년은 더 살 수 있겠지만 그래도 짧은 거리는 달려야 할 것 같다. 물론, 에너지 효율성 측면에서 더 발전할수록 노력 측면에서도 더 많은 진전이 이루어집니다. 전력 소모를 줄여야 합니다. 오늘날 GPU는 0.5kW에서 1kW 사이를 소비합니다. 인간의 두뇌는 약 25와트의 전력을 소비하는 반면, GPU는 인간의 두뇌보다 훨씬 적은 전력을 소비합니다. 이를 일치시키려면 100,000 또는 100만 개의 전력이 필요하므로 우리는 꽤 멀리 떨어져 있습니다.

AGI

Lex Fridman: GI가 곧 출시되지 않을 것이라고 자주 말씀하시는데, 그 뒤에 숨겨진 직관은 무엇인가요?

Yann LeCun: 공상 과학과 헐리우드에서 대중화된 아이디어, 누군가가 AGI나 인간 수준 AI 또는 AMI(무엇이라고 부르든)의 비밀을 발견하고 기계를 켜는 아이디어, AGI가 있는 한 그런 일은 불가능합니다.

이 과정은 단계별로 진행됩니다. 영상을 통해 세상이 어떻게 돌아가는지 이해하고 좋은 표현을 배울 수 있는 시스템이 있을까요? 우리가 인간에게서 관찰하는 규모와 성능에 도달하는 데는 하루나 이틀이 아니라 꽤 오랜 시간이 걸릴 것입니다.

시스템이 사물을 기억하기 위해 많은 양의 연관 메모리를 갖도록 허용할까요? 응, 하지만 내일도 그런 일은 일어나지 않을 거야. 우리는 몇 가지 기본적인 기술을 개발해야 합니다. 우리는 이러한 기술을 많이 보유하고 있지만 이를 완전한 시스템과 함께 작동시키는 것은 또 다른 이야기입니다.

앞서 설명한 목표 중심 AI 아키텍처처럼 추론하고 계획할 수 있는 시스템이 있을까요? 예, 하지만 제대로 작동하려면 시간이 좀 걸릴 것입니다. 우리가 이 모든 것들이 함께 작동하게 되기까지는 적어도 10년 이상이 걸릴 것입니다. 계층적 계획, 계층적 표현을 학습하고 인간 두뇌가 당면한 다양한 상황에 대해 구성할 수 있는 시스템을 구축하기까지는 적어도 10년 이상이 걸릴 것입니다. , 아직 보지 못한, 아직 접하지 못한 문제가 많기 때문에 이 프레임워크 내에 간단한 해결책이 있는지 알 수 없습니다.

지난 12년 동안 저는 사람들이 AGI가 코앞에 다가왔다고 주장하는 것을 들어왔는데, 그 주장은 모두 틀렸습니다.

IQ는 인간에 관한 어떤 것을 측정할 수 있지만 인간은 형태가 비교적 균일하기 때문입니다. 그러나 이는 일부 작업과 관련이 있을 수 있는 능력만 측정하고 다른 작업에는 관련이 없는 능력을 측정합니다. 그러나 수행하기 쉬운 기본 작업이 완전히 다른 다른 지능형 개체에 대해 이야기하는 경우에는 의미가 없습니다. 따라서 지능은 기술의 집합이자 새로운 기술을 효율적으로 습득하는 능력이다. 특정 지능 개체가 소유하거나 빠르게 배울 수 있는 기술 집합은 다른 지능 개체의 기술 집합과 다릅니다. 이것은 다차원적인 것이기 때문에 스킬 세트는 측정할 수 없는 고차원 공간이며 하나가 다른 것보다 똑똑한지 확인하기 위해 두 가지를 비교할 수 없습니다. 그것은 다차원적입니다.

Lex Fridman: 당신은 소위 AI 종말론자들에 대해 자주 반대하며 그들의 견해와 그들이 틀렸다고 생각하는 이유를 설명합니다.

Yann LeCun: AI 종말론자들은 AI가 어떻게 탈출하거나 제어권을 잡고 기본적으로 우리 모두를 죽일 수 있는지에 대한 다양한 재난 시나리오를 상상합니다. 이는 대부분 잘못된 가정에 의존합니다.

첫 번째 가설은 초지능의 출현은 하나의 사건이 될 것이며 어느 시점에서 우리는 비밀을 발견하고 초지능 기계를 열 것이라는 것입니다. 이전에 이런 일을 해본 적이 없기 때문에 초지능 기계가 세상을 장악하고 우리 모두를 죽일 것입니다. 이것은 잘못된 것입니다. 이건 이벤트가 아닐 거예요.

우리는 고양이만큼 똑똑한 시스템을 갖게 될 것입니다. 그들은 인간 지능의 모든 특성을 가지고 있지만 지능 수준은 고양이나 앵무새와 같을 수 있습니다. 그런 다음 점차적으로 지능을 향상시킵니다. 그들을 더 똑똑하게 만드는 동시에, 우리는 그들에게 몇 가지 가드레일을 설정하고 그들이 더 정상적으로 행동하도록 가드레일을 설정하는 방법을 배워야 합니다.

자연에서는 지능이 더 높은 종이 결국 다른 종을 지배하게 되는 것 같습니다. 때로는 의도적으로 때로는 실수로 다른 종을 구별하기도 합니다.

그러니까 "AI 시스템이 우리보다 똑똑하다면, 고의는 아니더라도 단지 그들이 우리를 신경 쓰지 않는다는 이유만으로 우리를 멸망시킬 수밖에 없다"고 생각하시는군요. 말도 안되는 소리입니다. 이유 번호 하나는 그들이 우리와 경쟁하는 종이 되지 않을 것이고 지배하려는 욕구도 갖지 않을 것이라는 점이다. 왜냐하면 지배하려는 욕망은 지능 시스템에 내재된 것이기 때문이다. 이는 인간에게 깊이 뿌리박혀 있으며 개코원숭이, 침팬지, 늑대가 공유하지만 오랑우탄은 공유하지 않습니다. 지배하고, 복종하고, 지위를 얻으려는 이러한 욕구는 사회적 종에 고유합니다. 오랑우탄과 같은 비사회적 종은 그러한 욕구가 없으며 우리만큼 똑똑합니다.

Humanoids

Lex Fridman: 곧 수백만 명의 인간형이 돌아다닐 것이라고 생각하시나요?

Yann LeCun: 곧은 아니지만 일어날 것입니다.

저는 향후 10년이 로봇 산업에 있어서 정말 흥미로울 것이라고 생각합니다. 로봇 산업의 부상은 10년, 20년 동안 기다려왔고 사전 프로그래밍된 동작 외에는 실제로 일어난 적이 없습니다. 주요 질문은 여전히 ​​Moravec의 역설입니다. 이러한 시스템이 세상이 어떻게 작동하는지 이해하고 행동을 계획하도록 하려면 어떻게 해야 할까요? 이러한 방식으로 우리는 진정한 전문적인 작업을 완료할 수 있습니다. Boston Dynamics가 한 일은 기본적으로 수작업으로 만든 수많은 동적 모델과 신중한 사전 계획을 통해 이루어졌습니다. 이는 많은 혁신과 약간의 인식을 갖춘 매우 고전적인 로봇 공학이지만 여전히 충분하지 않았고 만들 수 없었습니다. 가정용 로봇.

또한 20시간의 운전을 통해 17세처럼 스스로 훈련할 수 있는 시스템 등 L5 완전 자율주행과는 아직 거리가 멀습니다.

따라서 세계 모델, 즉 세계가 어떻게 작동하는지 이해하도록 스스로 훈련할 수 있는 시스템이 나올 때까지는 로봇공학에서 큰 진전을 이루지 못할 것입니다.

위 내용은 LeCun의 최신 인터뷰: 물리적 세계가 결국 LLM의 '아킬레스건'이 되는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제