소라는 나오자마자 단숨에 톱 트렌드에 등극했고, 화제성은 더욱 높아졌습니다.
사실적인 영상을 생성하는 강력한 능력은 많은 사람들이 "현실은 더 이상 존재하지 않는다"고 외치게 만들었습니다.
OpenAI 기술 보고서에서도 소라가 움직이는 물리적 세계를 깊이 이해할 수 있으며 진정한 '세계 모델'이라고 부를 수 있는 것으로 나타났습니다.
그리고 항상 '세계 모델'을 연구 초점으로 삼아온 튜링의 거인 르쿤(LeCun)도 이 논쟁에 참여했습니다.
이유는 며칠 전 WGS 서밋에서 르쿤이 표현한 견해를 네티즌들이 파헤치기 때문이다. "AI 영상에 관해서는 우리는 어떻게 해야 할지 모르겠다."
그는 텍스트 프롬프트에만 기반하여 사실적인 비디오를 생성하는 것은 물리적 세계를 이해하는 모델과 동일하지 않다고 믿습니다. 비디오를 생성하는 접근 방식은 인과적 예측을 기반으로 하는 세계의 모델과 매우 다릅니다.
다음으로 LeCun은 더 자세히 설명했습니다.
상상할 수 있는 영상의 종류는 많지만, 영상 생성 시스템은 "하나"의 합리적인 샘플만 생성하면 성공합니다.
실제 비디오의 경우 합리적인 후속 개발 경로가 상대적으로 적습니다. 특히 특정 작업 조건에서는 이러한 가능성을 대표하는 부분을 생성하는 것이 훨씬 더 어렵습니다.
게다가 이러한 후속 동영상 콘텐츠를 생성하는 것은 비용이 많이 들 뿐만 아니라 실제로 의미가 없습니다.
보다 이상적인 접근 방식은 후속 콘텐츠의 "추상적 표현"을 생성하여 우리가 취할 수 있는 작업과 관련 없는 장면 세부 정보를 제거하는 것입니다.
이것이 JEPA(Joint Embedding Prediction Architecture)의 핵심 아이디어입니다. 생성이 아닌 표현 공간에서 예측합니다.
그런 다음 그는 VICReg, I-JEPA, V-JEPA 및 다른 사람들의 작업에 대한 자신의 연구를 사용하여 다음을 증명했습니다.
및 변형 자동 인코더(Variational AE)와 같은 픽셀 재구성을 위한 생성 아키텍처, 마스크 Masked AE, Denoising AE 등에 비해 "공동 임베딩 아키텍처"는 더 나은 시각적 입력 표현을 생성할 수 있습니다.
학습된 표현을 다운스트림 작업에서 지도 헤드에 대한 입력으로 사용할 때(백본을 미세 조정하지 않고) 조인트 임베딩 아키텍처가 생성 아키텍처보다 성능이 뛰어납니다.
Sora 모델이 출시된 날 Meta는 새로운 비지도형 "영상 예측 모델"인 V-JEPA를 출시했습니다.
LeCun이 2022년 JEPA를 처음 언급한 이후 I-JEPA와 V-JEPA는 각각 이미지와 비디오를 기반으로 한 강력한 예측 기능을 갖추고 있습니다.
세계를 "인간이 이해하는 방식"으로 볼 수 있고 추상적이고 효율적인 예측을 통해 막힌 부분을 생성할 수 있다고 주장합니다.
논문 주소: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
V-JEPA 언제 아래 비디오의 동작에 대해 "종이를 반으로 찢으세요"라고 말합니다.
또 다른 예로, 보고 있는 비디오의 일부가 차단된 경우 V-JEPA는 노트북의 내용에 대해 다른 예측을 할 수 있습니다.
V-JEPA가 200만 동영상을 보고 얻은 초능력이라고 할 수 있습니다.
실험 결과, 영상 특징 예측 학습을 통해서만 행동과 외모 판단을 기반으로 다양한 작업에 폭넓게 적용할 수 있고 모델 매개변수의 조정이 필요 없는 "효율적인 시각적 표현"을 얻을 수 있음이 나타났습니다.
V-JEPA 교육을 기반으로 한 ViT-H/16은 Kinetics-400, SSv2 및 ImageNet1K 벤치마크에서 각각 81.9%, 72.2%, 77.9%의 높은 점수를 달성했습니다.
인간이 주변 세계, 특히 삶의 초기 단계에 대한 이해는 대부분 '관찰'을 통해 얻습니다.
뉴턴의 '운동 제3법칙'을 예로 들면, 아기나 고양이라도 물건을 테이블에서 여러 번 밀어내고 그 결과를 관찰하면 자연스럽게 이해할 수 있습니다.
이러한 이해에는 장기적인 지도나 많은 책 읽기가 필요하지 않습니다.
세상에 대한 마음의 이해를 바탕으로 한 상황 이해인 내면 세계 모델이 이러한 결과를 예측하고 매우 효과적이라는 것을 알 수 있습니다.
Yann LeCun은 V-JEPA가 기계가 더 광범위하게 추론하고 계획할 수 있도록 하는 것을 목표로 하며, 세상에 대한 더 깊은 이해를 향한 핵심 단계라고 말했습니다.
2022년에 그는 처음으로 JEPA(Joint Embedding Prediction Architecture)를 제안했습니다.
우리의 목표는 인간처럼 학습하고, 학습하고, 적응하고, 효율적으로 계획하여 주변 세계의 본질적인 모델을 구축하여 복잡한 작업을 해결할 수 있는 고급 기계 지능(AMI)을 구축하는 것입니다.
생성 AI 모델인 Sora와는 완전히 다른 V-JEPA는 "비생성 모델"입니다.
추상적인 공간 표현에서 영상의 숨겨진 부분이나 누락된 부분을 예측하여 학습합니다.
이는 "픽셀"을 직접 비교하는 대신 이미지의 추상적 표현을 비교하여 학습하는 I-JEPA(이미지 조인트 임베딩 예측 아키텍처)와 유사합니다.
모든 누락된 픽셀을 재구성하려는 생성 방법과 달리 V-JEPA는 예측하기 어려운 정보를 삭제할 수 있습니다. 이 접근 방식은 훈련 및 샘플 효율성을 1.5~6배 향상시킵니다.
V-JEPA는 자기 지도 학습 방법을 채택하고 사전 훈련을 위해 레이블이 없는 데이터에 전적으로 의존합니다.
사전 학습 후에만 데이터에 라벨을 지정하여 특정 작업에 맞게 모델을 미세 조정할 수 있습니다.
결과적으로 이 아키텍처는 필요한 레이블이 지정된 샘플 수와 레이블이 지정되지 않은 데이터 학습에 대한 투자 측면에서 이전 모델보다 더 효율적입니다.
V-JEPA를 사용할 때 연구원들은 대부분의 비디오를 차단하고 "컨텍스트"의 아주 작은 부분만 보여주었습니다.
그런 다음 예측자는 누락된 콘텐츠를 특정 픽셀이 아닌 이 표현 공간을 채우는 보다 추상적인 설명으로 채우도록 요청받습니다.
V-JEPA는 학습된 잠재 공간에서 숨겨진 시공간 영역을 예측하여 시각적 인코더를 훈련합니다.
V-JEPA는 특정 유형의 동작을 이해하도록 설계되지 않았습니다.
대신 다양한 영상에 자기주도 학습을 적용해 세상이 어떻게 돌아가는지 많은 것을 배웠습니다.
Meta 연구원들도 신중하게 마스킹 전략을 설계했습니다.
동영상의 대부분의 영역을 차단하지 않고 일부 작은 조각만 무작위로 선택하면 학습 작업이 너무 단순해져 모델이 세상에 대한 복잡한 정보를 학습할 수 없게 됩니다.
대부분의 동영상에서는 시간이 지남에 따라 상황이 발전한다는 점을 다시 한 번 강조하는 것이 중요합니다.
모델이 전후 상황을 볼 수 있도록 짧은 시간 안에 영상의 일부분만 마스킹하면 학습 난이도도 줄어들고 모델이 흥미로운 내용을 배우기 어렵게 됩니다. .
따라서 연구원들은 영상의 일부를 공간적, 시간적으로 마스킹하여 모델이 장면을 학습하고 이해하도록 하는 접근 방식을 취했습니다.
추상적 표현 공간에서의 예측은 모델이 일반적으로 달성하는 데 중요하지 않은 세부 사항에 대해 걱정할 필요 없이 비디오 콘텐츠의 상위 수준 개념에 집중할 수 있기 때문에 매우 중요합니다. 작업.
결국, 동영상에 나무가 나온다면 아마 나뭇잎 하나하나의 작은 움직임에 신경쓰지 않을 것입니다.
메타 연구자들을 정말로 흥분시키는 것은 V-JEPA가 "동결 평가"에서 좋은 성적을 낸 최초의 비디오 모델이라는 것입니다.
동결은 인코더와 예측기에서 모든 자기 감독 사전 훈련이 완료된 후 더 이상 수정되지 않음을 의미합니다.
새로운 기술을 배우기 위해 모델이 필요할 때, 그 위에 작고 전문적인 레이어나 네트워크를 추가하기만 하면 효율적이고 빠릅니다.
이전 연구에서도 모델이 세밀한 동작 인식, 모든 매개변수 또는 가중치와 같은 작업을 잘 수행하려면 모델을 사전 훈련한 후 포괄적인 미세 조정이 필요했습니다. 모델을 미세 조정해야 합니다.
직접 말하면 미세 조정 모델은 특정 작업에만 집중할 수 있고 다른 작업에는 적응할 수 없습니다.
모델이 다양한 작업을 학습하도록 하려면 데이터를 변경하고 전체 모델을 전문적으로 조정해야 합니다.
V-JEPA의 연구에 따르면 레이블이 지정된 데이터에 의존하지 않고 한 번에 모델을 사전 훈련한 다음 동작 분류, 세분화된 개체 상호 작용 인식과 같은 다양한 작업에 모델을 사용할 수 있음이 나타났습니다. 활동 현지화를 통해 새로운 가능성을 열어드립니다.
- Few-shot 고정 평가
연구원들은 V-JEPA를 다른 비디오 처리 모델과 비교하여 데이터 주석이 적을 때의 성능에 특히 주의를 기울였습니다.
Kinetics-400과 Something-Something-v2라는 두 개의 데이터 세트를 선택하고 훈련에 사용되는 레이블이 지정된 샘플의 비율(각각 5%, 10%, 50%)을 조정하여 비디오를 처리할 때 모델의 성능을 관찰했습니다. ). 효능.
결과의 신뢰성을 보장하기 위해 각 비율에서 3번의 독립적인 테스트를 수행하고 평균과 표준편차를 계산했습니다.
결과에 따르면 V-JEPA는 주석 사용 효율성이 다른 모델보다 우수합니다. 특히 각 카테고리에 사용 가능한 주석 샘플이 줄어들면 V-JEPA와 다른 모델 간의 성능 격차가 더욱 분명해집니다.
V-JEPA의 "V"는 비디오를 의미하지만 지금까지는 주로 비디오의 "시각적 요소"를 분석하는 데 중점을 두었습니다. .
분명히 Meta의 다음 연구 방향은 동영상의 '시각적 정보와 청각적 정보'를 동시에 처리할 수 있는 다중 모드 방식을 출시하는 것입니다.
개념 증명 모델인 V-JEPA는 비디오에서 미묘한 개체 상호 작용을 식별하는 데 탁월한 성능을 발휘합니다.
예를 들어 누군가가 펜을 내려놓고 있는지, 펜을 집어 들고 있는지, 펜을 내려놓는 척 하지만 실제로는 내려놓지 않는지 구별할 수 있는 것입니다.
그러나 이 높은 수준의 동작 인식은 짧은 비디오 클립(몇 초에서 10초)에 적합합니다.
따라서 다음 연구 단계의 또 다른 초점은 모델 계획을 세우고 장기간에 걸쳐 예측하는 방법입니다.
지금까지 V-JEPA를 사용하는 메타 연구자들은 비디오 스트림을 분석하여 주변 세계의 실시간 상황을 이해하는 "인식"에 주로 중점을 두었습니다.
이 공동 임베딩 예측 아키텍처에서 예측자는 비디오에서 무슨 일이 일어나고 있는지 일반적으로 알려줄 수 있는 예비 "물리적 세계 모델" 역할을 합니다.
Meta의 다음 목표는 이 예측 변수 또는 세계 모델이 계획 및 지속적인 의사 결정에 어떻게 사용될 수 있는지 보여주는 것입니다.
우리는 JEPA 모델이 아기가 세상을 관찰하는 것처럼 비디오를 관찰하여 훈련할 수 있고 강력한 감독 없이도 많은 것을 배울 수 있다는 것을 이미 알고 있습니다.
이러한 방식으로 모델은 적은 양의 레이블이 지정된 데이터만으로 새로운 작업을 빠르게 학습하고 다양한 작업을 인식할 수 있습니다.
장기적으로 V-JEPA의 강력한 상황 이해는 향후 애플리케이션에서 구현된 AI 기술 및 미래 증강 현실(AR) 안경 개발에 큰 의미가 있을 것입니다.
생각해 보세요. Apple Vision Pro가 "세계 모델"의 축복을 받을 수 있다면 더욱 무적이 될 것입니다.
분명히 르쿤은 생성 AI에 대해 낙관적이지 않습니다.
"프리젠테이션과 기획을 위한 '세계 모델'을 양성하려고 노력해온 사람의 조언을 들어보세요."
Perplexity AI의 CEO는 다음과 같이 말했습니다.
Sora는 놀랍지만 물리학을 정확하게 모델링할 준비가 되어 있지 않습니다. 그리고 Sora의 저자는 매우 영리해서 블로그의 기술 보고서 섹션에서 깨진 유리는 잘 모델링할 수 없다는 점을 언급했습니다.
단기적으로 이렇게 복잡한 세계 시뮬레이션을 기반으로 한 추론을 가정용 로봇에서 즉시 실행할 수는 없다는 것은 분명합니다.
사실 많은 사람들이 이해하지 못하는 매우 중요한 뉘앙스는 다음과 같습니다.
텍스트나 비디오에서 겉보기에 흥미로워 보이는 콘텐츠를 생성한다고 해서 콘텐츠를 이해한다는 의미는 아닙니다(필요하지도 않습니다). 당신은 생성합니다. 이해를 바탕으로 추론할 수 있는 에이전트 모델은 분명히 대형 모델이나 확산 모델에서 벗어나야 합니다.
그러나 일부 네티즌들은 "이것은 인간이 배우는 방식이 아니다"라고 말했습니다.
"우리는 과거 경험에서 독특한 것만 기억하고 모든 세부 사항을 잊어버립니다. 또한 환경을 인식하기 때문에 언제 어디서나 환경을 모델링(표현 생성)할 수 있습니다. 지능의 가장 중요한 부분은 일반화 변화입니다."
다른 사람들은 이것이 여전히 보간된 잠재 공간의 임베딩이라고 주장하며 지금까지는 이런 방식으로 "세계 모델"을 구축할 수 없습니다.
소라와 V-JEPA는 정말 세상을 이해할 수 있을까요? 어떻게 생각하나요?
위 내용은 르쿤은 소라가 물리적 세계를 이해하지 못한다고 화를 내며 비난했습니다! 메타의 첫 AI 영상 '월드모델' V-JEPA의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!