>웹3.0 >Luma 수석 과학자 Jiaming Song이 이미지 및 비디오 모델의 역사와 다중 모드 모델의 미래에 대해 설명합니다.

Luma 수석 과학자 Jiaming Song이 이미지 및 비디오 모델의 역사와 다중 모드 모델의 미래에 대해 설명합니다.

王林
王林원래의
2024-07-18 09:42:30827검색

AI + a16z 팟캐스트의 이번 에피소드에서는 Luma 수석 과학자 Jiaming Song이 a16z 일반 파트너 Anjney Midha와 함께 비디오 모델 부문에서 Jiaming의 존경받는 경력에 대해 논의합니다

Luma Chief Scientist Jiaming Song on the History of Image and Video Models and the Future of Multimodal Models

AI + a16z 팟캐스트의 이번 에피소드에서는 Luma 수석 과학자 Jiaming Song이 출연합니다. 비디오 모델 분야에서 Jiaming의 인상적인 경력에 대해 a16z 총괄 파트너인 Anjney Midha와 대화를 나누었습니다. 최근 출시된 Luma의 Dream Machine 3D 비디오 모델은 다차원에 걸쳐 세계를 추론하는 능력을 보여줍니다. Jiaming은 이미지 및 비디오 모델의 진화, 다중 모드 모델의 미래에 대한 비전, 그리고 새로운 추론 기능을 보여주는 Dream Machine의 능력에 대한 추론에 대해 논의합니다. Jiaming에 따르면, 이 모델은 언어 데이터와 관련하여 측정하면 수백 조 개의 토큰에 달하는 대량의 고품질 비디오 데이터에 대해 훈련되었습니다.

다음은 Jiaming이 설명하는 토론의 일부입니다. 씁쓸한 교훈”을 생성 모델 훈련의 맥락에서 설명하고 그 과정에서 드림 머신이 상황에 맞는 비디오 데이터를 사용하여 수행할 수 있는 작업을 수행할 수 있는 핵심 구성 요소를 다음과 같이 요약합니다.

“인공 지능과 관련된 많은 문제에 대해 더 적은 컴퓨팅을 사용할 수 있도록 사전 예측을 개발한 다음 사전 예측을 활용하려고 시도하는 것보다 더 간단한 방법을 사용하지만 더 많은 컴퓨팅을 사용하는 것이 장기적으로 더 생산적인 경우가 많습니다.

“이 질문의 사례는 2009년에 처음 발생했습니다. 사람들이 처음에는 언어 이해, 문법이나 의미 분석, 이런 종류의 기술을 사용하려고 노력했던 언어입니다. 그러나 결국 이러한 작업은 대규모 언어 모델로 대체되기 시작했습니다. 그리고 비전 영역에서도 비슷한 사례가 일어나고 있습니다. . . 이제 사람들은 거의 모든 작업에 딥러닝 기능을 사용해 왔습니다. 이는 더 많은 컴퓨팅을 사용하고 사전 확률을 줄이는 것이 얼마나 좋은지 명확하게 보여줍니다.

“하지만 언어에서는 어떻게 작동하나요? 언어 자체도 인간의 구성물입니다. 물론 그것은 매우 훌륭하고 고도로 압축된 종류의 지식이지만, 인간이 현실 세계에서 매일 가져오는 데이터에 비하면 확실히 훨씬 적은 데이터입니다. . .

“[그리고] 시각적 신호보다 훨씬 작은 데이터 세트 크기입니다. 그리고 우리는 이미 . . . 우리가 세계에 가지고 있는 고품질의 언어 소스. 인간이 언어를 생산할 수 있는 속도는 확실히 확장 법칙의 요구를 따라잡기에 충분하지 않습니다. 따라서 이를 위해 컴퓨팅 인프라를 확장할 수 있는 세상이 있더라도 실제로 데이터 작업을 확장할 인프라가 없습니다. . .

“사람들은 대규모 언어 모델의 출현이 이미 확장 법칙의 증거라고 주장하지만 . . . 언어 이해의 규칙 기반 방법에 반대하여 우리는 물리적 세계에서 발생하는 더 풍부한 데이터 신호에 직면하여 언어 자체도 우선순위라고 주장하고 있습니다.”

위 내용은 Luma 수석 과학자 Jiaming Song이 이미지 및 비디오 모델의 역사와 다중 모드 모델의 미래에 대해 설명합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.