언어 모델은 확산 모델을 물리치고 비디오 및 이미지 생성에서 두 배의 SOTA를 달성합니다!
Google CMU의 최신 연구 결과입니다.
보고서에 따르면 언어 모델이 상징적인 ImageNet 벤치마크에서 확산 모델을 이긴 것은 이번이 처음입니다 .
그 뒤에 있는 핵심 구성 요소는 픽셀 공간 입력을 LLM 학습에 적합한 토큰으로 매핑할 수 있는visual tokenizer(비디오 토크나이저)입니다.
Google CMU 연구팀은 다른 두 가지 작업에서 이전 최고의 시각적 단어 분할기를 능가하는 MAGVIT-v2를 제안했습니다. 대형 언어 모델이 확산 모델을 이깁니다대형 언어 모델이 다양한 생성 분야에서 탁월한 성능을 발휘한다는 데 동의했습니다. 텍스트, 오디오, 코드 생성 등 그러나 언어 모델은 시각적 생성 측면에서 항상 확산 모델보다 뒤쳐져 왔습니다. 팀은 시각적 세계를 효과적으로 모델링할 수 있는 자체 개발 언어 시스템과 유사하게 좋은 시각적 표현이 부족하기 때문에 주된 이유가 있다고 믿습니다. 자연어와 달리 인간은 시각적 세계에 적합한 최적의 어휘를 진화시키지 못했습니다. 이는 또한 대규모 언어 모델의 시각적 생성 기능을 제한합니다. 이 판단을 바탕으로 본 연구는 주로 세 가지 작업을 완료했습니다.MAGVIT(Masked Generative Video Transformer)를 기반으로 이 방법은 주로 LFQ(Lookup-Free Quantization) 및 이미지-비디오 조인트 토크나이저의 두 가지 설계를 완성합니다.
마지막으로 비디오/이미지 생성에서는 ImageNet 512×512와 Kinetics-600이 모두 확산 모델보다 우수합니다. 영상 압축이나 동작 인식 측면에서도 이전 결과보다 좋아졌습니다. 한 분은 북경대학교 졸업생입니다Yu Lijun은 현재 CMU 컴퓨터 과학부 언어 기술 연구소에서 박사 과정을 밟고 있으며 Alexander G. Hauptmann 교수 밑에서 공부하고 있으며 Google 학생 연구원이기도 합니다. . 연구 관심 분야는 다중 모드 기본 모델, 특히 다중 작업 비디오 생성에 있습니다. CMU에 오기 전에 그는 북경대학교에서 컴퓨터 과학 및 경제학 학사 학위를 이중 취득했습니다. 저도 연구팀에서 다른 중국인 얼굴도 많이 봤어요. 교신저자 Jiang Lu는 현재 Google Research의 과학자이자 CMU의 겸임 교수입니다. 그의 연구는 주로 다중 모드 빅데이터 분야, 특히 강력한 딥 러닝, 생성 인공 지능 및 다중 모드 기본 모델에 중점을 두고 있습니다.논문 링크:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/
위 내용은 대규모 언어 모델이 확산 모델을 능가합니다! 비디오 이미지 생성 듀얼 SOTA, Google CMU의 최신 연구, 북경 대학교 동문의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!