>  기사  >  기술 주변기기  >  오해를 받는 '중국판 Sora' 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

오해를 받는 '중국판 Sora' 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

WBOY
WBOY앞으로
2024-03-12 22:55:021001검색

2024년 초, OpenAI는 생성 AI 분야에서 블록버스터인 Sora를 출시했습니다.

최근 몇 년 동안 비디오 생성 분야의 기술 반복이 지속적으로 가속화되었으며 많은 기술 회사에서도 관련 기술 진보 및 구현 결과를 발표했습니다. 이전에 Pika와 Runway는 비슷한 제품을 출시했지만 Sora가 공개한 데모는 분명히 혼자서 비디오 생성 분야의 표준을 높였습니다.

향후 경쟁에서 어느 회사가 소라를 능가하는 제품을 가장 먼저 만들어낼지는 아직 알 수 없습니다.

여기 중국에서는 수많은 주요 기술 제조업체에 관심이 집중되고 있습니다.

앞서 바이트댄스는 소라 출시 전부터 Boximator라는 비디오 생성 모델을 개발한 것으로 알려졌습니다.

Boximator는 비디오의 개체 생성을 정밀하게 제어하는 ​​방법을 제공합니다. 복잡한 텍스트 지침을 작성하는 대신 사용자는 참조 이미지에 상자를 그려 대상을 선택한 다음 상자와 선을 추가하여 아래와 같이 대상의 끝 위치 또는 전체 크로스 프레임 모션 경로를 정의할 수 있습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

ByteDance는 이에 대해 미디어에 대해 조용히 반응했습니다. Boximator는 비디오 생성 분야에서 개체 움직임을 제어하는 ​​기술적 방법을 연구하는 프로젝트입니다. 아직 완전히 완성되지 않았으며, 화질, 충실도, 영상 지속 시간 측면에서 여전히 외국 비디오 세대의 선두 모델과 큰 격차가 있습니다.

Boximator가 플러그인으로 실행되며 기존 비디오 생성 모델과 쉽게 통합될 수 있다고 관련 기술 문서(https://arxiv.org/abs/2402.01566)에 언급되어 있습니다. 모션 제어 기능을 추가하여 비디오 품질을 유지할 뿐만 아니라 유연성과 유용성을 향상시킵니다.

비디오 생성에는 여러 하위 부문의 기술이 포함되며 이미지/비디오 이해, 이미지 생성, 초해상도 및 기타 기술과 밀접한 관련이 있습니다. 심층적인 연구 결과, ByteDance가 여러 분야에서 일부 연구 결과를 공개적으로 발표한 것으로 나타났습니다.

이 기사에서는 Vincent Picture, Vincent Video, Tush Video 및 Video Understanding과 같은 많은 최신 성과를 포함하는 ByteDance 지능형 생성 팀의 9가지 연구를 소개합니다. 우리는 이러한 연구를 통해 시각적 생성 모델을 탐색하는 기술적 진보를 추적할 수도 있습니다.

비디오 세대와 관련해 바이트는 어떤 성과를 거두었나요?

올해 1월 초 ByteDance는 비디오 생성 모델 MagicVideo-V2를 출시했는데, 이는 한때 커뮤니티에서 열띤 토론을 불러일으켰습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?


  • 논문 제목: MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
  • 논문 링크: https://arxiv.org/abs/2401.04468
  • 프로젝트 주소: https://magicvideov2.github.io/

MagicVideo-V2의 혁신은 텍스트 대 이미지 모델, 비디오 모션 생성기, 참조 이미지 임베딩 모듈 및 프레임 보간 모듈을 end 엔드투엔드 비디오 생성 파이프라인에서. 이러한 아키텍처 설계 덕분에 MagicVideo-V2는 아름다운 고해상도 비디오를 생성할 뿐만 아니라 상대적으로 좋은 충실도와 부드러움을 갖는 "미적" 측면에서 안정적인 높은 수준의 성능을 유지할 수 있습니다.

구체적으로 연구원들은 먼저 T2I 모듈을 사용하여 설명된 장면을 캡슐화하는 1024×1024 이미지를 만들었습니다. 그런 다음 I2V 모듈은 이 정적 이미지에 애니메이션을 적용하여 600×600×32 프레임 시퀀스를 생성하며 기본 노이즈는 초기 프레임의 연속성을 보장합니다. V2V 모듈은 비디오 콘텐츠를 다듬는 동시에 이러한 프레임을 1048×1048 해상도로 향상시킵니다. 마지막으로 보간 모듈은 시퀀스를 94프레임으로 확장하여 1048×1048 해상도 비디오를 생성하며 생성된 비디오는 높은 미적 품질과 시간적 부드러움을 갖습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

연구원들이 실시한 대규모 사용자 평가는 MagicVideo-V2가 잘 알려진 일부 T2V 방법보다 더 인기가 있음을 입증합니다(녹색, 회색 및 분홍색 막대는 MagicVideo-V2가 각각 우수, 동등 또는 우수로 평가되었음을 나타냄) ) 차이점).

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

고화질 영상 생성의 이면에는

시각과 언어 학습을 일체화하는 연구 패러다임

MagicVideo-V2 논문을 보면 영상 생성 기술의 발전은 떼려야 뗄 수 없음을 알 수 있습니다 .Wenshengtu 및 Tushengvideo와 같은 AIGC 기술의 길을 닦습니다. 미학적 수준이 높은 콘텐츠를 생성하기 위한 기초는 이해, 특히 시각적 및 언어 양식을 학습하고 통합하는 모델의 능력 향상에 있습니다.

최근에는 대규모 언어 모델의 확장성과 일반 기능으로 인해 비전과 언어 학습을 통합하는 연구 패러다임이 등장했습니다. "시각적"과 "언어"라는 두 가지 양식 사이의 자연스러운 격차를 메우기 위해 연구자들은 사전 훈련된 대형 언어 모델과 시각적 모델의 표현을 연결하고, 교차 모드 특징을 추출하고, 시각적 질문 답변과 같은 작업을 완료합니다. 이미지 캡션 작성, 시각적 지식 추론, 대화 등의 작업.

이러한 방향으로 ByteDance도 관련 탐구를 진행하고 있습니다.

예를 들어 오픈 월드 비전 작업에서 다목적 추론 및 분할 문제를 해결하기 위해 ByteDance는 베이징 교통 대학교 및 베이징 과학 기술 대학교의 연구원과 팀을 이루어 효율적인 대규모 픽셀을 제안했습니다. 레벨 추론 모델인 PixelLM을 개발하여 오픈 소스로 만들었습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?


  • 논문 제목: PixelLM: Pixel Reasoning with Large Multimodal Model
  • 논문 링크: https://arxiv.org/pdf/2312.02228.pdf
  • 프로젝트 주소: https://pixellm.github.io/

PixelLM은 다양한 개방형 목표와 다양한 추론 복잡성을 가진 작업을 능숙하게 처리할 수 있습니다. 아래 그림은 다양한 분할 작업에서 PixelLM을 생성하는 기능을 보여줍니다. 고품질 타겟 마스크.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

PixelLM의 핵심은 새로운 픽셀 디코더와 분할 코드북입니다. 코드북에는 다양한 시각적 규모에서 대상 참조와 관련된 컨텍스트와 지식을 인코딩하는 학습 가능한 토큰이 포함되어 있으며 픽셀 디코더는 코드북 토큰 및 이미지 기능은 대상 마스크를 생성합니다. LMM의 기본 구조를 유지하면서 PixelLM은 비용이 많이 드는 추가 시각적 분할 모델 없이 고품질 마스크를 생성할 수 있으므로 효율성과 다양한 애플리케이션으로의 전송 가능성이 향상됩니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

연구원들이 포괄적인 다목적 추론 분할 데이터 세트 MUSE를 구축했다는 점은 주목할 가치가 있습니다. 그들은 LVIS 데이터 세트의 이미지 콘텐츠를 기반으로 총 910,000개의 고품질 인스턴스 분할 마스크와 자세한 텍스트 설명을 선택하고 이를 사용하여 246,000개의 질문-답변 쌍을 구성했습니다.

이미지에 비해 영상 콘텐츠가 포함되면 모델이 직면하는 어려움이 많이 늘어납니다. 비디오에는 풍부하고 다양한 시각적 정보가 포함될 뿐만 아니라 시계열의 역동적인 변화도 포함되기 때문입니다.

기존 대형 다중 모드 모델이 비디오 콘텐츠를 처리할 때 일반적으로 비디오 프레임을 일련의 시각적 토큰으로 변환하고 이를 언어 토큰과 결합하여 텍스트를 생성합니다. 그러나 생성된 텍스트의 길이가 길어질수록 영상 콘텐츠의 영향력은 점차 약해지며, 생성된 텍스트는 원본 영상 콘텐츠에서 점점 더 벗어나 소위 '환상'을 낳게 된다.

이 문제에 직면하여 ByteDance와 Zhejiang University는 비디오 콘텐츠의 복잡성을 위해 특별히 설계된 다중 모드 대형 모델인 Vista-LLaMA를 제안했습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

  • 논문 제목: Vista-LLaMA: 시각적 토큰과 동일한 거리를 통한 신뢰할 수 있는 비디오 내레이터
  • 논문 링크: https://arxiv.org/pdf/2312.08870.pdf
  • 프로젝트 주소 : https://jinxxian.github.io/Vista-LLaMA/

Vista-LLaMA는 향상된 주의 메커니즘을 채택합니다. EDVT(Visual Equidistant Token Attention)는 비전과 텍스트를 처리합니다. 토큰은 전통적인 상대 위치 인코딩을 제거하고 텍스트 간의 상대 위치 인코딩을 유지합니다. 이 방법은 비디오 콘텐츠에 대한 언어 모델의 이해 깊이와 정확성을 크게 향상시킵니다.

특히 Vista-LLaMA가 도입한 직렬화된 시각적 프로젝터는 비디오의 시계열 분석 문제에 대한 새로운 관점을 제공합니다. 선형 투영 레이어를 통해 시각적 토큰의 시간적 맥락을 인코딩하여 동적 변화에 대한 모델의 반응을 향상시킵니다. 영상 이해능력.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

최근 ICLR 2024에서 승인된 연구에서 ByteDance 연구원들은 모델의 비디오 콘텐츠 학습 능력을 향상시키기 위한 사전 훈련 방법도 탐색했습니다.

비디오 텍스트 훈련 코퍼스의 제한된 규모와 품질로 인해 대부분의 시각적 언어 기본 모델은 사전 훈련을 위해 이미지-텍스트 데이터 세트를 채택하고 주로 시각적 의미 표현 모델링에 중점을 두고 시간적 의미 표현과 상관 성별은 무시합니다.

이 문제를 해결하기 위해 그들은 사전 훈련된 연결 샘플인 시각적 언어 기반 모델인 COSA를 제안했습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?


  • 논문 제목: COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
  • 논문 링크: https://arxiv.org/pdf/2306.09085.pdf
  • 프로젝트 홈페이지: https://github.com/TXH-mercury/COSA

COSA는 이미지-텍스트 코퍼스만을 사용하여 시각적 콘텐츠와 이벤트 수준 시간적 단서를 공동 모델링합니다. 연구원들은 사전 훈련을 위한 입력으로 여러 이미지-텍스트 쌍을 순서대로 연결했습니다. 이 변환은 기존 이미지-텍스트 말뭉치를 유사 긴 형식의 비디오 단락 말뭉치로 효과적으로 변환하여 보다 풍부한 장면 전환과 명시적인 이벤트 설명 대응을 가능하게 합니다. 실험에서는 COSA가 길거나 짧은 비디오 텍스트 작업과 이미지 텍스트 작업(예: 검색, 자막, 질문 답변)을 포함한 다양한 다운스트림 작업에서 지속적으로 성능을 향상시킬 수 있음을 보여줍니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

이미지에서 영상으로

재인정된 "확산 모델"

시각-언어 모델 외에도 확산 모델은 대부분의 영상에서 사용되는 기술이기도 합니다 세대 모델 .

대규모 이미지-텍스트 쌍 데이터 세트에 대한 엄격한 교육을 통해 확산 모델은 전적으로 텍스트 정보를 기반으로 상세한 이미지를 생성할 수 있습니다. 이미지 생성 외에도 확산 모델은 오디오 생성, 시계열 생성, 3D 포인트 클라우드 생성 등에 사용할 수도 있습니다.

예를 들어 일부 짧은 동영상 애플리케이션에서는 사용자가 사진만 제공하면 가짜 액션 동영상을 생성할 수 있습니다.

수백년 동안 신비한 미소를 유지해 온 Mona Lisa는 즉시 달리기를 시작할 수 있습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

이 흥미로운 애플리케이션 뒤에 숨겨진 기술은 싱가포르 국립 대학교 연구원과 ByteDance의 공동 노력입니다. "MagicAnimate"를 출시했습니다.

MagicAnimate는 전체 애니메이션의 시간적 일관성을 보장하고 특정 모션 시퀀스를 기반으로 비디오를 생성하는 작업에서 애니메이션 충실도를 향상시킬 수 있는 확산 기반 인간 이미지 애니메이션 프레임워크입니다. 또한 MagicAnimate 프로젝트는 오픈 소스입니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

  • 논문 제목: MagicAnimate: 확산 모델을 사용한 일시적으로 일관된 인간 이미지 애니메이션
  • 논문 링크: https://arxiv.org/pdf/2311.16498.pdf
  • 프로젝트 주소: https://showlab.github.io/magicanimate/

생성된 애니메이션의 일반적인 "깜박임" 문제를 해결하기 위해 연구원들은 시간적 주의(temporal attention) 블록을 확산 백본에 병합했습니다. 네트워크, 시간적 모델링을 위한 비디오 확산 모델을 구축합니다.

MagicAnimate는 전체 비디오를 겹치는 세그먼트로 분해하고 단순히 겹치는 프레임에 대한 예측의 평균을 구합니다. 마지막으로 연구원들은 참조 이미지 보존 기능과 단일 프레임 충실도를 더욱 향상시키기 위해 이미지-비디오 공동 훈련 전략도 도입했습니다. 실제 인간 데이터에 대해서만 교육을 받았지만 MagicAnimate는 보이지 않는 도메인 데이터의 애니메이션, 텍스트-이미지 확산 모델과의 통합 및 다중 사용자 애니메이션을 포함하여 다양한 애플리케이션 시나리오로 일반화할 수 있는 능력을 입증했습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

확산 모델 "DREAM-Talk" 아이디어를 기반으로 한 또 다른 연구에서는 단일 인물 이미지에서 말하는 감정적인 얼굴을 생성하는 작업을 해결합니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?


  • 논문 제목: DREAM-Talk: 단일 이미지 말하는 얼굴 생성을 위한 확산 기반 실감형 감성 오디오 기반 방법
  • 논문 링크: https://arxiv.org /pdf/2312.13578.pdf
  • 프로젝트 주소: https://dreamtalkemo.github.io/

우리는 이 작업에서 표현적인 감정적 대화와 정확한 입술 동기화를 동시에 달성하는 것이 어렵다는 것을 알고 있습니다. , 일반적으로 립싱크의 정확성을 보장하기 위해 표현력이 크게 감소하는 경우가 많습니다.

"DREAM-Talk"는 확산 기반 오디오 기반 프레임워크로 두 단계로 나뉩니다. 첫째, 연구원들은 오디오 및 참조 감정을 기반으로 매우 역동적인 다양한 패턴을 생성할 수 있는 새로운 확산 모듈 EmoDiff를 제안했습니다. 스타일. 감정 표현과 머리 자세. 입술 움직임과 오디오 사이의 강한 상관관계를 고려하여 연구원들은 오디오 기능과 감정 스타일을 사용하여 역학을 개선하여 입술 동기화 정확도를 향상시켰으며 또한 비디오-비디오 렌더링 모듈을 배포하여 표정과 입술 움직임을 모든 초상화에 전달했습니다.

효과적인 측면에서 DREAM-Talk는 표현력, 립싱크 정확도, 인지 품질 측면에서 정말 좋습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

하지만 이미지 생성이든 비디오 생성이든 현재 확산 모델은 경로 기반 연구에는 여전히 해결해야 할 몇 가지 근본적인 과제가 있습니다.

예를 들어, 많은 사람들이 생성된 콘텐츠(SAG, DREAM-Talk에 해당)의 품질에 대해 우려하고 있습니다. 이는 가이드 샘플링과 같은 확산 모델 생성 프로세스의 일부 단계와 관련이 있을 수 있습니다.

확산 모델의 유도 샘플링은 대략 훈련이 필요한 범주와 훈련이 필요하지 않은 범주의 두 가지 범주로 나눌 수 있습니다. 훈련이 필요 없는 안내 샘플링은 사전 훈련된 네트워크(예: 미적 평가 모델)를 활용하여 생성 프로세스를 안내하고, 더 적은 단계와 더 높은 정확도로 사전 훈련된 모델로부터 지식을 얻는 것을 목표로 합니다. 현재의 훈련 비유도 샘플링 알고리즘은 유도 에너지 함수를 얻기 위해 깨끗한 이미지의 1단계 추정을 기반으로 합니다. 그러나 사전 훈련된 네트워크는 깨끗한 이미지에 대해 훈련되기 때문에 깨끗한 이미지에 대한 1단계 추정 프로세스는 특히 확산 모델의 초기 단계에서 부정확할 수 있으며, 이로 인해 초기 단계에서 지침이 부정확해질 수 있습니다.

이 문제에 대응하여 ByteDance와 싱가포르 국립 대학교의 연구원들은 SAG(Symplectic Adjoint Guidance)를 공동으로 제안했습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

  • 논문 제목: Towards Accurate Guided Diffusion Sampling through Symplegic Adjoint Method
  • 논문 링크: https://arxiv.org/pdf/2312.12030.pdf

SAG 그라데이션 안내는 두 가지 내부 단계를 통해 계산됩니다. 첫째, SAG는 n개의 함수 호출을 통해 깨끗한 이미지를 추정합니다. 여기서 n은 특정 이미지 품질 요구 사항에 따라 조정될 수 있는 유연한 매개 변수 역할을 합니다. 둘째, SAG는 대칭 이중 방법을 사용하여 메모리 요구 사항에 대한 기울기를 정확하고 효율적으로 얻습니다. 이러한 접근 방식은 스타일 기반 이미지 생성, 미적 개선, 비디오 스타일화 등 다양한 이미지 및 비디오 생성 작업을 지원하고 생성된 콘텐츠의 품질을 효과적으로 향상시킬 수 있습니다.

최근 ICLR 2024에 선정된 논문은 "확산 확률 모델의 기울기 역전파의 임계 감도 방법"에 중점을 두고 있습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?


  • 논문 제목: 확산 확률 모델의 경사 역전파를 위한 Adjoint Sensitivity Method
  • 논문 링크: https://arxiv.org/pdf/2307.10 7 11.pdf

확산 확률 모델의 샘플링 프로세스에는 잡음 제거 U-Net에 대한 재귀 호출이 포함되므로 순진한 경사 역전파는 모든 반복의 중간 상태를 저장해야 하므로 메모리 소비가 매우 높아집니다.

본 논문에서 연구진이 제안한 AdjointDPM은 먼저 해당 확률적 흐름 ODE를 풀어 확산 모델로부터 새로운 샘플을 생성합니다. 그런 다음, 모델 매개변수(조정 신호, 네트워크 가중치 및 초기 잡음 포함)의 손실 기울기는 또 다른 증강 ODE를 해결함으로써 인접 민감도 방법을 사용하여 역전파됩니다. 순방향 생성 및 경사 역전파 중 수치 오류를 줄이기 위해 연구원들은 확률적 흐름 ODE를 추가로 다시 매개변수화하고 지수 적분을 사용하여 단순 비강성 ODE로 강화했습니다.

연구원들은 AdjointDPM이 시각적 효과를 인식된 텍스트 임베딩으로 변환하고, 특정 유형의 스타일화에 대한 확산 확률 모델을 미세 조정하고, 보안 감사를 위해 생성할 초기 노이즈를 최적화하는 세 가지 작업에서 매우 가치가 있다고 지적합니다. 최적화 작업 비용.

시각 인식 작업에서는 텍스트-이미지 확산 모델을 특징 추출기로 사용하는 방법도 점점 더 주목을 받고 있습니다. 이러한 방향에서 ByteDance 연구자들은 논문에서 간단하고 효과적인 솔루션을 제안했습니다.

오해를 받는 중국판 Sora 뒤에 ByteDance는 어떤 기술을 갖고 있나요?

  • 논문 제목; 메타 프롬프트를 통한 시각적 인식을 위한 확산 모델 활용
  • 논문 링크: https://arxiv.org/pdf/2312.14733.pdf

이것은 이 논문의 핵심 혁신은 사전 훈련된 확산 모델에 학습 가능한 임베딩(메타 큐)을 도입하여 이미지 캡션을 생성하기 위해 추가 다중 모드 모델을 사용하거나 데이터 세트에서 카테고리 레이블을 사용하지 않고 지각 특징을 추출하는 것입니다.

메타 큐는 두 가지 목적으로 사용됩니다. 첫째, T2I 모델의 텍스트 임베딩을 직접 대체하여 기능 추출 중에 작업 관련 기능을 활성화할 수 있습니다. 둘째, 추출된 기능을 재정렬하여 모델은 현재 작업과 가장 관련성이 높은 기능에 중점을 둡니다. 또한 연구진은 확산 모델의 특성을 최대한 활용하여 보다 강력한 시각적 특징을 얻을 수 있는 순환 개선 훈련 전략도 설계했습니다.

중국판 소라가 탄생하려면 얼마나 남았나요

?

이 새로운 논문에서 우리는 ByteDance와 같은 국내 기술 회사의 비디오 생성 기술에 대한 일련의 활발한 탐구에 대해 배웠습니다.

하지만 소라와 비교하면 ByteDance든, AI 영상 세대 분야의 수많은 스타 기업이든 육안으로 보이는 격차가 있습니다. Sora의 장점은 스케일링 법칙에 대한 믿음과 획기적인 기술 혁신에 기반을 두고 있습니다. 즉, 패치를 통해 비디오 데이터를 통합하고 Diffusion Transformer와 같은 기술 아키텍처와 DALL・E 3의 의미 이해 기능을 활용하여 진정으로 "먼 앞선" 성과를 거두었습니다.

2022년 Wenshengtu의 폭발부터 2024년 Sora의 등장까지 인공지능 분야의 기술 반복 속도는 모든 사람의 상상을 뛰어넘었습니다. 2024년에는 이 분야의 '핫 제품'이 더 많아질 것이라고 믿습니다.

Byte는 분명히 기술 연구 및 개발에 대한 투자를 강화하고 있습니다. 최근 Google VideoPoet 프로젝트 리더인 Jiang Lu와 오픈 소스 다중 모드 대형 모델 LLaVA 팀의 구성원이자 전 Microsoft Research 수석 연구원인 Chunyuan Li가 모두 ByteDance 지능형 생성 팀에 합류한 것으로 밝혀졌습니다. 팀에서도 적극적으로 채용을 진행하고 있으며 공식 홈페이지에는 대형 모델 알고리즘과 관련된 직위가 다수 게시되어 있습니다.

바이트뿐만 아니라 BAT와 같은 오래된 거대 기업들도 눈길을 끄는 비디오 세대 연구 결과를 많이 발표했으며, 다수의 대형 모델 스타트업은 더욱 공격적입니다. Vincent Video Technology에는 어떤 새로운 혁신이 이루어질까요? 두고 보자.

위 내용은 오해를 받는 '중국판 Sora' 뒤에 ByteDance는 어떤 기술을 갖고 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제