>기술 주변기기 >일체 포함 >Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

WBOY
WBOY앞으로
2024-04-25 14:55:141011검색

Open-Sora는 오픈 소스 커뮤니티에서 조용히 업데이트되었습니다. 이제 최대 720p의 해상도로 최대 16초의 비디오 생성을 지원하며 텍스트 대 이미지, 텍스트 대 비디오, 이미지 대 비디오의 모든 화면비를 처리할 수 있습니다. , 비디오 대 비디오 및 무한 길이의 비디오 생성이 필요합니다. 한번 시험해 봅시다.

가로 화면 크리스마스 설경을 생성하고 B 사이트

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

에 게시한 다음 세로 화면을 만들고

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

트윗하고 16초 길이의 동영상도 생성하면 이제 여러분 시나리오 쓰기에 중독되면 어떻게 플레이할 수 있나요? Guidance

GitHub: https://github.com/hpcaitech/Open-Sora

더 멋진 점은 Open-Sora가 여전히 최신 모델 아키텍처, 최신 모델 무게, 시간/해상도/종횡비/프레임 속도의 학습 과정, 데이터 수집 및 전처리의 전체 과정, 모든 학습 세부정보, 데모 예시

자세한 시작 튜토리얼. Open-Sora 기술 보고서 ​​종합 해석

최신 기능 개요

저자 팀은 Open-Sora 기술 보고서[1]를 저자의 이해에 따라 공식 공개했습니다. 이 업데이트에는 주로 다음과 같은 주요 기능이 포함되어 있습니다.

최대 720p의 비디오 생성 해상도

  • 단일 모델은 모든 화면 비율, 다양한 해상도 및 지속 시간에 대한 텍스트를 지원합니다. , 텍스트를 비디오로, 이미지를 비디오로, 비디오를 비디오로, 무한 길이의 비디오 생성 요구 사항
  • 다중 시간/해상도/종횡비/프레임 속도 훈련을 지원하는 보다 안정적인 모델 아키텍처 설계를 제안합니다.
  • The 최신 자동 데이터 처리 프로세스는 오픈 소스입니다.
  • 시공간 확산 모델 ST-DiT-2
  • 저자 팀은 훈련 안정성과 전반적인 성능 향상을 목표로 Open-Sora 1.0에서 STDiT 아키텍처를 크게 개선했다고 밝혔습니다. 모델의 . 현재 시퀀스 예측 작업을 위해 팀은 LLM(대형 언어 모델)의 모범 사례를 채택하고 시간적 주의의 정현파 위치 인코딩을 보다 효율적인 회전 위치 인코딩(RoPE 임베딩)으로 대체했습니다. 또한 훈련의 안정성을 높이기 위해 SD3 모델 아키텍처를 참조하고 QK 정규화 기술을 추가로 도입하여 반정밀도 훈련의 안정성을 높였습니다. 다양한 해상도, 다양한 종횡비 및 프레임 속도의 훈련 요구 사항을 지원하기 위해 저자 팀이 제안한 ST-DiT-2 아키텍처는 위치 인코딩을 자동으로 확장하고 다양한 크기의 입력을 처리할 수 있습니다.

다단계 훈련

오픈소라 기술 보고서에 따르면 오픈소라는 다단계 훈련 방식을 채택하고 있으며, 각 단계에서는 이전 단계의 가중치를 기준으로 훈련을 이어갑니다. 단일 단계 학습에 비해 이 다단계 학습은 데이터를 단계별로 도입하여 고품질 비디오 생성 목표를 보다 효율적으로 달성합니다.

초기 단계에서는 대부분의 동영상이 144p 해상도를 사용하며, 훈련을 위해 사진과 240p, 480p 동영상을 혼합하여 훈련을 진행하며, 총 단계 크기는 81k입니다. 두 번째 단계에서는 대부분의 비디오 데이터의 해상도가 240p 및 480p로 증가하고 훈련 시간은 1일이며 단계 크기는 22k에 이릅니다. 세 번째 단계에서는 480p와 720p로 더욱 강화되었으며 훈련 기간은 1일로 4k 단계의 훈련이 완료되었습니다. 전체 다단계 훈련 과정은 약 9일 만에 완료되었습니다. Open-Sora1.0에 비해 비디오 생성 품질이 다차원적으로 향상되었습니다.

이미지-비디오/비디오-비디오 통합 프레임워크

저자 팀은 Transformer의 특성을 기반으로 DiT 아키텍처를 이미지-이미지 및 비디오-이미지 지원으로 쉽게 확장할 수 있다고 밝혔습니다. 비디오-비디오 작업. 그들은 이미지와 비디오의 조건부 처리를 지원하는 마스킹 전략을 제안했습니다. 다양한 마스크를 설정하면 그래픽 비디오, 루프 비디오, 비디오 확장, 비디오 자동 회귀 생성, 비디오 연결, 비디오 편집, 프레임 삽입 등 다양한 생성 작업을 지원할 수 있습니다.

이미지 및 비디오 조건부 처리를 위한 마스킹 전략 지원

저자 팀은 UL2[2] 방법에서 영감을 받아 모델 훈련 단계에서 무작위 마스킹 전략을 도입했다고 밝혔습니다. 구체적으로, 마스킹된 프레임은 첫 번째 프레임, 첫 번째 k 프레임, 다음 k 프레임, 임의의 k 프레임 등을 마스킹 해제하는 것을 포함하되 이에 국한되지 않는 학습 프로세스 중에 무작위 방식으로 선택되고 마스킹 해제됩니다. 저자는 또한 Open-Sora 1.0을 사용한 실험을 기반으로 50% 확률로 마스킹 전략을 적용할 때 모델이 적은 수의 단계만으로 이미지 조절을 처리하는 방법을 더 잘 학습할 수 있음을 밝혔습니다. 최신 버전의 Open-Sora에서는 마스킹 전략을 사용하여 처음부터 사전 훈련하는 방법을 채택했습니다.

또한 저자 팀은 추론 단계의 마스킹 전략 구성에 대한 자세한 가이드를 신중하게 제공합니다. 5개 숫자의 튜플 형식은 마스킹 전략을 정의할 때 뛰어난 유연성과 제어력을 제공합니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

마스크 정책 구성 지침

다중 시간/해상도/종횡비/프레임 속도 훈련 지원

OpenAI Sora의 기술 보고서[3]에서는 원본 비디오를 사용하여 훈련한다고 지적했습니다. 해상도, 종횡비 및 길이는 샘플링 유연성을 높이고 프레이밍 및 구성을 향상시킬 수 있습니다. 이에 저자팀은 버킷팅 전략을 제안했다.

구체적으로 어떻게 구현하나요? 저자가 공개한 기술 보고서를 자세히 읽어본 결과 소위 버킷이 (해상도, 프레임 수, 종횡비)의 세 가지 요소라는 것을 알게 되었습니다. 팀은 가장 일반적인 비디오 종횡비 유형을 포괄하기 위해 다양한 해상도의 비디오에 대한 다양한 종횡비를 미리 정의했습니다. 각 훈련 주기 에포크가 시작되기 전에 데이터 세트를 다시 섞고 특성에 따라 해당 버킷에 샘플을 할당합니다. 구체적으로, 각 샘플을 해상도와 프레임 길이가 해당 비디오 기능보다 작거나 같은 버킷에 넣습니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 버킷팅 전략

저자 팀은 컴퓨팅 리소스에 대한 요구 사항을 줄이기 위해 각 keep_prob 및atch_size에 대해 두 가지 속성(해상도, 프레임 수)을 도입했다고 밝혔습니다. 비용을 계산하고 다단계 교육을 구현합니다. 이렇게 하면 서로 다른 버킷의 샘플 수를 제어하고 각 버킷에 적합한 배치 크기를 검색하여 GPU 부하의 균형을 맞출 수 있습니다. 저자는 기술 보고서에서 이에 대해 자세히 설명합니다. 관심 있는 친구들은 저자가 GitHub에 게시한 기술 보고서를 읽고 더 많은 정보를 얻을 수 있습니다: https://github.com/hpcaitech/Open-Sora

데이터 수집 및 사전 -처리 과정

저자 팀은 데이터 수집 및 처리에 대한 자세한 지침도 제공합니다. 기술 보고서의 저자 설명에 따르면 Open-Sora 1.0 개발 과정에서 고성능 모델을 육성하려면 데이터의 양과 질이 매우 중요하다는 사실을 깨닫고 데이터 세트를 확장하고 최적화하는 데 전념했습니다. . 그들은 단일 값 분해(SVD) 원칙을 따르고 장면 분할, 자막 처리, 다양성 채점 및 필터링은 물론 데이터 세트의 관리 시스템 및 사양을 다루는 자동화된 데이터 처리 프로세스를 구축했습니다. 마찬가지로 그들은 데이터 처리 관련 스크립트를 오픈 소스 커뮤니티에 사심 없이 공유합니다. 관심 있는 개발자는 이제 기술 보고서 ​​및 코드와 결합된 이러한 리소스를 사용하여 자신의 데이터 세트를 효율적으로 처리하고 최적화할 수 있습니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 데이터 처리 과정

Open-Sora 성능 종합 평가

영상 생성 효과 표시

Open-Sora의 가장 눈길을 끄는 하이라이트는 it 텍스트 설명을 통해 마음 속 장면을 포착하고 움직이는 영상으로 변환할 수 있습니다. 당신의 마음 속에 번쩍이는 이미지와 상상은 이제 영구적으로 기록되고 다른 사람들과 공유될 수 있습니다. 여기서 저자는 출발점으로 여러 가지 다른 프롬프트를 시도했습니다.

예를 들어 저자는 겨울 숲을 방문하는 영상을 생성하려고 했습니다. 눈이 내린 지 얼마 지나지 않아 소나무에는 짙은 솔잎과 하얀 눈이 투명한 층으로 흩뿌려졌습니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

또는 조용한 밤, 당신은 하늘의 밝은 별들 아래 반짝이는 깊은 호수가 있는 수많은 동화에 묘사된 것과 같은 어두운 숲에 있습니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

상공에서 내려다보는 북적거리는 섬의 야경은 더욱 아름답습니다. 따뜻한 노란색 조명과 리본처럼 푸른 바다가 사람들을 여유로운 휴가의 시간으로 끌어들입니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

번잡한 도시의 교통과 고층 빌딩, 늦은 밤에도 불이 켜져 있는 길거리 상점은 색다른 느낌을 줍니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

오픈소라는 풍경 외에도 다양한 자연생물을 복원할 수 있습니다. 새빨간 꽃이든,

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

이든, 천천히 고개를 돌리는 카멜레온이든 Open-Sora는 더욱 실감나는 영상을 생성할 수 있습니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

저자는 또한 다양한 프롬프트 테스트를 시도했고 다양한 콘텐츠, 다양한 해상도, 다양한 화면비, 다양한 지속 시간을 포함하여 참조용으로 생성된 많은 비디오를 제공했습니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

저자는 또한 Open-Sora가 단 하나의 간단한 명령으로 다중 해상도 비디오 클립을 생성하여 창의적인 한계를 완전히 깨뜨릴 수 있다는 것을 발견했습니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

해상도: 16*240p

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

해상도: 32*240p

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

해상도: 64*360p

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

해상도: 480 *854p

Open-Sora에 정적 이미지를 공급하여 짧은 비디오를 생성할 수도 있습니다

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora는 두 개의 정적 이미지를 교묘하게 연결하여 오후부터 황혼까지 변화하는 빛과 그림자를 경험할 수 있습니다.

또 다른 예를 들자면, 원본 영상을 간단한 명령만으로 편집하고 싶다면 원래 밝은 숲에 폭설이 내렸을 겁니다.

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora를 사용하여 고화질 사진을 생성할 수도 있습니다

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원

Open-Sora 모델의 가중치는 이미 완전 무료이며 오픈 소스 커뮤니티에 게시되어 있으므로 다운로드하여 사용해 볼 수도 있습니다. 비디오 접합 기능도 지원하므로 스토리가 포함된 짧은 단편 소설을 무료로 만들어 창의력을 현실로 만들 수 있는 기회가 있다는 의미입니다.

웨이트 다운로드 주소 : https://github.com/hpcaitech/Open-Sora

현재의 한계와 향후 계획

소라 같은 빈센트 영상모델을 재현하는데 좋은 결과를 얻었지만, 진행은 제작되었지만, 저자팀은 현재 생성된 영상이 생성 과정 중 노이즈 문제, 시간적 일관성 부족, 캐릭터 생성 품질 저하, 미적 점수가 낮은 등 여러 측면에서 여전히 개선이 필요하다고 겸허하게 지적합니다. 이러한 과제와 관련하여 저자 팀은 더 높은 비디오 생성 표준을 달성하기 위해 다음 버전 개발에서 문제를 해결하는 데 우선순위를 둘 것이라고 밝혔습니다. 관심 있는 친구들은 계속 관심을 가져주시기 바랍니다. Open-Sora 커뮤니티가 우리에게 가져올 다음 놀라움을 기대합니다.

오픈소스 주소: https://github.com/hpcaitech/Open-Sora

위 내용은 Open-Sora 종합 오픈 소스 업그레이드: 16s 비디오 생성 및 720p 해상도 지원의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제