Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

WBOY
WBOYOriginal
2024-08-05 15:10:01609Durchsuche

你规定路线,Tora 来生成相应轨迹的视频。


目前,扩散模型能够生成多样化且高质量的图像或视频。此前,视频扩散模型采用 U-Net 架构 ,主要侧重于合成有限时长(通常约为两秒)的视频,并且分辨率和纵横比受到固定限制。

Sora 的出现打破了这一限制,其采用 Diffusion Transformer(DiT)架构,不仅擅长制作 10 到 60 秒的高质量视频,而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。

可以说 Sora 是 DiT 架构最有利的证明,然而,基于 Transformer 的扩散模型在有效生成可控动作视频方面还未被充分探索。

针对这一问题,来自阿里的研究者提出了 Tora,这是第一个面向轨迹的 DiT 架构,它将文本、视觉和轨迹条件同时集成在一起以生成视频。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

Tora 的设计与 DiT 的可扩展性无缝契合,允许精确控制具有不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在实现高运动保真度方面表现出色,同时还能细致模拟物理世界的运动。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

  • 论文地址:https://arxiv.org/pdf/2407.21705
  • 论文主页:https://ali-videoai.github.io/tora_video/
  • 论文标题:Tora: Trajectory-oriented Diffusion Transformer for Video Generation

一艘老式的木制帆船沿着规定好的路线在迷雾笼罩的河流上平稳地滑行,周围是茂密的绿色森林。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

一条鲫鱼优雅地游过火星的红色岩石表面,鱼的轨迹向左,火星的轨迹向右。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

热气球沿着不同的轨迹升入夜空,一个沿着规定的斜线,另一个沿着有弯度的轨迹。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

两只可爱的小猫并排走在宁静的金色沙滩上。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

气泡沿着轨迹轻轻地漂浮在盛开的野花中。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

枫叶在清澈的湖面上颤动,映照着秋天的森林。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

山间的瀑布倾泻而下,主题、背景的运动都可以按照不同的路线运动。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

在 Tora 与其他方法的比较中,可以看出 Tora 生成的视频流畅度更高,更遵循轨迹,且物体不会存在变形的问题,保真度更好。

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

방법 소개

Tora는 OpenSora를 DiT 아키텍처의 기본 모델로 사용하며, 여기에는 Trajectory Extractor(TE, Trajectory Extractor), Spatial-Temporal DiT(Spatial-Temporal DiT) 및 Motion Guidance Fusion( MGF) , 모션 안내 퓨저). TE는 3D 비디오 압축 네트워크를 사용하여 임의의 궤적을 계층적 시공간 모션 패치로 인코딩합니다. MGF는 모션 패치를 DiT 블록에 통합하여 궤적을 따르는 일관된 비디오를 생성합니다. 그림 3은 Tora의 작업 흐름을 간략하게 보여줍니다.
Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt
Space-Time DiT(ST-DiT)

ST-DiT 아키텍처에는 공간 DiT 블록(S-DiT-B)과 시간 DiT 블록(T-DiT-)이라는 두 가지 블록 유형이 포함되어 있습니다. B) 교대로 배열됩니다. S-DiT-B는 두 개의 Attention 레이어로 구성되며, 각 레이어는 SSA(Spatial Self-Attention)와 교차 Attention을 순차적으로 수행하고, 인접한 T-DiT-B 조각을 연결하는 포인트별 피드포워드 레이어가 뒤따릅니다. T-DiT-B는 SSA를 TSA(Temporal Self-Attention)로 대체하여 아키텍처 일관성을 유지하는 방식으로만 이 아키텍처를 수정합니다. 각 블록에서 입력은 정규화 후 스킵 연결을 통해 블록의 출력에 다시 연결됩니다. 가변 길이 시퀀스를 처리하는 기능을 활용하여 ST-DiT의 노이즈 제거는 가변 길이의 비디오를 처리할 수 있습니다.

Trajectory Extractor

Trajectory는 생성된 비디오에서 모션을 제어하는 ​​데 있어 보다 사용자 친화적인 방법임이 입증되었습니다. 그러나 DiT 모델은 비디오 오토인코더와 패칭 프로세스를 채택하여 비디오를 비디오 패치로 변환합니다. 여기서 각 패치는 여러 프레임에 걸쳐 내보내지므로 프레임 간 오프셋을 직접 취하는 것은 부적절합니다. 이 문제를 해결하기 위해 본 논문에서 제안하는 TE는 궤적을 비디오 패치와 동일한 잠재 공간에 위치한 모션 패치로 변환합니다.

Motion Guided Fusion

DiT 기반 비디오 생성을 궤적과 결합하기 위해 이 문서에서는 각 ST-DiT 블록에 모션 패치를 주입하는 세 가지 융합 아키텍처 변형을 살펴봅니다. 이러한 설계는 그림 4에 나와 있습니다.

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

실험 결과

구현 세부 사항 측면에서 연구원들은 OpenSora v1.2 가중치를 기반으로 Tora를 훈련했습니다. 교육 비디오의 해상도는 144p에서 720p까지입니다. 다양한 해상도와 반복당 프레임 수를 사용하여 FLOP를 훈련하는 데 필요한 메모리의 균형을 맞추기 위해 배치 크기를 1에서 25로 조정했습니다.

훈련 인프라의 경우, 연구원들은 4개의 NVIDIA A100과 Adam 옵티마이저를 학습률 2 × 10^−5로 사용했습니다.

연구원들은 Tora를 인기 있는 운동 지도 영상 생성 방법과 비교했습니다. 평가에는 16, 64, 128 프레임의 세 가지 설정이 사용되었으며 모두 512×512 해상도였습니다.

결과는 아래 표 1과 같습니다. U-Net 방법에서 일반적으로 사용되는 16프레임 설정에서 MotionCtrl 및 DragNUWA는 제공된 궤적에 더 잘 정렬되지만 여전히 Tora보다 약합니다. 프레임 수가 증가함에 따라 U-Net 방법은 일부 프레임에서 크게 편향되고 오정렬 오류 전파로 인해 후속 시퀀스에서 변형, 모션 블러 또는 개체 사라짐이 발생할 수 있습니다.

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

Im Gegensatz dazu zeigt Tora dank der integrierten Skalierungsfunktionen von Transformer eine hohe Robustheit gegenüber Bildratenänderungen. Die von Tora erzeugte Bewegung ist sanfter und stimmt besser mit der physischen Welt überein. Bei der Auswertung unter einer 128-Frame-Testeinstellung ist die Flugbahngenauigkeit von Tora drei- bis fünfmal höher als bei anderen Methoden und demonstriert damit überlegene Bewegungssteuerungsfähigkeiten.

In Abbildung 5 unten analysiert der Forscher die Flugbahnfehler bei verschiedenen Auflösungen und Dauern. Die Ergebnisse zeigen, dass im Gegensatz zu U-Net, das im Laufe der Zeit offensichtliche Flugbahnfehler aufweist, die Flugbahnfehler von Tora mit der Zeit allmählich zunehmen. Dies steht im Einklang mit der Abnahme der Videoqualität mit zunehmender Zeit im DiT-Modell. Tora behält über längere Zeiträume eine effektive Flugbahnkontrolle bei.
Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt
Abbildung 6 unten zeigt die vergleichende Analyse zwischen Tora und gängigen Bewegungssteuerungsmethoden. In einer Szene, in der sich zwei Personen gemeinsam bewegen, können alle Methoden relativ genaue Bewegungstrajektorien erzeugen. Die visuelle Qualität von Tora ist jedoch dank der Verwendung längerer Sequenzbilder besser, was zu flüssigeren Bewegungsbahnen und einer realistischeren Hintergrundwiedergabe beiträgt.

Man erkennt, dass in der von Tora generierten Fahrradszene die menschlichen Beine realistische Tretbewegungen zeigen, während die Beine von DragNUWA fast horizontal schweben und damit die physische Realität verletzen. Darüber hinaus leiden sowohl DragNUWA als auch MotionCtrl unter starker Bewegungsunschärfe am Ende des Videos.

In einer anderen Szene, in der eine Laterne erzeugt wird, zeigt DragNUWA eine starke Verformung, während die bereitgestellte Flugbahn weiter steigt und fällt. Obwohl die Flugbahn von MotionCtrl relativ genau war, stimmte das resultierende Video nicht mit der Beschreibung der beiden Laternen überein. Tora folgt nicht nur strikt der Flugbahn, sondern minimiert auch die Verformung des Objekts und sorgt so für eine realistischere Aktionsdarstellung.

Alibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt

Weitere technische Details und experimentelle Ergebnisse finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonAlibabas „flugbahnsteuerbare Version von Sora“ verabschiedet sich vom „Kartenziehen“ und sorgt dafür, dass die Videoerzeugung besser mit physikalischen Gesetzen übereinstimmt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn