집 >기술 주변기기 >일체 포함 >또 하나의 '국내판 소라'가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

또 하나의 '국내판 소라'가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2024-08-05 15:46:591013검색

Le cercle vidéo de l'IA « se bat ».

Luma et Runway de l'étranger, Kuaishou Keling, Byte Dream, Zhipu Qingying de Chine... chantez simplement et j'apparaîtrai. Sans exception, ils ciblent tous le légendaire Sora.

En fait, lorsqu'il s'agit des challengers mondiaux de Sora, Vidu de Shengshu Technology est indispensable.

Il y a trois mois déjà, alors que le domaine de la génération vidéo au pays et à l'étranger était encore « silencieux », Shengshu Technology a soudainement exposé la vidéo promotionnelle de son dernier modèle vidéo à grande échelle Vidu avec son aspect vif et réaliste. performances, il n'est pas inférieur à Sora. L'effet a étonné de nombreux internautes.

Aujourd'hui encore, Vidu est officiellement lancé. Aucune candidature n'est requise, tant que vous disposez d'une adresse e-mail, vous pouvez commencer. (Lien du site officiel de Vidu : www.vidu.studio)

Par exemple, Pikachu et Doraemon jouent à "Cheap Kill" :

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

Les protagonistes masculins et féminins de "Twilight" montrent leur affection :

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

Cela résout même le problème de l'incapacité de l'IA à écrire :

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

De plus, l'efficacité de génération de Vidu est également étonnante, atteignant la vitesse d'inférence la plus rapide de l'industrie, et il ne faut que 30 secondes pour générer un 4- deuxième séquence.

Ensuite, nous fournirons le dernier examen de première main pour voir à quel point ce "Sora domestique" est fort.

Test pratique : le langage de l'objectif est audacieux et l'image ne s'effondrera pas !

Cette fois, Vidu a montré ses compétences uniques.

Non seulement continue les avantages de la dynamique élevée, de la haute fidélité et de la cohérence élevée démontrés en avril de cette année, mais ajoute également de nouvelles fonctionnalités telles que le style d'animation, la génération d'écrans de texte et d'effets spéciaux et la cohérence des personnages.

Le thème principal est : je veux avoir les fonctions que les autres ont, et je veux aussi avoir les fonctions que les autres n'ont pas.

Oh non, il reconnaît en fait les caractères et les chiffres

À ce stade, Vidu a deux fonctions principales : la vidéo Wen Sheng et la vidéo Tuxing.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

Fournit deux options de durée de 4s et 8s, avec une résolution jusqu'à 1080P. En termes de style, il existe deux options : réaliste et animé.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

Regardez d'abord la vidéo de Tusheng.

Ramener l'histoire à la vie est la façon de jouer la plus populaire du moment. Il s'agit de la célèbre œuvre "Portrait du peintre et de sa fille" de la peintre française Elisabeth Louise Verry.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

Nous entrons le mot prompt : portrait du peintre et de sa fille, mère et fille s'embrassant étroitement.

La version haute définition générée est accrocheuse. Les personnages bougent largement et même leurs yeux changent, mais l'effet est assez naturel.

Essayez à nouveau "La Femme à la belette d'argent" de Léonard de Vinci.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

즉시말: 은색 족제비를 안고 있는 여자가 웃고 있습니다.

8초 길이의 영상 속에서 여성과 반려동물이 크게 움직이는데, 특히 여성의 손을 만지는 동작, 몸과 얼굴의 변화 등이 모두 사진의 자연스러움과 부드러움에 영향을 미치지 않습니다.

크고 정확한 움직임은 영상의 줄거리와 캐릭터의 감정을 더 잘 표현하는 데 도움이 됩니다. 그러나 동작 범위가 커지면 화면이 무너지기 쉽습니다. 따라서 일부 모델은 부드러움을 보장하기 위해 진폭을 희생하지만 Vidu는 이 문제를 더 잘 해결합니다.

실제 물리적 세계의 움직임을 시뮬레이션하는데 정말 좋습니다. 예를 들어, 큐브릭의 "2001: A Space Odyssey"와 유사한 장면을 재현해보세요! ㅋㅋㅋ 프롬프트 단어: 긴 렌즈 아래에서 천천히 사라집니다.长 : 알림 단어: 긴 렌즈 아래에 떠 있고 끝에 천천히 떠 있습니다.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다. 투성 영상 외에도 빈센트 영상도 있어요.朵 활용팁: 검은 바탕에 두 개의 꽃이 천천히 피어나 섬세한 꽃잎과 수술을 보여줍니다.

^{팁: 이번에는 그녀가 혼자 벚꽃 깊은 그네에 앉아 분홍색 봄 셔츠를 입고 살짝 흔들리고, 흔들의자에 앉아 고개를 살짝 숙인 것처럼 진폭이 매우 작습니다. 조금 지루해 그는 천천히 발을 뻗고 땅에 있는 풀을 조금씩 걷어찼다. 그녀의 몸과 머리에 벚꽃이 떨어졌으나 손으로 치워지지 않고 점차 쌓여 옷의 색깔과 어우러져 멀리서 보면 온 몸이 벚꽃으로 이루어진 것처럼 보였다. .}

Vidu는 의미론적으로 잘 이해하고 있으며 프롬프트에서 한 번에 여러 샷의 클립 요구 사항도 이해할 수 있습니다.

예를 들어, 사진에는 해변가의 집이 클로즈업되어 있고, 카메라를 바다로 돌렸을 때 멀리 보이는 바다가 카메라 전환으로 인해 사진에 뚜렷한 서사적 느낌을 줍니다.

^{팁: 고풍스러운 해변 오두막에서는 태양이 방을 적시고, 카메라는 천천히 고요한 바다가 내려다보이는 발코니로 전환되며, 마지막으로 카메라는 떠다니는 바다, 범선 및 반사되는 구름 위에서 얼어붙습니다.}

Vidu는 1인칭 및 타임랩스 사진과 같은 렌즈 언어를 정확하게 이해하고 표현할 수도 있습니다. 사용자는 프롬프트 단어만 수정하면 동영상의 제어 가능성이 크게 향상됩니다. ㅋㅋ ~ .

^{Vidu는 숫자와 같은 일부 어휘를 정확하게 이해하고 생성할 수 있는 비디오 생성기입니다.块 팁: 촛불이 달린 생일 케이크입니다. 촛불은 숫자 "32"입니다.}

케이크에 "생일 축하합니다"라는 단어를 바꾸면 그대로 유지됩니다.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

^{프롬프트 단어:}

"HAPPY BIRTHDAY"라고 적힌 케이크 한 조각.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

애니메이션 스타일은 사용하기 쉽습니다^{현재 시중에 나와 있는 대부분의 AI 비디오 도구는 사실적인 스타일이나 사실적인 상상력에 기반한 반면 Vidu는 사실적인 스타일만 지원하는 것이 아닙니다. , 애니메이션 스타일도 지원합니다.}

애니메이션 모델을 선택하고 프롬프트 단어를 직접 입력하여 애니메이션 스타일의 영상을 출력합니다.

예를 들어 프롬프트 단어: 애니메이션 스타일, 부엌에 서서 야채를 자르고 있는 어린 소녀.

솔직히 이런 화풍은 미야자키 하야오의 취향이 있어요. 비두는 즉각적인 말을 이해했고, 어린 소녀는 야채를 매끄럽게 잘랐지만 손가락과 칼은 여전히 본의 아니게 변형되었습니다.

프롬프트: 애니메이션 스타일, 헤드폰을 끼고 있는 어린 소녀가 춤을 추고 있습니다.

Vidu는 상상력이 풍부해요. 배경을 분수가 있는 공원으로 설정해서 영상의 단조로움도 덜했어요.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다. 물론 애니메이션 참고 사진을 업로드하고 프롬프트 단어를 입력하여 사진 속 애니메이션 캐릭터가 움직일 수도 있습니다.

예를 들어 짱구는 짱구의 정적 사진을 업로드한 다음 프롬프트 단어를 입력합니다. 짱구는 웃으며 손에 있는 작은 꽃을 들어올렸습니다. 이미지 사용을 위해 "시작 프레임으로 사용"을 선택하십시오.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

효과를 살펴보겠습니다.

귀여운 피카츄 이미지를 업로드하고 "피카츄가 행복하게 뛰어오릅니다"라는 메시지를 입력하세요. 이미지 사용을 위해 "시작 프레임으로 사용"을 선택하십시오.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

계속해서 효과를 적용하세요.

"One Piece"의 Luffy 이미지를 업로드하고 프롬프트 단어를 입력하세요. 소년이 갑자기 울기 시작했습니다.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

효과는 다음과 같습니다.

Vidu의 애니메이션 효과는 스타일의 일관성을 유지하면서도 영상의 안정성과 부드러움을 크게 향상시키며, 정말 놀랍습니다. 변형이나 붕괴가 없습니다. 또는 여섯 손가락의 미치광이와 왼쪽과 오른쪽 다리가 불분명한 등의 "사악한" 장면.

밈과 이모티콘이 지루해지고 있어요

"Tusheng Video" 섹션에서 Vidu는 첫 번째 프레임 이미지 업로드를 지원하는 것 외에도 이번에 새로운 기능인 문자 일관성( 캐릭터를 비디오로).

소위 캐릭터 일관성이란 캐릭터 이미지를 업로드한 다음 캐릭터를 지정하여 어떤 장면에서나 어떤 행동을 할 수 있도록 하는 것입니다.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

우징을 예로 들어보겠습니다. ㅋㅋㅋ 프롬프트 말: 우주선 안에서 Wu Jing은 우주복을 입고 카메라를 향해 손을 흔들고 있습니다. ㅋㅋㅋ ~

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

첫 번째 프레임 이미지를 업로드하는 것이 장면 일관성이 있는 동영상을 만드는 데 적합하다면, 역할 일관성 기능을 사용하면 배우가 공상과학 역할에서 현대 드라마로 72번 변경할 수 있습니다.

게다가 캐릭터 일관성 기능으로 일반 사용자도 재미있게 "밈", "이모티콘"을 만들 수 있어요!

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

예를 들어, "잊을 수 없는" 북미 저스틴 비버와 셀레나는 다시 인연을 맺었습니다:

"무림가이덴"에서 통샹위와 바이잔탕은 멜론씨를 먹으며 통푸 여관의 소문에 대해 이야기를 나누고 있었습니다. :

"진환전설"에도 서럽게 우는 황후가 있습니다:

당신의 상상력이 충분히 크면 Vidu는 지하철에 있는 노인이 휴대폰을 먹게 하고, Ao Bai와 Wei Xiaobao가 보를 연주하게 하고, Rong 할머니가 Ziwei 닭다리에 먹이를 주게 할 수 있습니다.

한 마디만, 빨리!

영상 제작 과정에서 유저들이 가장 짜증나는 점은 무엇인가요? 물론 크롤링 진행률 표시줄입니다.

몇 초 분량의 영상을 위해 컴퓨터 앞에 누워서 10분을 기다린다고 상상해 보세요. 아무리 조급한 사람이라도 방어를 깨지 않기는 어려울 것입니다.

현재 시중에 나와 있는 주류 AI 동영상 도구는 약 4초 분량의 동영상 클립을 생성하는데, 이는 일반적으로 1~5분 또는 그 이상이 소요됩니다.

예를 들어 Runway의 최신 Gen-3 도구는 5초 비디오 생성을 완료하는 데 1분이 걸리고 Keling은 2~3분이 걸리며 Vidu는 이 대기 시간을 30초로 단축합니다. 이는 업계에서 가장 빠른 것보다 빠릅니다. 3세대는 2배 빠릅니다.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

완전히 자체 개발한 U-ViT 아키텍처를 기반으로 하며 상업용으로 신중하게 배치되었습니다.

"Vidu"의 하단 레이어는 완전 자체 개발된 U-ViT 아키텍처를 기반으로 하며, Sora보다 먼저 채택된 DiT 아키텍처는 Diffusion과 Transformer를 통합한 세계 최초의 아키텍처입니다.

또 하나의 국내판 소라가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.

^{DiT 논문이 발표되기 두 달 전에 Tsinghua University의 Zhu Jun 팀은 "All are Worth Words: A ViT Backbone for Diffusion Models"라는 논문을 제출했습니다. 본 논문에서는 CNN 기반의 U-Net을 대체하기 위해 Transformer를 사용하는 네트워크 아키텍처 U-ViT를 제안한다. 이것이 "Vidu"의 가장 중요한 기술적 기반입니다.}

Comme elle n'implique pas de traitement en plusieurs étapes tel que l'insertion et l'épissage d'images intermédiaires, la conversion du texte en vidéo est directe et continue. Le travail de "Vidu" semble plus ponctuel et la vidéo est générée en continu du début à la fin. fin, sans aucune trace d'insertion de cadre. En plus des innovations dans l'architecture sous-jacente, « Vidu » réutilise également l'expérience et les capacités d'ingénierie accumulées par Shengshu Technology dans le passé.

Shengshu Technology a dit un jour que de l'unification des tâches graphiques à l'intégration des capacités vidéo, « Vidu » peut être considéré comme un modèle visuel universel pouvant prendre en charge la génération de contenu vidéo plus diversifié et plus long. Ils ont également révélé que « Vidu » continue d’accélérer les améliorations itératives. Face à l’avenir, l’architecture de modèle flexible de « Vidu » sera également compatible avec un plus large éventail de capacités multimodales.

Shengshu Technology a été créée en mars 2023. Les principaux membres sont issus de l'Institut de recherche en intelligence artificielle de l'Université Tsinghua et s'engagent à développer de manière indépendante le premier grand modèle général multimodal contrôlable au monde. Depuis sa création en 2023, l'équipe a été reconnue par de nombreuses institutions industrielles bien connues telles que Ant Group, Qiming Venture Partners, BV Baidu Ventures, Byte Jinqiu Fund, etc., et a réalisé un financement de centaines de millions de yuans. Il est rapporté que Shenshu Technology est actuellement l'équipe entrepreneuriale la plus valorisée dans le secteur des grands modèles multimodaux en Chine.

Le scientifique en chef de l'entreprise est Zhu Jun, directeur adjoint de l'Institut de recherche sur l'intelligence artificielle de Tsinghua. PDG Tang Jiayua étudié au département d'informatique de l'Université de Tsinghua et est membre du groupe THUNLP ; doctorant au Département d'informatique de l'Université Tsinghua et professeur Zhu Jun. Membre de l'équipe de recherche, il s'intéresse depuis longtemps à la recherche dans le domaine des modèles de diffusion. Il a dirigé la réalisation d'U-ViT et d'UniDiffuser.

En janvier de cette année, PixWeaver, une plate-forme de conception créative visuelle appartenant à Shengshu Technology, a lancé une fonction de génération de vidéos courtes, prenant en charge un contenu vidéo court hautement esthétique de 4 secondes. Après le lancement de Sora en février, Shengshu Technology a créé une équipe de recherche interne pour accélérer les progrès de la recherche et du développement dans la direction vidéo originale. En moins d'un mois, elle a réalisé une génération vidéo de 8 secondes en interne, puis a franchi la barre des 16. -deuxième génération vidéo en avril, réalisant des percées dans tous les aspects de la qualité et de la durée de la génération.

Si la sortie du modèle en avril a démontré le leadership de Vidu en matière de capacités de génération vidéo, le produit officiellement lancé démontre cette fois la mise en page soignée de Vidu en matière de commercialisation. Shengshu Technology adopte actuellement un modèle bidirectionnel de couche modèle et de couche application.

D'une part, créer un grand modèle polyvalent de bas niveau couvrant des capacités multimodales telles que du texte, des images, des vidéos, des modèles 3D, etc., et fournir des capacités de service de modèle pour la face B.

D'autre part, les applications verticales sont créées pour des scénarios tels que la génération d'images et la génération de vidéos, et sont facturées sous forme d'abonnements. Les directions d'application sont principalement des scénarios de création de contenu tels que la production de jeux et la publication de films et de télévision. -production.

Lecture connexe :

《Le Sora domestique le plus fort à l'heure actuelle ! L'équipe Tsinghua traverse la vidéo de 16 secondes, comprend le langage multi-objectifs et peut simuler les lois physiques》

《Entretien exclusif avec Tang Jiayu de Shengshu Technology : l'équipe Tsinghua a reçu près de 100 millions de dollars de financement et a utilisé Transformer pour construire de grands modèles multimodaux》

"Est-il prévu que les entreprises nationales fabriquent Sora ?" Cette grande équipe modèle de l'Université Tsinghua donne de l'espoir》

^{Lien de référence :}

^{Lien du site officiel de Vidu : www.vidu.studio}

위 내용은 또 하나의 '국내판 소라'가 글로벌 출시됩니다! Tsinghua Zhu Jun의 기업가 팀, 비디오 생성은 단 30초 밖에 걸리지 않습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 for 栈人工智能 cnn transformer

성명：

이전 기사：리만 가설의 중요한 돌파구! 타오저쉬안(Tao Zhexuan)은 MIT와 옥스퍼드의 새로운 논문을 적극 추천했으며, 37세의 필즈상 수상자도 참여했다.다음 기사：리만 가설의 중요한 돌파구! 타오저쉬안(Tao Zhexuan)은 MIT와 옥스퍼드의 새로운 논문을 적극 추천했으며, 37세의 필즈상 수상자도 참여했다.