Maison >Périphériques technologiques >IA >Génération d'images plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers l'architecture DiT nationale auto-développée

Génération d'images plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers l'architecture DiT nationale auto-développée

王林
王林original
2024-07-12 18:49:141158parcourir
En un clin d’œil, 2024 est déjà à mi-parcours. Il n'est pas difficile de constater qu'il existe une tendance de plus en plus évidente dans le domaine de l'IA, en particulier de l'AIGC : la piste Wenshengtu est entrée dans une phase de progrès constant et de mise en œuvre commerciale accélérée, mais en même temps, seule la génération d'images statiques ne peut plus satisfaire la demande des gens en matière de capacités d'IA générative. Dans l'attente de cela, la demande en matière de création vidéo dynamique n'a jamais été aussi élevée.
Par conséquent, la piste vidéo de Wensheng continue d'être chaude, d'autant plus qu'OpenAI a publié Sora au début de l'année, le modèle de génération vidéo avec Diffusion Transformer (DiT) comme architecture sous-jacente a inauguré une période d'explosion. Sur cette piste, les fabricants nationaux et étrangers de modèles de génération vidéo lancent discrètement un concours technologique.

En Chine, une start-up d'IA générative fondée en mars de l'année dernière et qui se concentre sur la création de modèles et d'applications de base multimodaux visuels continue d'apparaître dans le champ de vision des gens. Il s'agit de HiDream.ai. Son modèle de base visuel multimodal auto-développé réalise la génération et la conversion entre différentes modalités, prend en charge les images Wensheng, les vidéos Wensheng, les vidéos Wensheng et Wensheng 3D, et a lancé la génération unique d'images et de vidéos IA. La plateforme "Pixeling" est à la disposition du public pour débuter.

Adresse d'expérience : www.hidreamai.com

Depuis le lancement du grand modèle Zhixiang en août 2023, il a subi plusieurs itérations et peaufinages, et a optimisé le modèle de base pour explorer et élargir en profondeur le Diagramme Wensheng et Vincent Video et autres fonctionnalités AIGC. Surtout dans le domaine de la génération vidéo, le temps de génération pris en charge a été augmenté de 4 secondes initiales à 15 secondes, et l'effet d'imagerie est également visiblement meilleur.

Maintenant, le grand modèle Zhixiang a été à nouveau mis à niveau. L'architecture DiT unique basée sur les versions natives chinoises offre des capacités de génération d'images et de vidéos plus puissantes, plus stables et plus conviviales, y compris
Génération d'images plus esthétique et artistique. , intégration de texte dans des images, génération de vidéo au niveau minute, etc.. Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée
La démonstration de toutes ces nouvelles compétences en matière de génération d'images et de vidéos est indissociable de l'accumulation technologique et de l'innovation continue de Zhixiang Future dans le domaine de la génération visuelle multimodale.

L'effet de génération continue de s'améliorer
La capacité de modèle de base la plus puissante est le moteur

Zhixiang Large Model cible la modélisation conjointe de texte, d'image, de vidéo et de 3D depuis La technologie de génération interactive permet une génération de contenu multimodal précise et contrôlable et crée de puissantes capacités de prototypes, permettant aux utilisateurs d'avoir une meilleure expérience créative sur ses plateformes Vincent Picture et Vincent Video AIGC.
Cette mise à niveau globale de
Intelligent Elephant Large Model 2.0 présente des changements qualitatifs dans l'architecture sous-jacente, les données d'entraînement et les stratégies d'entraînement par rapport à la version 1.0, qui apporte du texte, des images, des vidéos et de la 3D. Un autre bond en avant dans les capacités multimodes et une amélioration tangible de l’expérience interactive.

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

On peut dire que le modèle d'éléphant intelligent amélioré a inauguré des améliorations globales dans le domaine de la génération d'images et de vidéos, et a injecté une force motrice plus forte dans la plate-forme unique de génération AIGC pour les grands projets multimodaux. création de modèle.

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

Les compétences de Vincent Picture ont encore évolué
Avec un niveau de « poursuite » plus élevé

En tant que plate-forme de génération unique d'AIGC, Vincent Tu est la prémisse et la barrière technique importante de Vincent Video. Par conséquent, Zhixiang a placé des attentes élevées envers Wenshengtu à l'avenir et promouvra des fonctions plus diversifiées, des effets visuels plus réalistes et une expérience plus conviviale à son propre rythme.

Après une série d'ajustements et d'optimisations ciblés, la capacité du diagramme vincentien de Zhixiang Large Model 2.0 a été considérablement améliorée par rapport aux versions précédentes, et elle est facile à voir à partir de plusieurs effets de présentation externes.

Tout d'abord, les images générées par Zhixiang Large Model 2.0 sont plus belles et artistiques. Le grand modèle vincentien actuel peut très bien fonctionner dans des aspects plus intuitifs tels que la compréhension sémantique, la génération de structure d'image et de détails d'image, mais il peut ne pas être satisfaisant dans des aspects sensoriels partiels tels que la texture, la beauté et le talent artistique. Par conséquent, la recherche de la beauté est devenue le centre de cette mise à niveau de Vincent Picture. Quel est l'effet ? Nous pouvons regarder les deux exemples suivants.

La saisie rapide pour le premier exemple est "une petite fille portant un énorme chapeau avec de nombreux châteaux, fleurs, arbres, oiseaux, colorés, gros plans, détails, style d'illustration" sur le chapeau.

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

La saisie rapide dans le deuxième exemple est "photo en gros plan de feuilles de plantes vertes, thème sombre, détails de gouttes d'eau, fond d'écran mobile".

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

Les deux images générées sont accrocheuses en termes de composition, de ton et de richesse de détails, ce qui améliore grandement la beauté globale de l'image.

En plus de rendre les images générées plus belles, la corrélation des images générées est également plus forte. C'est également un aspect auquel tout le monde accorde une grande attention une fois que la génération d'images a atteint un certain stade.

Afin d'améliorer la pertinence des images générées, le grand modèle d'Intelligent Image se concentre sur le renforcement de la compréhension de certaines logiques complexes, telles que les différentes dispositions spatiales, les relations de position, les différents types d'objets, le nombre d'objets générés. , etc., ce sont des facteurs importants pour atteindre une plus grande pertinence. Après une certaine formation, le grand modèle d'Intelligent Elephant peut facilement gérer des tâches de génération d'images impliquant plusieurs objets, une distribution multi-emplacements et une logique spatiale complexe, et mieux répondre aux besoins réels des utilisateurs dans la vie réelle.

Examinons les trois exemples de génération suivants qui nécessitent une compréhension approfondie des différents objets et des relations de position spatiale. Les résultats montrent que Vincent Diagram peut désormais gérer facilement des invites de texte longues et courtes contenant une logique complexe.

La saisie rapide pour le premier exemple est "Il y a trois paniers remplis de fruits sur la table de la cuisine. Le panier du milieu est rempli de pommes vertes. Le panier de gauche est rempli de fraises. Le panier de droite est rempli de myrtilles. . Derrière le panier se trouve un chien blanc. Le fond est un mur turquoise avec le texte coloré "Pixeling v2".

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

L'invite de saisie du deuxième exemple est "un chat est à droite, un chien est à gauche et un cube vert est placé sur une boule bleue au milieu".

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

La saisie rapide pour le troisième exemple est "Sur la lune, un astronaute chevauche une vache, porte une jupe tutu rose et tient un parapluie bleu. À droite de la vache se trouve une vache portant un pingouin chapeau haut de forme. . Le texte "HiDream.Al" est écrit en bas.

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

Dans le même temps, la génération de texte intégré dans les images est plus précise et efficace, une fonction plus fréquemment utilisée dans les affiches ou la rédaction marketing.

En termes de mise en œuvre technique, la génération de texte intégré dans les images nécessite un grand modèle pour comprendre en profondeur la description de l'apparence visuelle et le contenu précis du texte dans l'invite de saisie, afin d'obtenir une représentation précise du contenu du texte tout en garantissant la beauté globale. et le talent artistique de l'image.

Dans une interview exclusive avec ce site, le Dr Yao Ting, CTO de Zhixiang Future, a mentionné que pour de telles tâches, les versions précédentes étaient souvent incapables de les générer, même si elles pouvaient être générées, il y avait toujours des problèmes, en termes de caractères générés ou de précision. Aujourd'hui, ces problèmes ont été bien résolus. Le grand modèle de Zhixiang a réalisé l'intégration de textes longs dans des images, pouvant contenir jusqu'à des dizaines de mots.

Les trois exemples générés de gauche à droite ci-dessous montrent de bons effets d'intégration de texte, en particulier le côté droit de l'image où plus de vingt mots et signes de ponctuation sont intégrés avec précision.

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

On peut dire que la fonction de diagramme vincentien du modèle Intelligent Elephant a obtenu des résultats de premier plan dans l'industrie, jetant ainsi une base clé pour la génération vidéo.

La génération vidéo a atteint le niveau infime

Si le modèle d'image intelligent 2.0 amélioré a réalisé des progrès constants dans la direction des graphiques vincentiens, alors il a fait un bond en avant dans la direction des vidéos vincentiennes. .

En décembre de l'année dernière, la vidéo Vincent du grand modèle Zhixiang a dépassé la limite de 4 secondes et a pris en charge le temps de génération de plus de 15 secondes. Six mois plus tard, Wensheng Video s'est considérablement amélioré en termes de durée, de naturel des images, de contenu et de cohérence des personnages, et cela grâce à son architecture DiT mature et auto-développée.

Par rapport à U-Net, l'architecture DiT est plus flexible et peut améliorer la qualité de la génération d'images et de vidéos. L'émergence de Sora le vérifie de manière plus intuitive. Les modèles de diffusion utilisant ce type d'architecture montrent une tendance naturelle à générer des images et des vidéos de haute qualité, et présentent des avantages relatifs en termes de personnalisation et de contrôle du contenu généré. Pour l’Intelligent Elephant Large Model 2.0, l’architecture DiT qu’il adopte présente des caractéristiques uniques.

Nous savons que la mise en œuvre sous-jacente de l'architecture DiT est basée sur Transformer. Intelligence Model 2.0 adopte des modules entièrement auto-développés dans l'ensemble de la structure du réseau Transformer, de la composition des données de formation et de la stratégie de formation, en particulier dans la formation réseau. la stratégie a été bien pensée.

Tout d'abord, la structure du réseau Transformer adopte un mécanisme d'attention conjointe spatio-temporelle efficace, qui non seulement s'adapte aux caractéristiques de la vidéo dans les domaines spatial et temporel, mais résout également le problème que le mécanisme d'attention traditionnel ne peut pas suivre. la vitesse pendant le processus de formation réel.

Deuxièmement, la génération de plans longs dans les tâches vidéo d'IA impose des exigences plus élevées en matière de source et de filtrage des données d'entraînement. Par conséquent, le grand modèle Zhixiang prend en charge la formation de clips vidéo allant jusqu'à plusieurs minutes, voire dix minutes, ce qui permet de produire directement des vidéos d'une durée d'une minute. Dans le même temps, il est également difficile de décrire un contenu vidéo infime. Zhixiang Future a développé indépendamment un modèle de sous-titrage pour générer des descriptions vidéo, obtenant ainsi une description détaillée et précise.

Enfin, en termes de stratégie de formation, en raison des données vidéo limitées à long objectif, l'Intelligent Elephant Model 2.0 utilise des clips vidéo de différentes longueurs pour la formation conjointe des données vidéo et image, et modifie dynamiquement l'échantillonnage des vidéos de taux de différentes longueurs, puis effectuer une formation longue durée. Dans le même temps, un apprentissage par renforcement sera effectué sur la base des données des commentaires des utilisateurs pendant la formation pour optimiser davantage les performances du modèle.

Par conséquent, l'architecture DiT auto-développée plus puissante fournit un support technique pour l'amélioration ultérieure de l'effet vidéo Wensheng.

Maintenant, la durée de la vidéo prise en charge par Intelligent Elephant Large Model 2.0 a été augmentée d'environ 15 secondes à quelques minutes, atteignant un niveau élevé dans l'industrie.

En plus de la durée de la vidéo atteignant le niveau de la minute, la durée et la taille variables sont également un point fort majeur de cette mise à niveau de la fonctionnalité vidéo Wensheng.

Le modèle de génération vidéo actuel a généralement une durée de génération fixe, que les utilisateurs ne peuvent pas choisir. À l'avenir, Zhixiang ouvrira aux utilisateurs le choix de la durée de génération, leur permettant de spécifier la durée ou de porter des jugements dynamiques basés sur le contenu de l'invite d'entrée. Si elle est plus complexe, une vidéo plus longue sera générée, et si elle est relativement simple, une vidéo plus courte sera générée. Grâce à un tel processus dynamique, les besoins créatifs de l'utilisateur peuvent être satisfaits de manière adaptative. La taille de la vidéo générée peut également être personnalisée selon les besoins, ce qui la rend très conviviale.

De plus, L'apparence générale de l'image est devenue meilleure, les actions ou les mouvements des objets dans la vidéo générée sont plus naturels et fluides, les détails sont rendus plus en place et il prend en charge la 4K ultra-claire. qualité d'image. Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée
En seulement six mois, par rapport aux versions précédentes, la fonction Vincent Video mise à niveau peut être décrite comme « renaissante ». Cependant, selon le Dr Yao Ting, la plupart des productions vidéo, qu’il s’agisse d’Intelligent Future ou d’autres pairs, en sont encore au stade de l’objectif unique. Si on le compare aux étapes L1 à L5 dans le domaine de la conduite autonome, Vincent Vidéo se situe à peu près au stade L2. Grâce à cette mise à niveau des capacités de base du modèle, Zhixiang souhaite poursuivre à l'avenir la génération de vidéos multi-objectifs de meilleure qualité et a également franchi une étape clé vers l'exploration de l'étape L3.

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

Zhixiang Future a déclaré que la fonction vidéo itérée de Vincent sera lancée à la mi-juillet. Tout le monde peut s’y attendre !

Écrit à la fin

Il est établi depuis moins d'un an et demi, qu'il s'agisse de l'itération continue des capacités du modèle de base ou de l'amélioration de l'expérience réelle des images vincentiennes et. Vidéos vincentiennes, Intelligent Image sera plus visuelle à l'avenir. La génération modale progresse régulièrement et rapidement dans cette direction, et a gagné un grand nombre d'utilisateurs côté C et côté B.

Nous avons appris que les visites mensuelles des utilisateurs finaux C de Zhixiang Future dépassaient million, et que le nombre total d'images et de vidéos IA générées dépassait également 10 millions. Un seuil bas et de bonnes applications constituent les caractéristiques du modèle Intelligent Elephant, et sur cette base, la première plate-forme d'application AIGC la plus adaptée au public est créée.

Du côté B, Zhixiang Future coopère activement avec China Mobile, Lenovo Group, iFlytek, Shanghai Film Group, Ciwen Group, Digital China, CCTV, Evernote, Tiangong Yicai, Hangzhou Lingban et d'autres entreprises Parvenir à une coopération stratégique accord pour approfondir les scénarios d'application du modèle, étendre les capacités du modèle à davantage d'industries, notamment les opérateurs, les terminaux intelligents, la production cinématographique et télévisuelle, le commerce électronique, la promotion du tourisme culturel et le marketing de marque, et enfin utiliser le modèle dans le potentiel du processus de commercialisation et créer de la valeur .

Actuellement, Zhixiang Large Model compte environ 100 grandes entreprises clientes et a fourni des services AIGC à 30 000 + petites et micro-entreprises clientes.

Génération dimages plus belles, sortie vidéo au niveau minute, un voyage saute-mouton vers larchitecture DiT nationale auto-développée

Avant la sortie de Zhixiang Large Model 2.0, Zhixiang Future s'est associé à China Mobile Migu Group pour lancer l'application AIGC au niveau national « AI One Word to Make a Movie », qui non seulement offre aux utilisateurs ordinaires zéro Les fonctions de création de sonneries vidéo basées sur l'IA aident également les entreprises clientes à générer un contenu vidéo de marque et de marketing riche, permettant aux entreprises d'avoir leurs propres marques de sonneries, nous permettant de voir l'énorme potentiel de la génération de vidéos et de l'intégration avec les scénarios de l'industrie.

De plus, l'écosystème de l'IA constitue également un poste important à développer pour les grands modélistes. À cet égard, Zhixiang a une attitude ouverte à l'avenir et coopérera avec des clients majeurs tels que le groupe Lenovo, iFlytek et Digital China, ainsi qu'avec de petites équipes de développement et des développeurs indépendants pour construire un vaste écosystème d'IA comprenant la génération vidéo, couvrant des besoins plus diversifiés.

2024 est considérée comme la première année des applications de modèles à grande échelle et constitue un nœud de développement clé pour tous les fabricants. À l'avenir, Zhixiang publiera des articles approfondis sur les capacités des prototypes plus puissants.

D'une part, renforcer les capacités de compréhension et de génération d'images, de vidéos et de multi-modalités 3D dans un cadre unifié, par exemple en continuant à optimiser l'architecture sous-jacente, les algorithmes et les données dans le domaine de la génération vidéo pour obtenir des améliorations en termes de durée et de qualité. Une avancée majeure est devenue un élément indispensable de la promotion de l'intelligence artificielle générale future, d'autre part, elle a déployé des efforts dans de multiples directions telles que l'expérience utilisateur, les applications innovantes et l'écologie industrielle pour développer son industrie ; influence.

Prenez les hauteurs sur la piste de génération vidéo, Zhixiang est pleinement préparé pour l'avenir.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn