Zhipu 대형 모델 팀은 자체 개발하여 구축되었습니다.
Kaishou Keling AI가 국내외에서 인기를 얻은 이후 2023년에는 텍스트 모델처럼 국내 비디오 세대도 점점 더 대중화되고 있습니다. 방금 또 다른 대형 비디오 세대 모델 제품이 공식 출시된다고 발표되었습니다. Zhipu AI가 "Qingying"을 공식 출시했습니다. 좋은 아이디어(몇 단어에서 수백 단어)와 약간의 인내심(30초)만 있으면 "Qingying"은 1440x960 해상도의 고정밀 비디오를 생성할 수 있습니다. 이제부터 Qingying은 Qingyan 앱을 출시하며, 모든 사용자는 대화, 사진, 비디오, 코드 및 에이전트 생성 기능을 완벽하게 경험할 수 있습니다. Zhipu Qingyan의 웹 및 앱을 다루는 것 외에도 "AI Dynamic Photo Mini 프로그램"을 작동하여 휴대폰에 있는 사진에 역동적인 효과를 빠르게 얻을 수도 있습니다. Zhipu "Qingying"이 생성한 동영상은 길이가 6초이고 해상도는 1440×960입니다. 모든 사용자가 무료로 사용할 수 있습니다.
- PC 접속 링크 : https://chatglm.cn/
- 모바일 접속 링크 : https://chatglm.cn/download?fr=web_home
智Pu AI 지속적인 기술 개발로 "Qingying"의 세대 기능이 곧 단편 비디오 제작, 광고 생성, 심지어 영화 편집에도 사용될 것이라고 말했습니다. 생성 AI 비디오 모델 개발에서 스케일링 법칙은 알고리즘과 데이터 모두에서 계속해서 중요한 역할을 합니다. "우리는 모델 수준에서 보다 효율적인 확장 방법을 적극적으로 탐색하고 있습니다." Zhipu AI의 CEO인 Zhang Peng은 "알고리즘과 데이터의 지속적인 반복을 통해 Scaling Law가 계속해서 역할을 할 것이라고 믿습니다." 강력한 역할."
현재 일부 데모와 간단한 시도로 판단하면 Zhipu AI의 "Qingying"은 다음과 같은 특징을 가지고 있습니다. , SF, 인문학, 역사 및 기타 유형의 비디오 콘텐츠가 더 잘 생성됩니다. 생성에 능숙한 비디오 스타일에는 만화 스타일, 실제 사진 스타일, 2차원 애니메이션 스타일 등이 포함됩니다. 개체 유형 제시 효과 보세요, 동물 > 식물 > 아이템 > 건물 > 사람.
- 텍스트나 그림으로 동영상을 생성할 수 있으며 생성된 스타일은 판타지 애니메이션 스타일을 포함합니다.
Vincent Video
프롬프트: 낮은 각도로 위로 밀고 천천히 고개를 들면, 갑자기 빙산 위에 용이 나타나더니, 용이 당신을 발견하고 당신을 향해 돌진합니다. 할리우드 영화 스타일.
프롬프트: 마법사가 파도에 주문을 걸고 있습니다. 보석이 바닷물을 모아 마법의 문을 엽니다. 프롬프트: 버섯이 곰으로 변합니다.
실제 장면:
대답: 숲에서는 인간의 관점에서 우뚝 솟은 나무들이 태양을 가리고, 나뭇잎 사이로 약간의 햇빛이 비치는 틴달 효과가 있습니다.
프롬프트: 물 기니피그는 인간처럼 서서 손에 아이스크림을 들고 행복하게 먹습니다.
En plus des vidéos générées par texte, vous pouvez également jouer avec des vidéos générées par des images sur Qingying. Tusheng Video propose de nouvelles façons de jouer, notamment des émoticônes, la production publicitaire, la création d'intrigues, la création de courtes vidéos, etc. Dans le même temps, l'applet « Old Photos Animated » basée sur Qingying sera également lancée simultanément. Il vous suffit de télécharger d'anciennes photos en une seule étape, et l'IA peut animer les photos condensées à l'ancienne. Mot rapide : Un poisson coloré qui se déplace librement.
Mot rapide : L'homme sur la photo se lève, le vent souffle dans ses cheveux.
Mot rapide : Le petit jouet canard jaune flotte à la surface de la piscine, en gros plan.
Conseils : La caméra tourne autour d'un groupe de vieux téléviseurs diffusant différents programmes - films de science-fiction des années 1950, films d'horreur, informations, statiques, sitcoms des années 1970 et plus encore, dans un décor grande galerie dans un musée de New York.
Mot rapide : sortez un iPhone et prenez une photo.
Vos émoticônes couramment utilisées, Zhipu AI peut les étendre en "séries". Mots rapides : Les quatre maîtres et apprentis ont tendu la main pour se saluer, avec des expressions confuses sur leurs visages. Mot rapide : Le chaton ouvrit grand la bouche, avec une expression confuse sur le visage et de nombreux points d'interrogation. On peut voir que Qingying peut gérer différents styles, et il existe d'autres façons de jouer en attendant que les gens les découvrent. Cliquez simplement sur la fonction « Qingying Intelligent » sur le PC/APP Zhipu Qingyan, et chaque idée que vous avez peut devenir réalité en un instant. Technologie entièrement auto-développéeLe tout dans une IA à spectre intelligent à grand modèle, qui a commencé très tôt à déployer des modèles d'IA générative multimodaux. À partir de 2021, Zhipu AI a publié de nombreuses études telles que CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024), etc. Selon les rapports, "Qingying" s'appuie sur CogVideoX, une nouvelle génération de grand modèle de génération vidéo développée indépendamment par l'équipe de grands modèles Zhipu AI. En novembre de l'année dernière, son équipe a créé le modèle de génération de texte en vidéo CogVideo basé sur le modèle graphique de Vincent CogView2, et l'a ensuite rendu open source.
CogVideo possède 9,4 milliards de paramètres. Il génère une série d'images initiales via CogView2 et implémente la génération vidéo en interpolant des images à partir d'images basées sur le modèle d'attention bidirectionnel. De plus, CogVideo génère un environnement 3D basé sur des descriptions textuelles et peut utiliser directement des modèles pré-entraînés pour éviter une formation coûteuse. Il prend également en charge la saisie d'invites en chinois. Le modèle de génération vidéo de Qingying Base cette fois est CogVideoX, qui peut intégrer les trois dimensions du texte, du temps et de l'espace. Il fait référence à la conception de l'algorithme de Sora. Grâce à l'optimisation, CogVideoX L'inférence. la vitesse de la génération précédente (CogVideo) a été multipliée par 6. L'émergence de Sora d'OpenAI a permis à l'IA de faire des progrès significatifs dans la génération de vidéos, mais la plupart des modèles ont encore des difficultés à générer du contenu vidéo avec cohérence et consistance logique. Afin de résoudre ces problèmes, Zhipu AI a développé indépendamment une structure d'encodeur automatique variationnel tridimensionnel efficace (VAE 3D), qui peut compresser l'espace vidéo d'origine à 2 %, réduisant considérablement le coût de formation du modèle. la difficulté est également considérablement réduite. La structure du modèle utilise la convolution causale 3D comme composant principal du modèle et supprime le module d'attention couramment utilisé dans les encodeurs automatiques, afin que le modèle ait la capacité d'être transféré à différentes résolutions. Dans le même temps, la convolution causale dans la dimension temporelle rend la séquence d'encodage et de décodage vidéo du modèle indépendante d'avant en arrière, ce qui permet d'étendre le modèle à des fréquences d'images plus élevées et à des scènes plus longues grâce à un réglage fin. De plus, la génération de vidéo est également confrontée à un tel problème, c'est-à-dire que la plupart des données vidéo manquent de texte descriptif correspondant ou que la qualité de la description est faible. Pour cette raison, Zhipu AI a auto-développé un système de bout en bout. modèle de compréhension vidéo final pour générer des descriptions détaillées qui correspondent au contenu de données vidéo massives, puis créer des paires vidéo-texte massives de haute qualité, rendant le modèle formé hautement conforme aux instructions. Enfin, il convient de mentionner que Zhipu AI a développé une architecture de transformateur qui intègre le texte, le temps et l'espace. Cette architecture n'utilise pas le module d'attention croisée traditionnel, mais intègre le texte et la vidéo dans l'étape d'entrée. connectés pour une interaction plus complète des deux modalités. Cependant, il existe de grandes différences dans les espaces de fonctionnalités de texte et de vidéo. Zhipu AI traite les deux séparément via une norme de couche adaptative experte, permettant au modèle d'utiliser efficacement les paramètres pour mieux aligner les informations visuelles avec les informations sémantiques. Zhipu AI a déclaré que grâce à la technologie d'optimisation, la vitesse d'inférence du modèle vidéo génératif de Zhipu AI a augmenté de 6 fois. Actuellement, le temps théorique nécessaire au modèle pour générer une vidéo 6s est de 30 secondes. Maintenant, avec le lancement de "Qingying", Zhipu AI, un acteur majeur dans le domaine de la génération vidéo, est de nouveau apparu. En plus des applications que tout le monde peut essayer, l'API Qingying est également lancée simultanément sur la plate-forme ouverte de grand modèle bigmodel.cn. Les entreprises et les développeurs peuvent découvrir et utiliser Wensheng Video et Tusheng Video en appelant les capacités du modèle API. Avec le lancement continu de fonctions de génération vidéo d'IA par diverses entreprises, le concours d'IA générative de cette année est entré dans une phase brûlante. Pour la plupart des utilisateurs, il existe plus de choix : désormais, les personnes sans expérience en production vidéo et les créateurs de contenu professionnels peuvent réaliser la création vidéo à l'aide de capacités de grands modèles. 위 내용은 Zhipu AI가 비디오 생성에 들어갑니다. 'Qingying'은 온라인, 6초 길이, 무료 및 무제한입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!