Le 16 février, OpenAI a lancé Sora, un modèle à succès dans le domaine de la génération vidéo.
La confiance de Sora dans Scaling Law et ses innovations technologiques révolutionnaires l'ont maintenu à l'avant-garde. En même temps, cela prouve une fois de plus que « la vigueur peut produire des miracles » est toujours applicable au domaine de la vidéo vincentienne. Les détails techniques divulgués par Sora sont loin d'être suffisants pour avoir une image complète. Dans le même temps, Sora n’est pas encore officiellement ouverte au public. Depuis lors, les réflexions et les discussions sur Sora n’ont jamais cessé.布 Le rapport technique publié par Openai Le plus grand impact de Sora sur l'ensemble du domaine de l'IA est de savoir comment optimiser et corriger les idées et les cadres de génération vidéo existants. Cela a également déclenché un engouement pour la recréation de Sora qui se poursuit encore aujourd'hui.
La motivation pour reproduire Sora vient de la persévérance technique et des idéaux techniques des techniciens d'une part, et de la valeur commerciale prévisible dans le futur d'autre part. De plus, on ne peut ignorer que cet institut de recherche en technologie d'intelligence artificielle, surnommé CloseAI, est devenu une référence dans l'industrie, et presque tous les produits lancés peuvent apporter une innovation de rupture. Mais OpenAI semble aller de plus en plus loin en insistant sur le code source fermé, ce qui a encore enflammé la passion du public pour la reproduction de Sora. On peut croire que dans les prochains mois, plusieurs modèles de type Sora sortiront les uns après les autres et seront open source. Plus d'un mois après la sortie de Sora, quel est l'état d'avancement de la discussion et de la reproduction de ses innovations technologiques associées ? Jetons un coup d'œil ci-dessous. Concernant la reproduction de Sora, cet article part des trois aspects suivants :
Cela fait plus d'un mois depuis la sortie de Sora. Quel est l'état d'avancement actuel de la reproduction ?
- Quelle est la probabilité que cela se reproduise ? Quelle est la base technique du pays ?
- Sora est-elle un modèle mondial ? Pouvez-vous nous aider à accéder à AGI ? Est-il nécessaire de le reproduire ?
Les trois modèles qui ont été lancés et beaucoup discutés sont Snap Video, Open-Sora 1.0 et Mora.
Snap Video est un modèle de type Sora sorti le 29 février. Il utilise un transformateur espace-temps extensible et est issu du développement d'image SnapChat. logiciel de partage Snap Inc., ainsi que des institutions telles que l'Université de Trente.
Portail :"Le premier lot de modèles de type Sora est apparu, Sarabu a lancé Snap Video, l'effet est meilleur que Pika, pas inférieur à Gen-2
- Open -Sora 1.0 est le premier modèle de type Sora qui a été entièrement open source le 18 mars. Il provient de l'équipe Colossal-AI. Ce modèle open source couvre l'ensemble du processus de formation, y compris le traitement des données, tous les détails de la formation et. poids du modèle. Portail :
"N'attendez pas OpenAI, attendez qu'Open-Sora soit entièrement open source"
Mora est un framework multi-agent proposé il y a quelques jours par des chercheurs de l'Université de Lehigh et de Microsoft Research. Le framework intègre plusieurs agents d'IA visuelle avancés pour reproduire les capacités générales de génération de vidéo démontrées par Sora. Bien que l'effet de reproduction du modèle actuel soit toujours incapable d'égaler Sora, en un peu plus d'un mois, il Il y a eu des avancées technologiques évidentes, qui peuvent être considérées comme un signal optimiste. Selon des statistiques incomplètes, près de 10 équipes nationales reproduisent Sora, attendons de voir. L'innovation d'architecture technique qui précède DiT
L'architecture DiT (Transformateur de diffusion) utilisée par Sora est actuellement sa plus grande innovation technologique, mais avec le recul, peut-être que les progrès liés au niveau national sont antérieurs.
Architecture U-ViT En septembre 2022, l'équipe Tsinghua a soumis un article intitulé « Tous valent des mots : une épine dorsale ViT pour la diffusion ». Papier "Modèles", 2 mois plus tôt que DiT. Cet article propose d'utiliser l'architecture de réseau basée sur Transformer U-ViT pour remplacer l'U-Net basé sur CNN, ce qui coïncide avec l'idée de Sora d'intégrer les modèles Transformer et de diffusion.
Le transformateur de diffusion vidéo (VDT), qui a été publié sur le site Web arXiv en mai 2023, a été étudié par l'Université Renmin de Chine Un cadre de génération vidéo unifié basé sur Transformer, dirigé par l'équipe et en coopération avec l'Université de Californie, Berkeley et l'Université de Hong Kong. Une explication détaillée des raisons de l'adoption de l'architecture Transformer est également donnée. Peut-être que dans l'innovation des technologies de base, l'exploration nationale n'est pas à la traîne, mais elle est en avance sur la courbe Front. Cependant, en raison de contraintes de ressources, de planification technique des routes et d'autres raisons, il n'a pas été en mesure d'obtenir des effets similaires à ceux de Sora auparavant. Sora s'est sans aucun doute avéré une voie techniquement réalisable, et notre propre exploration de pointe en architecture technique nous sera plus propice à la reproduction de Sora, et nous pouvons même être plus optimistes quant à croire que dans certains domaines au-delà des effets de Sora. Sora est-elle un modèle mondial ?
Une autre discussion animée déclenchée par Sora concerne le modèle mondial. Les vidéos générées par Sora ont sans aucun doute une certaine compréhension du monde physique, comme le classique "bateau pirate empêtré dans une tasse de café", qui peut être vu à l'œil nu et implique une dynamique des fluides professionnelle, de la lumière et d'autres caractéristiques du monde physique. Mais certains scientifiques représentés par Yann LeCun prouvent avec force que la méthode d'entraînement de Sora n'a rien à voir avec le modèle du monde. Alors Sora est-elle un modèle mondial, comprend-elle le monde physique ? Les discussions à ce sujet se sont propagées sur divers forums et diffusions en direct. On peut voir que chacun a des opinions différentes sur ce qu’est un modèle mondial. Ce que nous pouvons savoir avec certitude, c'est que si Sora est un modèle mondial, alors l'idéal de l'intelligence artificielle générale (AGI) pourrait arriver plus tôt que prévu. Il faut alors reproduire Sora. À propos de Sora, nous restons curieux et continuons d'explorer les réponses possibles aux questions suivantes.
L'architecture/technologie de génération vidéo précédente de Sora peut-elle toujours être utilisée ? Comment utiliser?
Qui est oublié après Sora ? Qui est admiré ?
Outre Sora, comment les autres startups/équipes devraient-elles procéder ? faire quoi?
Sora va-t-il changer l'architecture technologique traditionnelle ? L'architecture représentée par DiT sera-t-elle le choix d'architecture dominant à l'avenir ?
Les forces techniques nationales devraient-elles reproduire Sora ? Pourquoi?
On sait que près de 10 équipes reproduisent Sora. Quel est le futur modèle que nous pourrions voir ?
Pourquoi OpenAI ? Le modèle d’OpenAI peut-il être répliqué ?
Après Sora, à quoi ressemble le paysage mondial de la génération vidéo ? Comment va-t-il évoluer et changer ?
Que pensez-vous du fait que certaines startups stars déclarent publiquement qu'elles ne feront pas Sora ?
Où est l'avenir des grands modèles multimodaux ?
Comment voyez-vous l’impact de Sora sous différents angles ? (Points de vue des investisseurs, des personnes non techniques, des entreprises publiques, des entrepreneurs en IA, des praticiens, etc.)
Quel rôle social joue OpenAI ? Que pensez-vous de cette entreprise ?
...
L'impact apporté par Sora est subversif, donc la résolution des problèmes ci-dessus continuera. En tant qu'équipe axée sur l'exploration et l'application des technologies d'IA de pointe, notre forum sur les technologies d'IA se concentre une fois de plus sur le domaine de la génération vidéo. Le 13 avril, à Liudaokou, Pékin, nous avons prévu un forum technique pour se concentrer sur l'innovation technologique, la réflexion et la pratique d'application après la sortie de Sora. L'événement réunira de nombreux invités importants et nous discuterons également plus en profondeur des questions mentionnées ci-dessus. Dans un avenir proche, je crois que cet événement peut avoir un certain effet positif et une certaine inspiration, en vue de promouvoir le développement technologique et la diffusion de la communauté open source d'IA de mon pays. Groupe d'invités
Ce forum compte une solide liste d'invités. Nous avons invité :
- M. Zhang Junlin, un expert technique bien connu dans l'industrie, pour donner un aperçu. démantèlement en profondeur de la technologie de base de Sora
- L'auteur du modèle de génération vidéo populaire PixelDance, le professeur Zeng Yan de ByteDance, partage l'innovation technologique et l'application derrière PixelDance
- Le chef d'équipe du modèle VDT de type Sora, de une startup incubée par l'Université Renmin de Chine ——Le Dr Gao Yizhao, PDG de Sophon Engine, détaille l'innovation technique et la pratique du VDT
- Les investisseurs jouent un rôle important qui ne peut être séparé de l'IA. domaine. En tant que partenaire d'investissement de Fengrui Capital, M. Chen Shi dirigera Une observation unique du point de vue des investisseurs/institutions
- Les entreprises publiques ont réagi rapidement après la sortie de Sora et ont occupé une place dans l'IA. domaine M. Tong Tong, responsable de la technologie algorithmique de China Mobile Information Technology Co., Ltd., partagera sa nouvelle réflexion
- Le responsable technique du modèle de type Sora Open-Sora 1.0, M. Bian Zhengda, Le CTO de Luchen Technology expliquera en détail comment reproduire Sora, ainsi que la pensée et la pratique uniques de leur équipe
- Il y a des invités plus importants à inviter les uns après les autres...
Zhang Junlin
Directeur de la Société chinoise de l'information de Chine, Ph.D. de l'Institut du logiciel, Académie chinoise des sciencesActuellement en tant que nouveau rédacteur en chef de Sina Weibo La personne en charge de la recherche et du développement technologiques, il était auparavant expert technique principal chez Alibaba et responsable de la nouvelle équipe technologique. Auteur des livres techniques « This is Search Engine : Detail Explanation of Core Technology » et « Big Data Daily Record : Architecture and Algorithm ». Zeng Yan
Ingénieur en algorithme chez ByteDance ResearchConcentrez-vous sur la recherche de pointe dans des domaines tels que la génération vidéo et la pré-formation multimodale. Le modèle qu'il dirige en recherche et développement a fourni des services puissants pour la génération de vidéos de ByteDance, la critique vidéo courte, le service client de commerce électronique, Toutiao, la résolution de problèmes éducatifs et d'autres entreprises, et il a publié huit articles connexes en tant que premier auteur dans TPAMI, ICML, CVPR, ACL et d'autres conférences et revues internationales de premier plan, et sert également de réviseur pour TPAMI, ICML, NIPS, ICLR et d'autres conférences. Le modèle de base de génération vidéo PixelDance dont il a dirigé la recherche et le développement a réalisé pour la première fois dans l'industrie une combinaison de dynamique et de stabilité élevées, et a généré pour la première fois une animation d'intrigue continue de 3 minutes. 陈石
Fengrui Capital Investment Partner se concentre sur les investissements dans la technologie, les logiciels, Internet, la consommation et d'autres domaines. Avant de rejoindre Fengrui Capital, il avait 5 ans d'expérience en gestion chez Alibaba. Il a été vice-président d'Alibaba Mobile Business Group, cadre supérieur d'Alibaba Culture and Entertainment Group, membre du comité de classe international de Youku et UC, et a été profondément impliqué dans UC. , AutoNavi, Youku et Tudou , Shenma Search, UC International et d'autres gammes de produits pour la prise de décision commerciale et l'exécution de la gestion. Plus de 15 ans d'entrepreneuriat continu, en tant que membre de l'équipe de direction principale, profondément impliqué dans les communications unifiées (le plus grand navigateur mobile tiers au monde, acquis par Alibaba en 2014) et Lakala (un tiers bien connu). société de paiement de partie en Chine, SZ : 300773) Dans le processus entrepreneurial, il a été respectivement vice-président et CTO, il était autrefois un programmeur heureux, un expert en croissance des utilisateurs et un passionné de technologie ; Posséder des diplômes de premier cycle et de maîtrise en génie mécanique et électrique de l'Université de Beihang. En 2023, il a été nommé « Top 30 Global Global Investors » par EqualOcean et « Top 20 Best Investors in Artificial Intelligence and Big Data in 2022-2023 » par Jiazi Guangnian. Gao Yizhao
Ph.D., École d'intelligence artificielle, Université Renmin de Chine. Expert en grands modèles multimodaux, il a publié de nombreuses revues et articles de conférence de premier plan, et a dirigé une équipe de plusieurs personnes pour compléter la formation sur les grands modèles Wenlan. Participer au développement et à la promotion des modèles et produits liés au moteur Sophon tout au long du processus. 卞正达
Il a publié un article à SC, la plus grande conférence mondiale sur le calcul intensif, et a 7 ans d'expérience. dans les systèmes d'IA haute performance, développeur principal du système Colossal-AI. Tong Tong
Responsable de la technologie algorithmique chez China Mobile Information Technology Co., Ltd.Ph.D. en IA de l'Institut d'automatisation de l'Académie chinoise des sciences. . Actuellement, il est responsable de la recherche et du développement de grands modèles multimodaux, d'humains numériques, d'agents intelligents et d'autres domaines chez China Mobile Information Technology Co., Ltd., et a réalisé la mise en œuvre de technologies clés telles que Vincent Pictures, Vincent vidéos, reconnaissance d'action de grand modèle et détection de cible. Publication d'un total de 12 articles, 12 brevets d'entreprise et 4 publications électroniques. D'autres experts sont en cours de confirmation, alors restez à l'écoute. Technologie et application de génération vidéo - Sora Era
Le forum sur la technologie de l'IA de ce site maintient toujours un suivi sensible des avancées technologiques dans le domaine de l'IA, afin d'explorer en profondeur l'impact de Sora sur la technologie et son impact sur tous horizons, nous avons spécialement planifié le forum technologique sur l'IA "Technologie et application de génération vidéo - Sora Era". Nous espérons aider les entreprises et les praticiens à suivre la tendance du développement technologique et à avoir une compréhension globale des avancées technologiques et des pratiques d'application dans des domaines de pointe tels que Sora, la technologie de génération vidéo et les grands modèles multimodaux. . Face à l'assaut de la génération vidéo IA, ce n'est qu'en adoptant activement l'apprentissage et en osant essayer que nous pourrons saisir la tendance technologique et percer. Au plaisir de vous rencontrer le 13 avril 2024, dans le district de Haidian, à Pékin.
Le canal d'inscription au forum est officiellement ouvert. Scannez le code QR présent sur l'affiche pour accéder directement à la page de l'événement. En raison de la publication tardive des présentations des invités, la période de remise anticipée pour ce forum a été prolongée. À partir de maintenant et jusqu'au 7 avril à 23h55, vous pouvez acheter des billets pour participer à la conférence et bénéficier d'une réduction directe de 200 yuans, et profiter du prix spécial du billet anticipé de 699 yuans (prix d'origine de 899 yuans ). Il existe des réductions encore plus exclusives pour les achats groupés de cinq personnes, veuillez consulter la page des détails de l'événement pour plus de détails. Anciens participants au forum sur la technologie IA de ce site, veuillez ajouter le compte WeChat d'Alice séparément pour obtenir un accès direct au lien de réduction exclusif.
Points forts de l'activité
- Visualisation permanente gratuite des vidéos d'activité du forum et des didacticiels du numéro précédent de "Frontier Research and Application of Video Generation" (si vous avez acheté le numéro précédent, veuillez contacter Alice pour bénéficier d'une réduction. N'oubliez pas de demander à Alice d'échanger le numéro précédent après avoir acheté ce numéro) (Vidéo)
- Regardez en permanence la vidéo post-événement et les didacticiels de cet événement forum "Technologie et application de génération vidéo - Sora Era"
- Rassemblement des professeurs des universités et des experts techniques de poids de l'industrie pour maîtriser les dernières technologies et élargir leurs horizons techniques
- Communication en face-à-face avec des experts en technologie et connexion approfondie après la réunion
- Couvrant le démantèlement de la technologie de base, meilleures pratiques des produits vedettes, discussions et perspectives pour l'avenir de la technologie
- L'ensemble du processus soutient l'apprentissage : apprentissage avant et après la réunion Forfait cadeau d'information
- Rejoignez la communauté d'échange technologique de génération vidéo de haute qualité et suivez en temps opportun la technologie et l'information de pointe de l'industrie
- Profitez d'une réduction de 15 % sur les billets pour les activités payantes connexes sur ce site
Technology Exchange Society Group
Afin de faciliter les échanges techniques, nous avons également spécialement créé un groupe d'échange de technologies de génération vidéo. Les praticiens techniques qui s'intéressent à Sora, à la génération vidéo et aux grands modèles multimodaux sont invités à scanner le code QR pour rejoindre la conversation et échanger en profondeur des détails techniques et des observations de l'industrie.
Pour les questions liées à la coopération commerciale, aux achats groupés, aux factures, au contenu et à d'autres questions connexes à cet événement, veuillez ajouter Alice, la personne en charge de cet événement, ou consulter par e-mail.
WeChat : 15650753618
E-mail : jiayaning@jiqizhixin.com
À propos de la facture : Après une inscription réussie, vous pouvez demander une facture sur l'application Activity Bank après l'événement. La facture est une version électronique. Une facture générale avec TVA sera envoyée à l'adresse e-mail d'inscription une fois la facture émise avec succès. Devenez bénévole du forum : Participez à la mise en œuvre de sujets spécifiques sur le site de l'événement, tels que l'inscription, l'orientation, la gestion des commandes, etc. Les repas de travail sont inclus. Les étudiants actuels sont prioritaires. Si vous êtes intéressé, veuillez contacter Alice. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!