Maison >Périphériques technologiques >IA >L'étoile montante de Google AI passe à Pika : la génération vidéo Lumiere est un scientifique fondateur
La génération vidéo bat son plein et Pika a accueilli un grand général -
le chercheur de Google Omer Bar-Tal, qui est Pikascientifique fondateur.
Il y a un mois, j'ai publié le modèle de génération vidéo Lumiere sur Google en tant que co-auteur, et l'effet a été incroyable.
À cette époque, les internautes disaient : Google a rejoint la bataille de la génération vidéo, et il y a une autre bonne émission à regarder.
Le PDG de Stability AI, d'anciens collègues de Google et d'autres initiés de l'industrie ont envoyé leurs bénédictions.
Omer Bar-Tal, diplômé du Département de mathématiques et d'informatique de l'Université de Tel Aviv en 2021, puis est allé à l'Institut des sciences Weizmann pour étudier pour un master en informatique, axé principalement sur la recherche dans le domaine de la synthèse d'images et de vidéos.
Les résultats de ses articles ont été acceptés à plusieurs reprises par de grandes conférences, telles que Text2LIVE (ECCV 2022 Oral), MultiDiffusion (ICML 2023) et TokenFlow (ICLR 2024).
En prenant TokenFlow comme exemple, ils ont proposé un cadre pour mettre en œuvre un montage vidéo basé sur du texte basé sur le modèle de diffusion, prenant en charge les tâches de montage vidéo sans aucune formation ni réglage fin.
Avant de rejoindre Pika cette fois, il a travaillé chez Google Research en tant qu'étudiant chercheur pendant 9 mois. Finalement, après 7 mois de recherche, il a lancé Lumiere en tant que co-auteur. À cette époque, la maîtrise n’aurait pas dû être encore terminée.
L'innovation de Lumiere est qu'il propose une architecture spatio-temporelle U-Net (STU-Net) : sous-échantillonnage et sur-échantillonnage de la vidéo dans les dimensions spatiale et temporelle, et obtention d'une compression vidéo au milieu couche du réseau Représentation spatio-temporelle.
Après avoir appris 30 millions de vidéos, Lumiere peut prendre en charge plusieurs fonctions telles que l'enregistrement de vidéos, le montage et la réparation de vidéos, la conversion d'images en vidéo et la stylisation de vidéos.
A cette époque, Jeff Dean a fait l'éloge : La révolution de la génération vidéo multimodale est en train de se produire.
Après l'annonce officielle de l'adhésion à Pika, les responsables et les investisseurs ont également envoyé leurs bénédictions.
Il y a quelques jours, Yilun Du, un chercheur chinois à Pika, a publié un article, mais il aurait dû tout juste obtenir un doctorat du MIT (ou peut-être pas encore) , et l'unité de thèse est toujours le MIT .
De plus, le site officiel recrute toujours du monde.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!