Maison >Périphériques technologiques >IA >Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste
L'explosion de l'intelligence artificielle déforme notre notion du temps.
Pouvez-vous croire que Stable Diffusion n'a que 4 mois et que ChatGPT existe depuis moins d'un mois ?
Pour utiliser une métaphore vivante, tant que vous clignez des yeux, vous manquerez une toute nouvelle industrie.
Dans le domaine de l'IA en 2022, les modèles génératifs à grande échelle poussent comme des champignons après la pluie, changeant le paysage de l'ensemble de l'industrie de l'IA.
De plus, ces modèles sortent rapidement du laboratoire et sont appliqués dans la réalité.
Par exemple, la technologie LLM a inspiré deux domaines émergents : les agents décisionnels (jeux, robots, etc.) et AI4Science.
Jim Fan, un disciple de Li Feifei, a résumé pour nous les dix meilleurs moments forts de l'IA en 2022. Remontons le temps et voyons quelles incroyables avancées en matière d’IA il y aura en 2022.
DALLE-2 est le premier modèle de diffusion à grande échelle capable de générer des images réalistes haute résolution à partir de titres arbitraires.
Elle a lancé la révolution artistique de l'IA et a donné naissance à de nombreuses nouvelles applications, startups et modes de pensée.
Mais DALLE-2 est protégé derrière les murs d'OpenAI et n'est pas open source.
Après OpenAI, StabilityAI et runwayml de LMU ont franchi une étape héroïque et ont formé leur propre modèle text2image à l'échelle Internet basé sur l'algorithme de « diffusion latente ». Ils appellent le modèle « diffusion stable » et open source le code et les poids.
Il s'avère que l'ouverture de Stable Diffusion a apporté de grands changements au jeu.
Maintenant, de nombreuses startups et laboratoires de recherche créent de nouvelles applications basées sur Stable Diffusion, et Stable Diffusion elle-même est continuellement améliorée par la communauté open source.
Récemment, Stable Diffusion a atteint la v2.1 et peut fonctionner sur un seul GPU.
De plus, il existe cette année deux modèles image2text de GoogleAI. GoogleAI n'a publié ni le modèle ni l'API, mais le document nous permet encore de voir de nombreuses informations intéressantes.
Imagen
https://imagen.research.google
Parti
https://parti.research.google. Il s'agit d'un modèle Transformer sans diffusion.
Tout le monde sait que je parle de ChatGPT !
C'est la seule application de l'histoire à gagner 1 million d'utilisateurs en 5 jours.
ChatGPT a également grandement inspiré notre créativité humaine.
Découvrez toutes les idées utiles et imaginatives sur ChatGPT dans cette liste : https://github.com/f/awesome-chat
ChatGPT et GPT-3.5 en utilisent une. Une nouvelle technologie appelée RLHF ("Reinforcement Learning à partir des commentaires humains »).
Cela signifie également que le projet de rappel pourrait bientôt disparaître.
La popularité de ChatGPT a engendré une vague de nouvelles startups et concurrents, tels que Jasper Chat, YouChat, le chat Replit's Ghostwriter et perplexity_ai.
Ces concurrents proposent des méthodes de recherche tellement intuitives que même les dirigeants de Google commencent à transpirer
Comment donner des bras et des jambes à GPT Pouvez-vous nettoyer votre cuisine en désordre ! ?
Contrairement à la PNL, les modèles de robots doivent interagir avec le monde physique.
Cette année, de grands Transformers pré-entraînés ont enfin commencé à résoudre les problèmes les plus difficiles dans le domaine de la robotique !
VIMA
En octobre, mes collègues et moi avons créé un "Robot GPT" - un transformateur nommé VIMA.
Il peut recevoir n'importe quel texte, image et vidéo mélangés comme invites et émettre le contrôle du bras du robot.
Notre modèle s'appelle VIMA ("VisuoMotor Attention") et est entièrement open source.
Désormais, un seul agent peut résoudre des cibles visuelles, des imitations ponctuelles de vidéos, de nouveaux fondements de concepts, des contraintes visuelles, etc., avec une forte évolutivité de la capacité du modèle et des données.
RT-1
Sur un chemin similaire à VIMA, des chercheurs de GoogleAI ont publié RT-1, un transformateur robotique formé sur 700 tâches et 130 000 démonstrations humaines.
Ces données ont été collectées pendant 17 mois par 13 robots, une véritable armée d'acier !
Essentiellement, une vidéo est une série d'images regroupées au fil du temps, nous donnant l'illusion du mouvement.
Si nous pouvons faire text2image, alors pourquoi ne pas y ajouter une chronologie pour plus de plaisir ?
Actuellement, il existe 3 ouvrages majeurs dans le domaine texte-vidéo, mais aucun d'entre eux n'est open source.
Make-A-Video
Le premier est Make-A-Video de Meta AI : la génération texte-vidéo peut être obtenue sans avoir besoin de données texte-vidéo appariées.
Vous pouvez vous inscrire pour un accès d'essai ici : https://makeavevideo.studio
Lien papier : https://arxiv.org/abs/2209.14792
Imagen Video
Google AI Imagen Video : Il utilise un modèle de diffusion pour générer une vidéo haute définition, basé sur le générateur d'images fixes Imagen.
Démo : http://imagen.research.google/video/
Lien papier : https://arxiv.org/abs/2210.02303
Phenaki
Phenaki de Google AI : d'Open Generate vidéos de longueur variable à partir de descriptions textuelles de domaines.
Démonstration : https://phenaki.video
Lien papier : https://arxiv.org/abs/2210.02399
Étonnamment, 2022 a vu l’émergence de nombreux modèles génératifs 3D prometteurs. Ici, Fan répertorie 3 modèles.
DreamFusionLe premier à apparaître est DreamFusion développé conjointement par l'équipe de recherche de Google AI et l'UC Berkeley.
Lien papier : https://arxiv.org/pdf/2209.14988.pdfCe modèle utilise un modèle de diffusion texte-image 2D pour effectuer une synthèse texte-3D.
Basé sur l'algorithme NeRF, DreamFusion peut générer des modèles 3D à partir d'un texte donné.
Le modèle peut être vu sous n'importe quel angle, peut être rallumé sous n'importe quel éclairage et peut être composé dans n'importe quel environnement tridimensionnel. Magic3DLe deuxième résultat est deux projets de l'équipe NVIDIA AI, nommés GET3D et Magic3D.
Lien papier GET3D : https://nv-tlabs.github.io/GET3D/assets/paper.pdf Lien papier Magic3D : https://arxiv.org/pdf/2211.10440.pdfFormé à l'aide uniquement d'images 2D, GET3D génère des graphiques 3D avec des textures haute fidélité et des détails géométriques complexes.
Ce modèle permet aux utilisateurs d'importer instantanément leurs formes dans des moteurs de rendu 3D et des moteurs de jeu pour une édition ultérieure.
Magic3D est similaire à DreamFusion, utilisant un modèle texte-image pour générer des images 2D, qui sont ensuite optimisées en données volumétriques NeRF (Neural Radiation Field), optimisant le modèle grossier généré à basse résolution en un modèle fin à haute résolution. .
Après que DALL-E 2, lancé en début d'année, ait surpris tout le monde avec son pinceau génial, OpenAI a publié mardi son dernier modèle de génération d'images "POINT-E", capable de générer directement de la 3D. modèles à partir du texte.
Lien papier : https://arxiv.org/pdf/2212.08751.pdfPar rapport aux concurrents (comme DreamFusion de Google) qui nécessitent plusieurs GPU pour fonctionner pendant plusieurs heures, POINT-E ne nécessite qu'un seul GPU Les images 3D peuvent être générées en quelques minutes.
Selon les tests, POINT-E peut essentiellement produire des images 3D en quelques secondes après une saisie rapide. De plus, les images de sortie prennent également en charge l'édition personnalisée, l'enregistrement et d'autres fonctions.
6. IA capable de jouer à "Minecraft"
Deuxièmement, le jeu compte 140 millions de joueurs, soit le double de la population totale du Royaume-Uni. Avec une base d’utilisateurs aussi vaste, il existe une quantité infinie de données de jeu pour l’apprentissage de l’IA.
Alors, l’IA peut-elle utiliser son imagination comme les humains ?
Jim Fan et ses collègues ont collaboré pour développer la première IA "MineDojo" pour jouer à "Minecraft", qui peut résoudre de nombreuses tâches sous des invites en langage naturel.
Lien papier : https://arxiv.org/pdf/2206.08853.pdf
Le but ultime des fans est de construire un « ChatGPT incarné ». Actuellement, la plateforme MineDojo est entièrement open source.
Dans le même temps, l’équipe de Jeff Clune a annoncé un modèle appelé Video Pre-Training (VPT), qui peut directement restituer les mouvements du clavier et de la souris.
Lien papier : https://arxiv.org/pdf/2206.11795.pdf
VPT a une perspective plus large mais n'est pas limité par les conditions linguistiques. À ce stade, MineDojo et VPT se complètent.
CICERO lancé par Meta AI est le premier agent d'intelligence artificielle à atteindre des performances de niveau humain dans le jeu « Diplomatie ».
Lien papier : https://www.science.org/doi/10.1126/science.ade9097
"Diplomatie" est un jeu de stratégie classique à sept joueurs, qui peut être considéré comme le jeu de société Risk and Solitaire Une combinaison du jeu de poker et de l'émission télévisée Survivor. Le jeu nécessite une négociation approfondie du langage naturel pour coopérer et rivaliser avec les humains.
Cependant, l’émergence de CICERO montre que l’intelligence artificielle a désormais la capacité de persuader les autres et de bluffer.
Actuellement, DeepMind a également annoncé le développement de son propre agent d'IA diplomatique. Alors, que se passera-t-il si CICERO utilise ce modèle d’IA ?
Whisper est un modèle de reconnaissance vocale open source à grande échelle publié par OpenAI. Il a une robustesse et une précision de niveau proche de l'humain dans la reconnaissance vocale en anglais.
Lien papier : https://arxiv.org/pdf/2212.04356.pdf
Whisper a été formé sur 680 000 heures de données audio provenant du Web. Open AI souligne que les capacités de reconnaissance vocale de Whisper ont atteint des niveaux humains.
Open AI open source Whisper. Est-ce pour débloquer plus de jetons de texte pour entraîner le très attendu GPT-4 ?
DeepMind et l'École Polytechnique Fédérale de Lausanne (EPFL) en Suisse ont développé conjointement le premier système d'apprentissage par renforcement profond lié à la fusion nucléaire, capable de maintenir la stabilité du plasma de fusion nucléaire dans le tokamak.
Lien papier : https://www.nature.com/articles/s41586-021-04301-9
Ce mois-ci également, le département américain de l'Énergie a annoncé une énorme avancée : la première réalisation humaine. gain énergétique net de la réaction de fusion nucléaire !
C'est la première fois que les humains franchissent cette étape. Dans cette vie, nous pourrions devenir une civilisation de fusion !
En 2021, AlphaFold a lancé la prédiction de la structure 3D des protéines par modèle de langage.
En juillet, DeepMind a annoncé « Protein Universe » – étendant la base de données de protéines d'AlphaFold à 200 millions de structures !
En outre, l'équipe de recherche NVIDIA AI a également étendu le cadre de modèle de langage à grande échelle BioNeMo pour aider les entreprises de biotechnologie et les chercheurs à générer, prédire et comprendre les données sur les biomolécules.
Explication vidéo : https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s
Ce qui précède est l'inventaire de Jim Fan des dix meilleurs faits saillants de l'IA en 2022. Bien entendu, Fan a également déclaré qu’il existe d’innombrables travaux passionnants qui ont contribué aux progrès de l’intelligence artificielle.
Chaque article est une brique dans le bâtiment de l'IA, et tous les efforts doivent être célébrés.
Cependant, Fan a également souligné à la fin qu'à mesure que les systèmes d'intelligence artificielle deviennent de plus en plus puissants, nous devons être conscients des dangers et des risques potentiels et prendre des mesures pour les atténuer.
Que ce soit grâce à une conception soignée des formations, un encadrement approprié ou de nouvelles méthodes de sauvegarde, la sécurité et l'éthique de l'intelligence artificielle sont devenues un agenda discuté par de plus en plus d'experts en IA.
Il ne fait aucun doute que 2022 est une année pleine de miracles et une année incroyable. Quelles avancées seront réalisées l’année prochaine et qui choqueront le monde ? Nous regardons avec vous.
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!