Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste-IA-php.cn

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 18, 2023 am 10:49 AM

aichatgptalphafold

L'explosion de l'intelligence artificielle déforme notre notion du temps.

Pouvez-vous croire que Stable Diffusion n'a que 4 mois et que ChatGPT existe depuis moins d'un mois ?

Pour utiliser une métaphore vivante, tant que vous clignez des yeux, vous manquerez une toute nouvelle industrie.

Dans le domaine de l'IA en 2022, les modèles génératifs à grande échelle poussent comme des champignons après la pluie, changeant le paysage de l'ensemble de l'industrie de l'IA.

De plus, ces modèles sortent rapidement du laboratoire et sont appliqués dans la réalité.

Par exemple, la technologie LLM a inspiré deux domaines émergents : les agents décisionnels (jeux, robots, etc.) et AI4Science.

Jim Fan, un disciple de Li Feifei, a résumé pour nous les dix meilleurs moments forts de l'IA en 2022. Remontons le temps et voyons quelles incroyables avancées en matière d’IA il y aura en 2022.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

1. Génération texte-image

DALLE-2 est le premier modèle de diffusion à grande échelle capable de générer des images réalistes haute résolution à partir de titres arbitraires.

Elle a lancé la révolution artistique de l'IA et a donné naissance à de nombreuses nouvelles applications, startups et modes de pensée.

Mais DALLE-2 est protégé derrière les murs d'OpenAI et n'est pas open source.

Après OpenAI, StabilityAI et runwayml de LMU ont franchi une étape héroïque et ont formé leur propre modèle text2image à l'échelle Internet basé sur l'algorithme de « diffusion latente ». Ils appellent le modèle « diffusion stable » et open source le code et les poids.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Il s'avère que l'ouverture de Stable Diffusion a apporté de grands changements au jeu.

Maintenant, de nombreuses startups et laboratoires de recherche créent de nouvelles applications basées sur Stable Diffusion, et Stable Diffusion elle-même est continuellement améliorée par la communauté open source.

Récemment, Stable Diffusion a atteint la v2.1 et peut fonctionner sur un seul GPU.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

De plus, il existe cette année deux modèles image2text de GoogleAI. GoogleAI n'a publié ni le modèle ni l'API, mais le document nous permet encore de voir de nombreuses informations intéressantes.

Imagen

https://imagen.research.google

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Parti

https://parti.research.google. Il s'agit d'un modèle Transformer sans diffusion.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

2. Génération Texte-Texte

Tout le monde sait que je parle de ChatGPT !

C'est la seule application de l'histoire à gagner 1 million d'utilisateurs en 5 jours.

ChatGPT a également grandement inspiré notre créativité humaine.

Découvrez toutes les idées utiles et imaginatives sur ChatGPT dans cette liste : https://github.com/f/awesome-chat

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

ChatGPT et GPT-3.5 en utilisent une. Une nouvelle technologie appelée RLHF ("Reinforcement Learning à partir des commentaires humains »).

Cela signifie également que le projet de rappel pourrait bientôt disparaître.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

La popularité de ChatGPT a engendré une vague de nouvelles startups et concurrents, tels que Jasper Chat, YouChat, le chat Replit's Ghostwriter et perplexity_ai.

Ces concurrents proposent des méthodes de recherche tellement intuitives que même les dirigeants de Google commencent à transpirer

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

3. Texte - Modèle de robot

Comment donner des bras et des jambes à GPT Pouvez-vous nettoyer votre cuisine en désordre ! ?

Contrairement à la PNL, les modèles de robots doivent interagir avec le monde physique.

Cette année, de grands Transformers pré-entraînés ont enfin commencé à résoudre les problèmes les plus difficiles dans le domaine de la robotique !

VIMA

En octobre, mes collègues et moi avons créé un "Robot GPT" - un transformateur nommé VIMA.

Il peut recevoir n'importe quel texte, image et vidéo mélangés comme invites et émettre le contrôle du bras du robot.

Notre modèle s'appelle VIMA ("VisuoMotor Attention") et est entièrement open source.

Désormais, un seul agent peut résoudre des cibles visuelles, des imitations ponctuelles de vidéos, de nouveaux fondements de concepts, des contraintes visuelles, etc., avec une forte évolutivité de la capacité du modèle et des données.

RT-1

Sur un chemin similaire à VIMA, des chercheurs de GoogleAI ont publié RT-1, un transformateur robotique formé sur 700 tâches et 130 000 démonstrations humaines.

Ces données ont été collectées pendant 17 mois par 13 robots, une véritable armée d'acier !

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

4. Texte - Vidéo

Essentiellement, une vidéo est une série d'images regroupées au fil du temps, nous donnant l'illusion du mouvement.

Si nous pouvons faire text2image, alors pourquoi ne pas y ajouter une chronologie pour plus de plaisir ?

Actuellement, il existe 3 ouvrages majeurs dans le domaine texte-vidéo, mais aucun d'entre eux n'est open source.

Make-A-Video

Le premier est Make-A-Video de Meta AI : la génération texte-vidéo peut être obtenue sans avoir besoin de données texte-vidéo appariées.

Vous pouvez vous inscrire pour un accès d'essai ici : https://makeavevideo.studio

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Lien papier : https://arxiv.org/abs/2209.14792

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Imagen Video

Google AI Imagen Video : Il utilise un modèle de diffusion pour générer une vidéo haute définition, basé sur le générateur d'images fixes Imagen.

Démo : http://imagen.research.google/video/

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Lien papier : https://arxiv.org/abs/2210.02303

Phenaki

Phenaki de Google AI : d'Open Generate vidéos de longueur variable à partir de descriptions textuelles de domaines.

Démonstration : https://phenaki.video

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Lien papier : https://arxiv.org/abs/2210.02399

5. Pour créer des effets visuels fantastiques dans les films et les jeux, la modélisation 3D est en train de devenir le prochain océan bleu pour les modèles génératifs text-X.

Étonnamment, 2022 a vu l’émergence de nombreux modèles génératifs 3D prometteurs. Ici, Fan répertorie 3 modèles.

DreamFusion

Le premier à apparaître est DreamFusion développé conjointement par l'équipe de recherche de Google AI et l'UC Berkeley.

Lien papier : https://arxiv.org/pdf/2209.14988.pdf

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste Ce modèle utilise un modèle de diffusion texte-image 2D pour effectuer une synthèse texte-3D.

Basé sur l'algorithme NeRF, DreamFusion peut générer des modèles 3D à partir d'un texte donné.

Le modèle peut être vu sous n'importe quel angle, peut être rallumé sous n'importe quel éclairage et peut être composé dans n'importe quel environnement tridimensionnel.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Magic3D

Le deuxième résultat est deux projets de l'équipe NVIDIA AI, nommés GET3D et Magic3D.

Lien papier GET3D : https://nv-tlabs.github.io/GET3D/assets/paper.pdf

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Lien papier Magic3D : https://arxiv.org/pdf/2211.10440.pdf

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste Formé à l'aide uniquement d'images 2D, GET3D génère des graphiques 3D avec des textures haute fidélité et des détails géométriques complexes.

Ce modèle permet aux utilisateurs d'importer instantanément leurs formes dans des moteurs de rendu 3D et des moteurs de jeu pour une édition ultérieure.

Magic3D est similaire à DreamFusion, utilisant un modèle texte-image pour générer des images 2D, qui sont ensuite optimisées en données volumétriques NeRF (Neural Radiation Field), optimisant le modèle grossier généré à basse résolution en un modèle fin à haute résolution. .

Selon l'équipe NVIDIA AI, la méthode Magic3D résultante peut générer des objets 3D plus rapidement que DreamFusion.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Point-E

Après que DALL-E 2, lancé en début d'année, ait surpris tout le monde avec son pinceau génial, OpenAI a publié mardi son dernier modèle de génération d'images "POINT-E", capable de générer directement de la 3D. modèles à partir du texte.

Lien papier : https://arxiv.org/pdf/2212.08751.pdf

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste Par rapport aux concurrents (comme DreamFusion de Google) qui nécessitent plusieurs GPU pour fonctionner pendant plusieurs heures, POINT-E ne nécessite qu'un seul GPU Les images 3D peuvent être générées en quelques minutes.

Selon les tests, POINT-E peut essentiellement produire des images 3D en quelques secondes après une saisie rapide. De plus, les images de sortie prennent également en charge l'édition personnalisée, l'enregistrement et d'autres fonctions.

6. IA capable de jouer à "Minecraft"

"Minecraft" est un excellent jeu pour tester l'intelligence générale de l'IA. Tout d’abord, il s’agit d’un jeu sandbox infiniment ouvert qui reflète extrêmement la créativité du joueur.

Deuxièmement, le jeu compte 140 millions de joueurs, soit le double de la population totale du Royaume-Uni. Avec une base d’utilisateurs aussi vaste, il existe une quantité infinie de données de jeu pour l’apprentissage de l’IA.

Alors, l’IA peut-elle utiliser son imagination comme les humains ?

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Jim Fan et ses collègues ont collaboré pour développer la première IA "MineDojo" pour jouer à "Minecraft", qui peut résoudre de nombreuses tâches sous des invites en langage naturel.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Lien papier : https://arxiv.org/pdf/2206.08853.pdf

Le but ultime des fans est de construire un « ChatGPT incarné ». Actuellement, la plateforme MineDojo est entièrement open source.

Dans le même temps, l’équipe de Jeff Clune a annoncé un modèle appelé Video Pre-Training (VPT), qui peut directement restituer les mouvements du clavier et de la souris.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Lien papier : https://arxiv.org/pdf/2206.11795.pdf

VPT a une perspective plus large mais n'est pas limité par les conditions linguistiques. À ce stade, MineDojo et VPT se complètent.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

7. AI Diplomat

CICERO lancé par Meta AI est le premier agent d'intelligence artificielle à atteindre des performances de niveau humain dans le jeu « Diplomatie ».

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Lien papier : https://www.science.org/doi/10.1126/science.ade9097

"Diplomatie" est un jeu de stratégie classique à sept joueurs, qui peut être considéré comme le jeu de société Risk and Solitaire Une combinaison du jeu de poker et de l'émission télévisée Survivor. Le jeu nécessite une négociation approfondie du langage naturel pour coopérer et rivaliser avec les humains.

Cependant, l’émergence de CICERO montre que l’intelligence artificielle a désormais la capacité de persuader les autres et de bluffer.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Actuellement, DeepMind a également annoncé le développement de son propre agent d'IA diplomatique. Alors, que se passera-t-il si CICERO utilise ce modèle d’IA ?

8. Modèle audio-texte

Whisper est un modèle de reconnaissance vocale open source à grande échelle publié par OpenAI. Il a une robustesse et une précision de niveau proche de l'humain dans la reconnaissance vocale en anglais.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Lien papier : https://arxiv.org/pdf/2212.04356.pdf

Whisper a été formé sur 680 000 heures de données audio provenant du Web. Open AI souligne que les capacités de reconnaissance vocale de Whisper ont atteint des niveaux humains.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Open AI open source Whisper. Est-ce pour débloquer plus de jetons de texte pour entraîner le très attendu GPT-4 ?

9. Nuclear Fusion

DeepMind et l'École Polytechnique Fédérale de Lausanne (EPFL) en Suisse ont développé conjointement le premier système d'apprentissage par renforcement profond lié à la fusion nucléaire, capable de maintenir la stabilité du plasma de fusion nucléaire dans le tokamak.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Lien papier : https://www.nature.com/articles/s41586-021-04301-9

Ce mois-ci également, le département américain de l'Énergie a annoncé une énorme avancée : la première réalisation humaine. gain énergétique net de la réaction de fusion nucléaire !

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

C'est la première fois que les humains franchissent cette étape. Dans cette vie, nous pourrions devenir une civilisation de fusion !

10. Transformer appliqué en biologie

En 2021, AlphaFold a lancé la prédiction de la structure 3D des protéines par modèle de langage.

En juillet, DeepMind a annoncé « Protein Universe » – étendant la base de données de protéines d'AlphaFold à 200 millions de structures !

En outre, l'équipe de recherche NVIDIA AI a également étendu le cadre de modèle de langage à grande échelle BioNeMo pour aider les entreprises de biotechnologie et les chercheurs à générer, prédire et comprendre les données sur les biomolécules.

Li Feifei fait le point sur les dix meilleurs moments forts de l'année en matière d'IA : la fusion nucléaire, ChatGPT et AlphaFold figurent sur la liste

Explication vidéo : https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s

Ce qui précède est l'inventaire de Jim Fan des dix meilleurs faits saillants de l'IA en 2022. Bien entendu, Fan a également déclaré qu’il existe d’innombrables travaux passionnants qui ont contribué aux progrès de l’intelligence artificielle.

Chaque article est une brique dans le bâtiment de l'IA, et tous les efforts doivent être célébrés.

Cependant, Fan a également souligné à la fin qu'à mesure que les systèmes d'intelligence artificielle deviennent de plus en plus puissants, nous devons être conscients des dangers et des risques potentiels et prendre des mesures pour les atténuer.

Que ce soit grâce à une conception soignée des formations, un encadrement approprié ou de nouvelles méthodes de sauvegarde, la sécurité et l'éthique de l'intelligence artificielle sont devenues un agenda discuté par de plus en plus d'experts en IA.

Il ne fait aucun doute que 2022 est une année pleine de miracles et une année incroyable. Quelles avancées seront réalisées l’année prochaine et qui choqueront le monde ? Nous regardons avec vous.