Maison  >  Article  >  Périphériques technologiques  >  Zhou Bowen de l'Université Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et d'intelligence interactive

Zhou Bowen de l'Université Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et d'intelligence interactive

WBOY
WBOYavant
2023-04-11 20:28:271246parcourir

Ce qui suit est le contenu du discours de Zhou Bowen lors de la conférence annuelle Heart of Machine AI Technology. Heart of Machine l'a édité et organisé sans changer le sens original :

Merci à Heart of Machine pour l'invitation. Je suis Zhou Bowen de l'Université Tsinghua. C'est maintenant la fin du calendrier lunaire et le début du calendrier grégorien. Je suis très heureux de recevoir une telle invitation à partager avec vous notre synthèse des tendances de développement de l'intelligence artificielle au cours de la période passée, ainsi que quelques réflexions sur ce sujet. l'avenir.

Tout d'abord, partagez l'idée principale. Si vous ne vous souvenez que de trois points après avoir écouté l'intégralité du discours, rappelez-vous ces trois points :

Zhou Bowen de lUniversité Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et dintelligence interactive

Tout d'abord, la prochaine avancée dans le domaine de l'intelligence artificielle va commencer. L'existence virtuelle pure aide les gens à acquérir une vision plus efficace et à acquérir de nouvelles connaissances, à accomplir des tâches et à créer des scénarios de plus grande valeur dans les mondes physique, biologique et informationnel.

Deuxièmement, la prochaine génération d’intelligence artificielle doit de toute urgence renforcer la combinaison des connaissances (y compris les connaissances obscures), des capacités de calcul et de raisonnement. Cette capacité de combinaison est très importante, mais nous pensons qu’une interaction efficace + une collaboration entre l’intelligence artificielle et les personnes et l’environnement sont au cœur de la combinaison de ces capacités.

Il y a deux raisons : premièrement, parce que la collaboration et l'interaction avec les personnes et l'environnement sont des conditions nécessaires à la création de grande valeur. Sans la collaboration entre l'IA et les personnes, l'IA ne peut pas réaliser ces scénarios de grande valeur de manière indépendante. Ce type de collaboration et d'interaction est également un moyen efficace d'améliorer les capacités de connaissance, de calcul, de raisonnement et de combinaison de l'IA. L’IA a fait de grands progrès en informatique, mais il existe encore un gros goulot d’étranglement entre la connaissance et le raisonnement et la combinaison efficace des modules. L’ajout de collaboration et d’interaction entre les personnes et l’environnement peut aider à combler certains des goulots d’étranglement de l’IA dans ces domaines.

Troisièmement, nous avons trois jugements sur la multimodalité : premièrement, la compréhension et la génération multimodales sont des pierres angulaires importantes de la collaboration et de l'interaction ; deuxièmement, au cours des deux dernières années, l'apprentissage des représentations entre les différentes modalités a eu tendance à être unifié. bonne condition de base ; troisièmement, le ChatGPT, récemment populaire, en tant que prototype d'un futur paradigme de co-création et d'interaction collaboratives homme-machine, évoluera sûrement vers la multimodalité à l'avenir et apportera de nouvelles opportunités d'apprentissage multimodal. Même s’il présente encore de nombreux aspects naïfs, la présentation de ce paradigme nous oriente vers l’orientation future.

Ce qui précède est le point central. Dans le rapport d'aujourd'hui, je parlerai de l'intelligence interactive collaborative et de l'apprentissage multimodal, et passerai en revue les derniers progrès et opportunités.

Première partie, du point de vue de l'intelligence interactive traditionnelle, nous avons parcouru un long chemin. Tout d’abord, je tiens à souligner que la collaboration et l’interaction dont nous parlons aujourd’hui sont complètement différentes de l’intelligence interactive originale. Historiquement, l'interaction consistait davantage à disposer d'un système formé et à réaliser l'interaction en tant que tâche, comme par exemple d'ELIZA, IBM Watson, Microsoft Xiaoice, Siri au service client intelligent de JD.com. La collaboration et l'interaction dont nous parlons aujourd'hui consistent à utiliser l'interaction comme méthode d'apprentissage et la collaboration comme division du travail entre l'IA et les humains afin de mieux compléter l'intégration de la collaboration homme-machine afin d'acquérir des connaissances, de former de nouvelles connaissances et d'accomplir des tâches. C’est la perspective historique de l’intelligence interactive dans son ensemble. On peut observer que ce qui stimule le progrès est le changement de perspective technique, y compris des premiers modèles de règles au dialogue basé sur les tâches basé sur Frame, en passant par la génération de modèles de langage statistique, le modèle Seq2seq et les modèles de pré-formation à très grande échelle. .

Zhou Bowen de lUniversité Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et dintelligence interactive

Concernant ces changements, nous pensons qu'un nouveau cycle d'innovation dans l'IA entraînera certainement l'évolution du paysage de la productivité. Il y a quelques années, tout le monde parlait davantage de scénarios d’application de l’intelligence artificielle, en se concentrant sur des domaines tels que l’inspection intelligente de la qualité et le service client. Mais nous constatons désormais que les scénarios d’innovation en IA deviennent de plus en plus complexes, commençant à impliquer la création de contenu artistique, la découverte de médicaments et la découverte de nouvelles connaissances. Un livre à succès « Penser vite et lentement » de Daniel Kahneman, lauréat du prix Nobel d'économie 2002, propose qu'il existe deux types de méthodes de pensée chez les gens : le système 1 est caractérisé par l'intuition et l'inconscience, et le système 1 est caractérisé par intuition et inconscience 2 Il contient des langages, des algorithmes, des calculs et de la logique.

Au cours des dernières années, l'intelligence artificielle a été davantage utilisée dans les scénarios du système 1, mais à l'avenir, y compris ce qui se passe actuellement, l'intelligence artificielle est en fait meilleure et plus adaptée pour assumer davantage de tâches du système 2 du point de vue de collaboration homme-machine. Parce que le Système 1 est plus efficace pour les personnes, il s’agit d’une tâche avec une faible consommation cérébrale et une faible charge cognitive, tandis que le Système 2 a une charge cognitive très lourde pour les personnes. C’est juste que dans le passé, les progrès technologiques de l’intelligence artificielle ne pouvaient bien faire que le système 1 et non le système 2. La tendance actuelle est que l’IA se rapproche du système 2.

Zhou Bowen de lUniversité Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et dintelligence interactive


Du point de vue de la boucle fermée industrielle, le scénario de l'IA est passé du travail manuel et répétitif du passé (contrôle qualité, service client, etc.) au domaine d'application de l'innovation en col blanc et en matière de connaissances. Il ne fait aucun doute que cela apportera une plus grande valeur à l'espace et davantage d'effets de volant d'inertie. Qu'est-ce que l'effet volant ? Autrement dit, l’IA peut aider les cols blancs et les travailleurs du savoir à mieux comprendre, à mieux comprendre et à acquérir de nouvelles connaissances. Les nouvelles connaissances aideront à concevoir une meilleure IA, et une meilleure IA peut générer davantage de nouvelles connaissances.

Dans le cadre de cette tendance, nous devons clairement comprendre que la façon dont l'IA et les humains collaborent doit changer, car l'IA n'est plus l'IA du système 1 d'origine, mais devient l'IA du système 2. Dans ce cas, la manière dont l’IA doit collaborer et interagir est une question cruciale qui doit être prise en compte.

Pourquoi l’IA doit-elle avoir la capacité de combiner connaissance, calcul et raisonnement ? Voici quelques exemples de calculs multimodaux pour votre référence :

Zhou Bowen de lUniversité Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et dintelligence interactive

Par exemple, dans la première image à gauche, demandez à la personne qui porte une veste rouge quel rang elle obtiendra le plus probablement à la fin du jeu. La réponse est la quatrième place. Pour répondre à de telles questions, en plus d’une segmentation d’image et d’une segmentation sémantique très précises, de nombreux raisonnements de bon sens et de raisonnement discret sont également nécessaires. Ce sont des choses qui manquent énormément à nos systèmes d’IA actuels.

Pour le deuxième exemple, qu'est-ce qui rend ces chaises faciles à transporter ? La réponse est « pliable ». Il y a aussi un raisonnement logique. Les défis du Système 2 comme celui-ci nécessitent en réalité davantage d’itérations et d’évolution de l’intelligence artificielle.

Un développement dont tout le monde est actuellement conscient est la percée des modèles linguistiques pré-entraînés à grande échelle. Une question naturelle se pose donc : si nous continuons à suivre ce paradigme, pouvons-nous résoudre l’intégration efficace de scénarios d’application et de connaissances, de calculs et de raisonnements à grande valeur ajoutée ?

Prenons l'exemple de GPT-3. Tout le monde sait qu'il contient 175 milliards de paramètres. Il code des informations à l'intérieur des paramètres et de l'architecture du modèle, mettant l'accent sur le calcul et affaiblissant les connaissances et le raisonnement. D'une part, avec le soutien de « Scaling Law », il dispose de plus en plus de données et ses capacités de modèle deviennent de plus en plus fortes, d'autre part, plusieurs chercheurs de NYU ont organisé un défi appelé « Inverse Scaling » pour tout le monde ; trouver Certains scénarios d'application - plus le modèle et les paramètres sont grands, plus les performances sont mauvaises.

Zhou Bowen de lUniversité Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et dintelligence interactive

Il y a deux exemples dans l'image ci-dessus : l'un s'appelle Negation QA, qui est la négation de la négation, utilisant la double négation pour tester la compréhension et la capacité de raisonnement du modèle pré-entraîné. L'autre est Redéfinir les mathématiques, Cette tâche redéfinit les constantes mathématiques pour les problèmes de calcul mathématique existants afin de tester si le modèle de langage peut comprendre sa signification et calculer correctement . Comme vous pouvez le voir sur les deux figures de droite, pour ces tâches, plus les paramètres du modèle sont grands, plus la précision est faible.

Ces exemples soulignent en fait que le modèle de base pourrait être la pierre angulaire de la future intelligence interactive. Je pense personnellement que c'est un mot plus important que « grand modèle ». Un point très important est que le modèle de base n’est pas sa forme définitive. Pour résoudre les problèmes rencontrés, il faut mieux le visualiser. Par conséquent, je propose que la combinaison efficace de la connaissance, du calcul et du raisonnement soit une direction qui doit ensuite être recherchée. Un aspect important de cette combinaison est que la collaboration et l’interaction humaines peuvent promouvoir la mise à niveau de ces modèles de base.

Nous utilisons un autre exemple basé sur le modèle GPT3 "InstructGPT" à titre de comparaison :

Zhou Bowen de lUniversité Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et dintelligence interactive

Sur certaines questions, GPT-3 peut très bien apprendre à répondre en fonction des invites. Mais si vous demandez à un enfant de 6 ans d'expliquer l'alunissage, en termes de capacités de base du modèle GPT3, il existe différents angles pour répondre à cette question, car il a un grand nombre de valeurs derrière lui. Par exemple, en partant du principe physique de la gravité, c'est le premier ; le deuxième est du point de vue du contexte historique, l'alunissage a eu lieu pendant la guerre froide entre les États-Unis et l'Union soviétique, expliquant comment la guerre froide s'est produit et comment cela a conduit au projet d'alunissage ; Le troisième est que d'un point de vue astronomique, la lune est la planète de la terre. Le quatrième type part du point de vue humain : par exemple, les humains ont toujours voulu atterrir sur la lune. Il existe de nombreuses belles légendes sur Chang'e en Chine, et la même chose est vraie en Occident.

Mais le modèle GPT3 actuel est difficile de juger quelle méthode est appropriée pour expliquer une telle chose à un enfant de 6 ans. Il est davantage basé sur l'importance de la fréquence et du corpus. Il est très probable qu'il soit expliqué. basé sur une page Wikipédia. Qu'est-ce que l'alunissage et le projet d'alunissage, cela ne sert évidemment pas bien le contexte. Par conséquent, InstructGPT est basé sur cette base et permet aux utilisateurs de sélectionner et de noter quatre types de réponses : a, b, c et d. Une fois le classement donné, ces commentaires peuvent être récupérés pour affiner le modèle GPT3. De cette façon, s'il y a ensuite une nouvelle question, comme « Écrire une histoire de grenouille », le début de ce modèle deviendra « il était une fois », une manière très appropriée pour que les enfants commencent à écouter des histoires.

Le premier point est que le modèle est sans aucun doute plus efficace, et l'autre point est qu'il permet de réduire les paramètres du modèle. InstructGPT ne contient que 1,3 milliard de paramètres de modèle, ce qui est des centaines de fois compressé par rapport au modèle GPT3, mais il peut mieux servir les utilisateurs dans des scénarios spécifiques. L’interaction collaborative est une condition nécessaire pour améliorer les connaissances informatiques en boucle fermée, les capacités de calcul et de raisonnement de l’IA.

Nous pensons que l'intelligence comprend trois capacités fondamentales : la connaissance, le calcul et le raisonnement. Nous constatons que l’informatique progresse actuellement très rapidement. Bien entendu, l’informatique présente également des défis en matière de puissance de calcul et de données, mais le manque de connaissances et de raisonnement est particulièrement évident.

Voici donc la question : Comment réaliser une boucle fermée entre les trois ? Le renforcement de l’interaction collaborative active entre l’IA, les personnes et l’environnement peut-il mieux aider l’IA à réaliser une boucle fermée entre les trois ? Notre point de vue académique est que nous devons introduire la collaboration et l'interaction entre l'IA, les personnes et l'environnement. D'une part, nous pouvons améliorer les capacités de chaque module, et d'autre part, nous pouvons combiner des modules pour former une collaboration. interactions.

Faisant écho à notre point d'ouverture, la prochaine avancée de l'IA passera de l'existence virtuelle à l'aide aux gens pour mieux comprendre de nouvelles connaissances et accomplir des tâches dans les mondes physique, biologique et informationnel.

Au Centre de Recherche Collaborative Interactive Intelligence de l'Université Tsinghua, nous proposons et faisons principalement des recherches sur ces problématiques académiques :

Zhou Bowen de lUniversité Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et dintelligence interactive


La première est que nous proposons une nouvelle perspective collaborative, c'est-à-dire que notre recherche rend l'IA plus responsable du système 2 et les gens plus responsables du système 1. Le premier défi que cela entraîne est que l’IA elle-même doit s’orienter davantage vers des tâches telles que le raisonnement logique, les calculs élevés et la complexité élevée, au lieu de se limiter au travail de reconnaissance de formes et d’intuition du système 1. Le deuxième défi est de savoir comment les humains et l’IA peuvent collaborer dans le cadre de cette nouvelle division du travail. Ce sont deux axes de recherche.

Le deuxième concerne la collaboration entre l'IA et les humains, permettant à l'IA de mieux apprendre l'apprentissage par renforcement des humains dans la boucle. Nous devons étudier un meilleur apprentissage continu de l’IA et effectuer de nombreux travaux d’amélioration de la représentation multimodale dans la collaboration entre l’IA, l’environnement et les personnes. La multimodalité est un canal de collaboration important et, en même temps, le mécanisme d’amélioration de l’interaction conversationnelle doit être renforcé.

Il existe également une synergie très importante, qui est la synergie entre l'IA et l'environnement. L’IA doit s’adapter à différents environnements. Ces adaptations environnementales peuvent être résumées en une phrase : adaptation cloud-to-edge et auto-évolution edge-to-cloud. Il est facile de comprendre l'auto-adaptation du cloud à la périphérie. Dans différentes conditions de puissance de calcul et de communication, comment faire en sorte que ces modèles de base s'adaptent mieux à ces environnements ? sur le bord pour aider à l'envers. Le modèle de base itère mieux. En d’autres termes, il s’agit d’une collaboration et d’une interaction entre petits modèles et grands modèles. Cependant, nous ne pensons pas que ce type de collaboration et d'interaction soit à sens unique. Seul le grand modèle peut obtenir le petit modèle grâce à la distillation et à l'élagage des connaissances. Nous pensons que l'itération et l'interaction de petits modèles devraient avoir un chemin plus efficace vers le modèle de base.

Nous pensons que les trois voies techniques ci-dessus sont très importantes. Il y aura un support de niveau inférieur ci-dessous - peut-être que nos recherches actuelles apporteront des avancées théoriques de base en matière d'intelligence artificielle fiable, car avec une meilleure combinaison de connaissances, de calculs et de raisonnement, nous pouvons mieux résoudre les problèmes initialement causés par la connaissance, calcul et raisonnement. Les défis d’interprétabilité, de robustesse et de généralisation de la boîte noire créée par la fusion du calcul et du raisonnement. Nous espérons mieux réaliser ces progrès en matière d’intelligence artificielle fiable, de manière divisible et composable. Si une personne ne peut pas voir de manière transparente le processus de raisonnement de l’intelligence artificielle, il est en réalité difficile de faire confiance aux résultats du système 2 de l’intelligence artificielle.

Regardez ce problème sous un autre angle. Tout le monde sait que ChatGPT est très populaire ces derniers temps, nous avons donc fait beaucoup de travail pour éviter ChatGPT. Bien sûr, cela inclut également Galactica, un système proposé par Facebook il y a quelque temps qui utilise l'IA pour aider à rédiger des articles scientifiques. Nous avons constaté qu'ils nécessitent tous la collaboration des personnes et de l'environnement pour créer des scènes. Ces scénarios de valeur n’existaient pas auparavant, mais ils commencent désormais à devenir possibles. Mais une fois cette possibilité séparée de la collaboration et de l’interaction humaines, nous constaterons immédiatement que ces systèmes d’IA sont insuffisants.

Zhou Bowen de lUniversité Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et dintelligence interactive

Y compris Galactica, qui peut rédiger des articles très clairs, mais de nombreux faits et références de base sont faux. Par exemple, le nom de l'auteur est vrai, mais une partie du titre est vraie et une partie fausse, ou plusieurs articles sont combinés. Ce que je tiens à souligner, c’est que l’IA actuelle n’a pas la capacité de boucler cette boucle fermée complète de connaissances, de calculs et de raisonnement, elle doit donc impliquer des humains.

Bien que Galactica soit bientôt hors ligne, son objectif n'est pas de permettre à tout le monde de l'utiliser pour rédiger des articles et des recherches scientifiques de manière indépendante, mais de mieux aider les gens, donc les gens doivent être en boucle fermée. Il s’agit d’une autre perspective qui souligne que la collaboration et l’interaction humaines constituent une condition fondamentale très importante.

Parlons ensuite de la façon dont je perçois les progrès et les nouvelles opportunités de l'apprentissage multimodal dans le contexte de l'interaction collaborative. Tout d’abord, je pense que la multimodalité s’est développée très rapidement ces derniers temps et qu’elle a commencé à susciter plusieurs tendances évidentes.

Premièrement, il existe une convergence entre les multimodalités dans les dimensions de modélisation et de caractérisation des structures. Par exemple, dans le passé, dans les images et les vidéos, tout le monde utilisait CNN, car le texte est un modèle de séquence, et tout le monde utilisait principalement RNN et LSTM. Mais maintenant, quelle que soit la modalité, tout le monde peut traiter toutes les entrées tokenisées comme une seule séquence. ou le modèle graphique est traité à l'aide d'un mécanisme d'auto-attention et de plusieurs têtes. L'architecture Transformer populaire ces dernières années a fait converger les structures de pratiquement tous les modèles.

Mais une question profonde est la suivante : pourquoi cette architecture de Transformer présente-t-elle des avantages pour toutes les représentations modales ? Nous avons également quelques réflexions, et la conclusion est que Transformer peut modéliser différents modes dans un espace topologique géométrique plus universel, réduisant ainsi davantage les barrières de modélisation entre multimodalités. Par conséquent, cet avantage de Transformer ne fait que jeter les bases de cette convergence architecturale dans le sens multimodal.

Deuxièmement, nous avons constaté que les dimensions pré-formation de la multimodalité convergent également. Le premier Bert a été proposé dans le domaine du langage naturel, et ce mode Mask a fait exploser le modèle de pré-formation. Des travaux récents, notamment ceux du MAE de M. He Kaiming, notamment dans le domaine de la parole, ont continué à utiliser des idées similaires. Grâce à cette méthode de masque, une architecture de modèle pré-entraînée convergente est formée entre différentes modalités. Désormais, les barrières entre les modalités de pré-formation ont été supprimées et les dimensions des modèles de pré-formation ont davantage convergé. Par exemple, MAE introduit la méthode de pré-formation du BERT dans diverses modalités telles que la vision, l'image et la voix. Par conséquent, le mécanisme Mask montre l’universalité dans de multiples modalités.

La troisième tendance est l'unification des paramètres de pré-architecture et des objectifs de pré-formation. Actuellement, l'architecture Transformer est utilisée pour modéliser du texte, des images et de l'audio, et les paramètres peuvent être partagés entre plusieurs tâches.

Zhou Bowen de lUniversité Tsinghua : La popularité de ChatGPT révèle la grande importance de la nouvelle génération de collaboration et dintelligence interactive

Plus précisément, les modèles de pré-formation multimodaux actuels sont principalement divisés en modèles à flux unique et à double flux. Dans une architecture à flux unique, nous supposons que la corrélation et l’alignement sous-jacents entre les deux modèles sont relativement simples. L'architecture à double flux suppose qu'il est nécessaire de séparer l'interaction des classes modales au sein de la modalité et l'interaction entre les modalités croisées pour obtenir une meilleure représentation multimodale et être capable de coder et de fusionner différentes informations modales.

La question est de savoir s'il existe une meilleure façon d'unifier ces idées. La tendance actuelle est que la parcimonie et la modularité peuvent être deux propriétés clés entre des systèmes multimodaux et multitâches plus puissants. Le modèle expert clairsemé peut être considéré comme un système de modèle expert clairsemé équilibré entre un flux unique et un flux double, qui peut gérer différents experts, différentes modalités et tâches.

Une question que nous avons soulevée est la suivante : pouvons-nous utiliser le modèle d'interaction collaborative pour compresser cent fois le modèle Google Pathway sur ces tâches spécifiques, tout en conservant cette structure clairsemée et modulaire ? Ce type de travail mérite bien des recherches de suivi.

Revenant sur l'aspect de l'interaction collaborative conversationnelle, je pense que ChatGPT est un travail très important à l'heure actuelle. Sa valeur fondamentale est de franchir une nouvelle étape dans la direction de l'interaction collaborative. Il peut être utilisé dans l'écriture académique, le code. génération, questions et réponses de l'encyclopédie, compréhension des commandes, etc. Le modèle de base pré-entraîné peut fournir diverses fonctionnalités telles que la réponse interactive et intelligente aux questions, l'écriture et la génération de code. La principale amélioration des capacités de ChatGPT consiste à ajouter un apprentissage par renforcement humain dans la boucle à GPT 3, ainsi qu'une sélection humaine et un classement des différentes réponses.

Bien que le formulaire de présentation actuel dans ChatGPT utilise le langage naturel comme support principal, l'ensemble de la modalité d'interaction s'étendra certainement à cette multi-modalité. La collaboration et l'interaction humaines dans des scénarios multimodaux seront en réalité plus efficaces, apporteront plus d'informations et entraîneront l'intégration de connaissances provenant de diverses modalités.

Si ces capacités d'interaction collaborative humaine dans la boucle et ces capacités de génération d'IA sont intégrées, beaucoup peut être fait. Par exemple, le modèle d'interaction collaborative ChatGPT et le modèle de diffusion sont intégrés pour l'innovation de produits et l'innovation de conception. Dans le processus d'interaction collaborative, des modèles tels que ChatGPT recherchent constamment les tendances dominantes du design actuel et les préférences spécifiques des consommateurs grâce à des informations sur l'expérience émotionnelle des scénarios de consommation, des jugements sur les tendances du design et les tendances technologiques, combinés à un grand nombre de facteurs. L'analyse des images peut permettre une co-création grâce à plusieurs cycles d'interaction collaborative avec des designers ou des chefs de produits professionnels.

Dans certains scénarios très détaillés, de nombreuses personnes n'ont en fait aucune connaissance préalable, comme dans le domaine de la maison intelligente, mais les gens peuvent générer ces conceptions créatives grâce à plusieurs cycles d'interaction collaborative homme-machine, puis grâce au modèle de diffusion stable, Transformez ces expériences de scènes de mots clés clés de la créativité humaine en images de conception originales restaurées haute fidélité. L'interaction collaborative peut aider les gens à innover en matière de produits et de conception de manière plus efficace, ce que nous faisons chez Xianyuan Technology.

Le travail multimodal devient de plus en plus important, c'est pourquoi notre centre prend les devants en lançant le numéro spécial TPAMI 2023 sur « L'apprentissage multimodal à grande échelle », dans le but de réunir des chercheurs de multiples disciplines (telles que : l'informatique vision, traitement du langage naturel, apprentissage automatique (apprentissage automatique, apprentissage profond, soins de santé intelligents, bioinformatique, sciences cognitives), soulèvent d'importantes questions scientifiques et découvrent des opportunités de recherche pour relever les défis exceptionnels dans le domaine de l'apprentissage multimodal à l'ère de l'apprentissage profond et mégadonnées.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer