Maison >Périphériques technologiques >IA >Président d'OpenAI : GPT-4 n'est pas parfait mais il est définitivement différent
Nouvelles le 16 mars, la société de recherche en intelligence artificielle OpenAI a publié hier le très attendu modèle d'IA de génération de texte GPT-4. Greg Brockman, co-fondateur et président d'OpenAI, a déclaré dans une interview que GPT-4 n'est pas parfait, mais qu'il est définitivement différent.
GPT-4 améliore son prédécesseur GPT-3 à bien des égards, par exemple en fournissant des représentations plus véridiques et en permettant aux développeurs de contrôler plus facilement son style et son comportement. GPT-4 est également multimodal dans le sens où il peut comprendre les images, ajouter des annotations aux photos et même décrire en détail le contenu de la photo.
Mais GPT-4 présente également de sérieux défauts. Tout comme GPT-3, le modèle souffre d'« illusions » (c'est-à-dire que le texte agrégé par le modèle n'est pas pertinent ou suffisamment inexact par rapport au texte source) et commet des erreurs d'inférence basiques. OpenAI a donné un exemple sur son blog, GPT-4 décrivant « Elvis Presley » comme « le fils d'un acteur », mais en fait aucun de ses parents n'était acteur.
Lorsqu'on lui a demandé de comparer GPT-4 à GPT-3, Brockman n'a donné qu'une réponse en quatre mots : différent. Il a expliqué : « GPT-4 est définitivement différent, même s'il présente encore beaucoup de problèmes et de bugs. Mais vous pouvez constater une augmentation des compétences dans des matières comme le calcul ou le droit. Il a obtenu de très mauvais résultats dans certains domaines, mais maintenant il a atteint un niveau au-delà de celui des gens ordinaires. »
Les résultats des tests soutiennent le point de vue de Brockman. Dans le test de calcul d'entrée à l'université, GPT-4 obtient 4 points (sur 5 points), GPT-3 obtient 1 point et GPT-3.5, qui se situe entre GPT-3 et GPT-4, obtient également 4 points. . Lors de l'examen simulé du barreau, les scores GPT-4 entraient dans les 10 % supérieurs, tandis que les scores GPT-3,5 se situaient autour des 10 % inférieurs.
En même temps, ce qui attire le plus l'attention sur GPT-4, c'est le multi-mode mentionné ci-dessus. Contrairement à GPT-3 et GPT-3.5, qui ne peuvent accepter que des invites textuelles, telles que demander « d'écrire un article sur les girafes », GPT-4 peut accepter à la fois des invites d'image et de texte pour effectuer certaines opérations, telles que l'identification de personnes dans une image. d'une girafe capturée dans le Serengeti, avec une description sommaire du contenu.
En effet, GPT-4 est entraîné sur des données d'image et de texte, alors que son prédécesseur a été entraîné sur du texte uniquement. OpenAI a déclaré que les données de formation proviennent de « diverses sources de données légalement autorisées et accessibles au public, qui peuvent inclure des informations personnelles accessibles au public », mais lorsqu'on lui a demandé de fournir des détails, Brockman a refusé. Les données de formation ont déjà posé à OpenAI des problèmes juridiques. Les capacités de compréhension d’images de
GPT-4 sont assez impressionnantes. Par exemple, en tapant la question « Qu'est-ce qu'il y a de si drôle dans cette image ? » GPT-4 décomposera l'image entière et interprétera correctement la punchline de la blague.
Actuellement, un seul partenaire a accès à la fonction d'analyse d'image de GPT-4. une application d'assistance pour les malvoyants appelée Be My Eyes, dit Brockman dont le déploiement à plus grande échelle sera « lent à se produire » chaque fois qu'il est en train d'évaluer les risques, les avantages et les inconvénients. »
Il a également déclaré : « Là. Certaines questions politiques doivent être résolues, telles que la reconnaissance faciale et la manière de traiter les images des personnes. Nous devons déterminer où se situent les zones de danger, où se trouvent les lignes rouges, puis trouver des solutions au fil du temps. «
OpenAI a été confronté à un dilemme éthique similaire avec son système de conversion texte-image, Dall-E 2. Après avoir initialement désactivé la fonctionnalité, OpenAI a permis aux clients de télécharger des visages à modifier à l'aide du système de génération d'images alimenté par l'IA. À l'époque, OpenAI a affirmé que les mises à niveau de son système de sécurité rendaient possible la fonctionnalité d'édition faciale car elle minimisait les dommages potentiels des deepfakes et des tentatives de création de contenu pornographique, politique et violent.
Un autre problème à long terme est d'empêcher l'utilisation de GPT-4. Quelques heures après la publication du modèle, la startup israélienne de cybersécurité Adversa AI a publié un article de blog démontrant le contournement des filtres de contenu d'OpenAI et permettant à GPT-4 de générer des e-mails de phishing, des descriptions offensantes de personnes homosexuelles et d'autres textes répréhensibles. Nouveau problème dans le monde des modèles de langage. Le chatbot BlenderBot de la société mère de Facebook et ChatGPT d'OpenAI ont également été tentés de publier du contenu inapproprié, révélant même des détails sensibles de leur fonctionnement interne, mais beaucoup, y compris des journalistes, avaient espéré que GPT-4. pourrait apporter des améliorations significatives à cet égard.
Interrogé sur la robustesse de GPT-4, Brockman a souligné que le modèle a suivi six mois de formation en matière de sécurité et que lors des tests internes, il était 82 % moins susceptible de répondre à GPT-3.5. demandes de contenu non autorisées par la politique d'utilisation d'OpenAI, produisant des « faits ». « La probabilité d'une réponse est 40 % plus élevée que GPT-3.5.
Nous avons passé beaucoup de temps à essayer de comprendre de quoi GPT-4 est capable. » » dit Brockman. Nous le mettons continuellement à jour pour inclure une série d'améliorations afin que le modèle soit plus évolutif pour s'adapter à la personnalité ou au mode que les gens souhaitent lui donner. »
Franchement, les premiers résultats des tests réels ne sont pas très satisfaisants. En plus du test Adversa AI, le chatbot Bing Chat de Microsoft s'est également révélé très facile à jailbreaker. À l’aide d’entrées soigneusement conçues, les utilisateurs peuvent demander au chatbot d’exprimer de l’affection, de menacer de nuire, de justifier des meurtres de masse et d’inventer des théories du complot.
Brockman n'a pas nié que GPT-4 ne répond pas aux attentes dans ce domaine, mais il a souligné les nouveaux outils de limitation du modèle, notamment une fonctionnalité au niveau de l'API appelée messages « système ». Les messages système sont essentiellement des instructions qui donnent le ton et établissent les limites des interactions avec GPT-4. Par exemple, un message système pourrait être le suivant : "Vous êtes un tuteur qui répond toujours aux questions dans un style socratique. Vous ne donnez jamais de réponses à vos élèves, mais essayez toujours de poser les bonnes questions pour les aider à apprendre à penser de manière indépendante."
L'idée est que les messages système agissent comme des garde-fous pour empêcher GPT-4 de dérailler. "Vraiment comprendre le ton, le style et la substance du GPT-4 a été l'une de nos principales priorités", a déclaré Brockman. "Je pense que nous commençons à mieux comprendre comment faire de l'ingénierie, comment avoir un processus reproductible qui permette. vous d'obtenir des résultats prévisibles qui sont réellement utiles aux gens."
Brockman a également mentionné Evals, le dernier cadre logiciel open source d'OpenAI pour évaluer les performances de ses modèles d'IA, sur lequel OpenAI travaille pour "améliorer" ses modèles. . Evals permet aux utilisateurs de développer et d'exécuter des tests de performance qui évaluent des modèles tels que GPT-4 tout en vérifiant leurs performances, une approche participative des tests de modèles.
Brockman a déclaré : « Avec Evals, nous pouvons mieux voir les cas d'utilisation qui intéressent les utilisateurs et les tester. Une partie de la raison pour laquelle nous open source ce framework est que nous n'ouvrons plus de source tous les trois mois. Publier un nouveau modèle pour continuez à vous améliorer. Vous ne créez pas quelque chose que vous ne pouvez pas mesurer, n'est-ce pas ? Mais à mesure que nous déployons de nouvelles versions du modèle, nous pouvons au moins savoir ce qui a changé. tester ses modèles avec Evals ? Il était réticent à s'engager dans ce sens, mais il a noté que, pour une durée limitée, OpenAI autorise un accès anticipé à l'API GPT-4 aux utilisateurs d'Eevals qui en font la demande.
Brockman a également parlé de la fenêtre contextuelle de GPT-4, qui fait référence au texte que le modèle peut prendre en compte avant de générer du texte supplémentaire. OpenAI teste une version de GPT-4 capable de « mémoriser » environ 50 pages de contenu, soit cinq fois la « mémoire » du GPT-4 classique et huit fois la « mémoire » du GPT-3.
Brockman estime que la fenêtre contextuelle élargie mènera à de nouveaux cas d'utilisation jusqu'alors inexplorés, en particulier dans l'entreprise. Il a imaginé un chatbot IA conçu pour les entreprises, qui pourrait utiliser l'expérience et les connaissances provenant de différentes sources, y compris les employés de tous les départements, pour répondre aux questions de manière très compétente mais conversationnelle.
Ce n'est pas un nouveau concept. Mais Brockman pense que les réponses de GPT-4 seront bien plus utiles que celles actuellement fournies par d’autres chatbots et moteurs de recherche. "Avant, le modèle n'avait aucune idée de qui vous étiez, de ce qui vous intéressait, etc. Et avoir une fenêtre contextuelle plus grande le rend définitivement plus fort, améliorant considérablement le soutien qu'il peut apporter aux gens", a-t-il déclaré Xiaoxiao)
.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!