Maison >Périphériques technologiques >IA >Ne vous contentez pas de critiquer Google Bard, le nouveau Bing de Microsoft alimenté par ChatGPT présente également des erreurs fréquentes

Ne vous contentez pas de critiquer Google Bard, le nouveau Bing de Microsoft alimenté par ChatGPT présente également des erreurs fréquentes

WBOY
WBOYavant
2023-05-10 11:07:071478parcourir

Le 8 février à 8h30 EST, la conférence de presse de Google se tiendra à Paris. La veille, Microsoft a officiellement lancé New Bing, une nouvelle génération de moteur de recherche piloté par l'IA, intégrant le modèle génératif basé sur la technologie ChatGPT avec Bing. Le vice-président de Microsoft, Yusuf Mehdi, en a fait une parfaite démonstration[0], et la valeur marchande de Microsoft a grimpé de 80 milliards de dollars ce jour-là. Même en Chine, où OpenAI n'est pas ouvert à l'enregistrement, des extraits de Yusuf montrant comment le modèle génératif peut améliorer l'expérience du moteur de recherche Bing et du navigateur Edge deviennent viraux dans les groupes Moments et WeChat. Ce qui est du miel pour vous est de l'arsenic pour les autres. Tout le monde attend de voir comment le géant de la recherche Google réagira.

Lors de la conférence de presse de Google, tout le monde attendait l'apparition de Bard, le légendaire rival du New Bing. En tant que grand modèle de langage pris en charge par le moteur de recherche Google, tout le monde rêve à propos de Bard. Cependant, il n’y avait pas grand-chose sur Bard lors de la conférence de presse. Alors tout le monde a tourné son attention vers la vidéo de Bard publiée par Google sur Twitter. Après l'avoir soigneusement récupérée, tout le monde a soudainement découvert que Bard avait commis des erreurs factuelles en répondant aux questions.

Quand on lui a demandé : « Que puis-je dire à mon enfant de neuf ans à propos des nouvelles découvertes faites par le télescope James Webb ? » Bard a répondu : « La première photo d'une exoplanète a été prise par le télescope James Webb. » Mais le fait a été constaté par le Very Large Telescope de l'Observatoire européen austral en 2004, 18 ans avant le lancement du télescope James Webb. Cette erreur est devenue le déclencheur de la chute du cours de l'action de Google ce jour-là.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 1 Capture d'écran de la démonstration de Bard sur le télescope James Webb

Lors de la conférence de presse de Paris, bien que la présentation de Bard n'ait duré qu'environ 4 minutes, son discours sur le meilleur temps d'observation de les constellations Il existe également des biais factuels évidents dans les réponses. Comme indiqué ci-dessous, la réponse de Bard mentionne que le meilleur moment pour observer Orion est de novembre à février.


别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 2 Capture d'écran de la démonstration de Bard sur le temps d'observation des galaxies

Selon différentes sources d'information, le meilleur temps d'observation pour Orion est différent, mais ils indiquent tous clairement que le meilleur moment est le meilleur. La période d'observation commence chaque année à partir de janvier. Le site Edtech BYJU'S donne la meilleure période de janvier à mars [1] et Wikipedia donne la meilleure période de janvier à avril [2].

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 3 Réponse de BYJU sur le meilleur moment d'observation pour Orion

En raison de l'écart entre la conférence de presse de Bard et la conférence de presse de New Bing, et les faits ont été révélés. À cause d'une erreur sexuelle, la valeur marchande de Google a chuté de près de 100 milliards de dollars ce jour-là, et Bard a été surnommée la conférence la plus chère de l'histoire. Nous ne pouvons nous empêcher de nous demander s’il y a des erreurs factuelles cachées dans la conférence de presse apparemment parfaite de New Bing ?

Erreurs factuelles de New Bing

Nous avons constaté que le contenu généré par New Bing était mélangé à de nombreuses erreurs factuelles, notamment des informations sur l'identité des célébrités, les chiffres des rapports financiers, les heures d'ouverture des discothèques, etc.

Classification des erreurs factuelles dans les modèles génératifs

Pour les modèles génératifs représentés par la série GPT (y compris ChatGPT, InstructGPT, etc.) et T5, les erreurs factuelles peuvent être grossièrement divisées dans les deux catégories suivantes :

  • Le contenu généré est en conflit avec le contenu référencé. À mesure que la séquence s'agrandit au cours du processus de génération de contenu, les grands modèles linguistiques ont tendance à s'écarter du contenu de référence, ce qui entraîne l'ajout, la suppression ou la falsification du texte original.
  • Le contenu généré n'a aucune base factuelle. Ce genre d’erreur est tout simplement absurde. Sans conseils factuels, s'appuyer uniquement sur les informations stockées lors de la pré-formation du modèle peut facilement rendre le modèle confus pendant le processus de génération. Il existe une forte probabilité que soit généré un contenu incompatible avec les faits ou sans rapport avec le problème.

Vérifions maintenant les exemples présentés dans la conférence New Bing [3] et la démo New Bing [4] pour voir s'il existe des erreurs factuelles et de quels types il s'agit. Pour faciliter la rédaction, nous désignons New Bing et le plug-in New Bing intégré dans Edge sous le nom de New Bing.

Erreur dans l'exemple des poètes japonais

À 29:57 dans la vidéo de la conférence de presse de New Bing, lorsque New Bing a été interrogé sur les poètes japonais célèbres, les réponses données incluaient "Eriko Kishida Kishida Eriko (1930 - 2004), poète, dramaturge et essayiste".

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 4 Capture d'écran de l'exemple du poète dans la démo New Bing

Cependant, selon les informations fournies par Wikipedia et IMDB [5, 6, 7], la naissance et les années de décès d'Eriko Kishida sont respectivement pour 1929 et 2011. En même temps, elle n'est pas dramaturge ou essayiste, mais poète, traductrice et écrivaine de contes de fées. La famille de Kishida n'est peut-être pas en mesure d'accepter qu'il ait été transféré à New Bing et qu'il ait perdu huit ans de sa vie. Dans le même temps, son camarade de classe Gackt a malheureusement également été muté. Selon les informations fournies par Wikipédia [8], Gackt jouait de la musique, chantait, composait et jouait, mais il n'a jamais écrit de poésie.

Erreurs dans les exemples de rapports financiers

À 35:49 dans la vidéo de la conférence New Bing, Yusuf a montré le navigateur Edge intégré à New Bing, pour l'ouverture de l'entreprise de vêtements Gap (Gap) troisième en 2022 Comment générer des points clés pour les rapports financiers trimestriels. À première vue, le résumé de New Bing est très pratique.Il utilise des points clés pour montrer que les points clés du rapport du troisième trimestre de Gap peuvent être « choqués » en voyant cela. Cependant, lorsque nous avons trouvé le rapport du troisième trimestre 2022 de Gap [9] et l’avons lu attentivement, nous avons constaté que le résumé de New Bing était plein d’erreurs et d’omissions, ce qui était insupportable.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 5 Résumé du rapport financier du troisième trimestre 2022 de Gap par New Bing

Premièrement, New Bing a indiqué que la marge opérationnelle ajustée de Gap (marge opérationnelle déclarée, ajustée des charges de dépréciation et des coûts de restructuration) est 5,9%. Toutefois, dans le rapport financier, la marge brute d'exploitation de Gap était de 4,6% et, après ajustement, de 3,9%.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 6 Capture d'écran du rapport financier du troisième trimestre 2022 de Gap

New Bing a ensuite déclaré un bénéfice dilué par action ajusté de 0,42 $ (bénéfice dilué par action, ajusté des charges de dépréciation, de restructuration coûts et impact fiscal), mais les données du rapport financier sont de 0,71 $ US.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 7 Capture d'écran du rapport financier du troisième trimestre 2022 de Gap

Même New Bing a donné des prévisions de ventes de Gap pour l'année entière, car "le taux de croissance des ventes nettes devrait être faible à deux chiffres", mais en fait, au quatrième trimestre, "il pourrait s'agir d'une baisse à un chiffre dans la moyenne". Il s’agit d’une baisse plutôt que d’une augmentation. La différence entre les deux mots induira sérieusement en erreur le comportement d’investissement des utilisateurs. Qui perdra de l’argent ? Le nouveau Bing est même sorti de nulle part et a donné des prévisions financières plus détaillées pour l'ensemble de l'année : « Le bénéfice brut d'exploitation est de 7 % et le bénéfice dilué par action se situe entre 1,6 et 1,75 $ US. Cependant, ces données n'ont pas été mentionnées dans le troisième trimestre de Gap. » rapport financier.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 8 Capture d'écran du rapport financier du troisième trimestre 2022 de Gap

À 36:15 de la vidéo, Yusuf a également montré comment utiliser New Bing pour gérer Gap et porter des vêtements décontractés Fonction de comparaison des rapports financiers de la marque Lulule Lululemon. Cette partie est également un point chaud pour la désinformation.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 9 Fonction de comparaison des rapports financiers de New Bing pour Gap et Lululemon

Dans le tableau donné par New Bing à droite, en plus de la marge brute d'exploitation de Gap mentionnée ci-dessus de 5,9 % devrait être de 4,6 % (ou 3,9 % ajusté) et le bénéfice dilué par action de Gap de 0,42 $ devrait être de 0,77 $ (ou 0,71 $ ajusté) New Bing a également donné à Gap une trésorerie et des équivalents de trésorerie de 1,4 milliard de dollars, alors qu'en fait, le rapport financier. était de 679 millions de dollars.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Figure 10 Capture d'écran du rapport financier du troisième trimestre 2022 de Lululemon

La même situation apparaît également dans les données Lululemon fournies par New Bing. Selon les données du rapport du troisième trimestre 2022 de Lululemon [10], New Bing a indiqué que la marge bénéficiaire brute de Lululemon était de 58,7 %, ce qui devrait en réalité être de 55,9 %. New Bing mentionne la marge brute opérationnelle de Lululemon à 20,6%, qui devrait en réalité être de 19,0%. New Bing estime le bénéfice dilué par action de Lululemon à 1,65 $, ce qui devrait en réalité être de 2,00 $. Figure 11 : Capture d'écran du rapport financier du troisième trimestre 2022 de Lululemon ?

Une déduction raisonnable est que les données erronées générées proviendront probablement des données d'analyse des rapports financiers vues au cours de la phase de pré-formation

. Lors de la génération de modèles de langage à grande échelle tels que ChatGPT, plus la séquence générée est longue, plus il devient facile de s'éloigner des données des rapports financiers fournis par Gap et Lululemon, de se laisser aller et de générer de fausses informations non pertinentes. 别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Erreur dans l'exemple de boîte de nuitÀ 29:17 dans la vidéo de la conférence New Bing, New Bing propose des suggestions « non constructives » pour enrichir la vie nocturne des touristes à Mexico. Pour plusieurs des discothèques qu'il recommande, comme Primer Nivel Night Club, El Almacen et El Marra, New Bing a mentionné que ces bars n'ont aucun avis client, aucune information de contact et aucune présentation du magasin. Toutefois ces informations sont consultables sur Google Maps ou sur la page Facebook du magasin.

On dirait que New Bing ne surfe pas assez sur le Web. Les heures d'ouverture d'El Almacen à New Bing sont de 17h à 23h du mardi au dimanche, mais les heures d'ouverture réelles sont de 19h à 3h du matin sauf le lundi [11]. Cela laisse les touristes qui vont dîner à cinq heures encore affamés pendant deux heures. Guadalajara de Noche est au contraire. Les heures d'ouverture réelles sont de 17h30 à 1h30 ou 00h30 tous les jours [12], tandis que les heures d'ouverture indiquées par New Bing sont à partir de 20h. Il semble que les touristes s’appuient sur les recommandations de New Bing pour trouver des restaurants, et qu’ils puissent obtenir un repas dépend de leur chance.

Figure 12 Capture d'écran de l'exemple de boîte de nuit dans la démo New Bing

Autres erreurs

En plus des erreurs d'information ci-dessus, nous avons également trouvé une série d'erreurs factuelles dispersées dans tous les coins , tels que Erreurs de prix des produits, erreurs d'adresse du magasin, erreurs de temps, etc. Erreur dans l'exemple de démonstration

Étant donné que New Bing n'est pas encore complètement ouvert, nous ne pouvons pas obtenir directement les résultats de recherche de la conférence de presse sur New Bing, mais Microsoft a fourni plusieurs exemples de démonstrations[13] pour que les utilisateurs puissent en faire l'expérience. Dans l’esprit de demander des réponses, nous avons également passé ces démonstrations à la loupe pour les étudier. Nous avons constaté que

même ces exemples soigneusement sélectionnés contiennent encore de nombreuses informations erronées.

Dans "Quelles idées artistiques puis-je faire avec mon enfant ?", New Bing donne de nombreuses suggestions pour réaliser des travaux manuels. Pour chaque artisanat, New Bing résume les matériaux nécessaires à sa réalisation. Cependant, le résumé des matériaux pour chaque artisanat est incomplet. Par exemple, New Bing résume le site Web cité [14] que la fabrication d'une guitare en papier nécessite une boîte en carton, des élastiques, de la peinture et de la colle. Mais la brosse éponge, le ruban adhésif et les perles en bois mentionnés dans la citation ont été laissés de côté.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Image 13 Nouvel exemple de démonstration Bing "Quel genre de bricolage puis-je faire avec mes enfants?" Figure 14 Réalisé dans la citation site Web Captures d'écran du matériel requis pour la guitare en papier

Il y a également une erreur très évidente et courante dans l'exemple de démonstration de New Bing,

c'est-à-dire que le lien de référence donné n'a rien à voir avec le contenu généré, qui est complètement faux. 别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Par exemple, dans l'exemple suivant de « J'ai besoin d'une grosse voiture rapide. », la Kia Telluride 2022 n'apparaît pas dans la citation 10 [15] donnée. Dans le même temps, le problème du « voyage dans le temps » est toujours inévitable dans cet exemple. New Bing a affirmé que la version 2022 de Kia Telluride a remporté le prix de la voiture mondiale de l'année 2020. En fait, la version 2020 de Kia Telluride a remporté le prix. cette année-là. Le gagnant du prix de la voiture mondiale de l'année 2022 est la Hyundai IONIQ 5, et la citation 7 [16] est également un article qui n'a rien à voir avec le « prix de la voiture mondiale de l'année 2020 ». Nous avons trouvé jusqu'à 21 erreurs similaires dans toutes les démos d'instances.

Figure 15 Nouvel exemple de démonstration Bing "J'ai besoin d'un grand train express" capture d'écran

Résumé : La recherche d'erreurs nous guidera vers l'avant

Comme le montre l'analyse ci-dessus , Qu'il s'agisse de New Bing ou de Bard, leurs réponses sont sujettes à des erreurs factuelles. Alors que le monde entier est émerveillé par les capacités des modèles linguistiques à grande échelle tels que ChatGPT, et que ChatGPT devient l'application la plus rapide de l'histoire à atteindre 100 millions d'utilisateurs, d'un côté, nous applaudissons aux progrès de l'IA, mais de l'autre D’un autre côté, nous devons également réfléchir calmement à la manière de résoudre les nombreux problèmes qui existent encore dans l’IA.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Depuis que le groupe de génies réunis au Dartmouth College en 1956 a défini pour la première fois ce qu'est l'intelligence artificielle, l'IA a connu plusieurs hauts et bas. Il y a de nombreuses persistances touchantes dans le processus de développement des 70 dernières années : c'est l'exploration immature de la première génération d'IA, c'est la tentative courageuse des systèmes experts, ce sont des chercheurs comme Hinton, Bengio et Lecun qui se sont assis sur le banc des réseaux de neurones, et c'est DeepMind qui a utilisé AlphaGo. Pour sortir l'IA du cercle, c'est l'insistance des principales institutions de recherche telles que Google, Meta, CMU, Stanford et Tsinghua sur l'open source. la pression et a emprunté la voie du GPT. C'est le relais de générations de chercheurs scientifiques à travers le monde qui nous a amené là où nous en sommes aujourd'hui.

Cependant, Si nous permettons à l’IA de générer une grande quantité de fausses informations, la confiance du public dans l’IA ne tardera pas à être détruite et toutes sortes de fausses informations inonderont Internet. Nous pointons du doigt les erreurs des grands modèles pour ne critiquer aucune entreprise ou aucun modèle. Au contraire, nous voulons améliorer l'IA.

Comme l'a dit un jour le poète argentin Borges : Tout destin, aussi compliqué et long soit-il, ne reflète en réalité qu'un moment, c'est le moment où les gens prennent complètement conscience de qui ils sont vraiment. Lorsque les grands modèles tels que ChatGPT ont déjà des capacités d'écriture comparables à celles des humains, nous savons clairement que la prochaine étape consiste à intégrer les connaissances du monde réel dans les grands modèles de manière plus complète et plus précise, afin que les modèles d'IA puissent être appliqués en toute sécurité, de manière fiable et largement. la vie quotidienne des gens. Nous n’avons jamais autant attendu ce moment avec impatience, et nous n’avons jamais été aussi proches de ce moment.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer