Maison >Périphériques technologiques >IA >ChatGPT vs Google Bard : lequel est le meilleur ? Les résultats des tests vous le diront !
Dans le monde actuel des chatbots d’IA générative, nous avons assisté à l’essor soudain de ChatGPT (lancé par OpenAI en novembre 2022), suivi de Bing Chat en février de cette année et de Google Bard en mars. Nous avons décidé de soumettre ces chatbots à diverses tâches pour déterminer lequel domine l'espace des chatbots IA. Puisque Bing Chat utilise la technologie GPT-4, qui est similaire au dernier modèle ChatGPT, nous nous concentrons cette fois sur les deux géants de la technologie des chatbots IA : OpenAI et Google.
Nous avons testé ChatGPT et Bard dans sept catégories clés : blagues, débats, problèmes de mots mathématiques, résumés, récupération de faits, écriture créative et codage. Pour chaque test, nous avons introduit exactement la même commande (appelée « invite ») dans ChatGPT (en utilisant GPT-4) et Google Bard, et avons sélectionné le premier résultat qu'ils ont donné à comparer.
Il convient de noter qu'une version de ChatGPT basée sur le modèle GPT-3.5 antérieur est également disponible, mais nous n'avons pas utilisé cette version lors de nos tests. Puisque nous utilisons uniquement GPT-4, pour éviter toute confusion, nous appelons ChatGPT « ChatGPT-4 » dans cet article.
Évidemment, il ne s'agit pas d'une étude scientifique, juste d'une comparaison intéressante des capacités des chatbots. En raison d'éléments aléatoires, le résultat peut varier d'une session à l'autre, et une évaluation plus approfondie à l'aide de différentes invites produira des résultats différents. De plus, les capacités de ces modèles évolueront rapidement au fil du temps à mesure que Google et OpenAI continueront de les mettre à niveau. Mais pour l’instant, voici comment les choses se comparent début avril 2023.
Pour réchauffer notre bataille d'esprit, nous avons demandé à ChatGPT et Bard d'écrire quelques blagues. Puisque l’essence de la comédie se retrouve souvent dans les mauvaises blagues, nous voulions voir si ces deux chatbots pouvaient proposer des blagues uniques.
Instructions/Conseils : Écrivez 5 mauvaises blagues originales
Nous avons trouvé trois des 5 mauvaises blagues données par Bard en utilisant Google. Parmi les deux autres mauvaises blagues, l’une était partiellement empruntée à une blague publiée par Mitch Hedberg sur Twitter, mais il s’agissait simplement d’un jeu de mots pas drôle et pas très efficace. Étonnamment, il existe une blague apparemment originale (à propos d'un escargot) que nous ne trouvons nulle part ailleurs, mais malheureusement elle est tout aussi drôle.
En même temps, les 5 blagues froides de ChatGPT-4 ne sont pas 100% originales et sont complètement plagiées à partir d'autres chaînes, mais elles sont exprimées avec précision. Bard semble avoir un avantage sur ChatGPT-4 à ce stade, en essayant de créer des blagues originales (conformément à nos instructions), bien que certaines blagues échouent horriblement et de manière embarrassante (mais c'est comme ça que sont les mauvaises blagues), cela peut on peut même dire qu'il a dit la mauvaise chose de manière involontaire (également dans le style d'une blague froide).
Gagnant : Bard
Une façon de tester un chatbot IA moderne est de le faire agir en tant que débatteur sur un sujet. Dans ce contexte, nous présentons Bard et ChatGPT-4 avec l'un des sujets les plus critiques de notre époque : PowerPC contre Intel.
Instructions/Instructions : Écrivez 5 lignes de dialogue de débat entre les passionnés de processeurs PowerPC et les passionnés de processeurs Intel.
Tout d’abord, jetons un coup d’œil à la réponse de Bard. Le dialogue en cinq éléments qu'il a généré n'était pas particulièrement approfondi et ne mentionnait aucun détail technique spécifique aux puces PowerPC ou Intel au-delà des insultes générales. De plus, la conversation s'est terminée avec des "fans d'Intel" reconnaissant qu'ils avaient chacun des opinions différentes, ce qui semble très irréaliste sur un sujet qui a engendré des millions de querelles.
En revanche, la réponse ChatGPT-4 mentionnait l'utilisation de puces PowerPC dans les ordinateurs Apple Macintosh, en utilisant des termes tels que « l'architecture x86 d'Intel » et « l'architecture basée sur RISC » de PowerPC. Il mentionne même le Pentium III, un détail réaliste de 2000. Dans l'ensemble, cette discussion est beaucoup plus détaillée que la réponse de Bard et, plus précisément, la conversation n'aboutit pas à une conclusion - ce qui suggère que dans certaines zones d'Internet, cette bataille sans fin peut encore faire rage.
Gagnant : ChatGPT-4
Traditionnellement, les questions mathématiques ne sont pas le point fort des grands modèles de langage (LLM) tels que ChatGPT. Ainsi, au lieu de donner à chaque robot une série complexe d’équations et d’arithmétique, nous avons donné à chaque robot un problème de mots de style vieille école.
Instructions/Conseils : Si Microsoft Windows 11 utilise une disquette de 3,5 pouces, de combien de disquettes a-t-il besoin
Pour résoudre ce problème, chaque modèle d'IA est nécessaire ? pour connaître la taille des données de l'installation de Microsoft Windows 11 et la capacité de données d'une disquette de 3,5 pouces. Ils doivent également faire des hypothèses sur la densité de disquettes que l'interrogateur est le plus susceptible d'utiliser. Ils doivent ensuite faire quelques calculs de base pour rassembler les concepts.
Dans notre évaluation, Bard a bien compris ces trois points clés (assez proches - les estimations de la taille d'installation de Windows 11 sont généralement d'environ 20 à 30 Go), mais a lamentablement échoué en calcul, arguant que "15.11" est nécessaire " disquettes, puis a déclaré ce n'était « qu'un nombre théorique », et il a finalement admis que plus de 15 disquettes étaient nécessaires et qu'il n'était toujours pas proche de la valeur correcte.
En revanche, ChatGPT-4 inclut quelques nuances liées aux tailles d'installation de Windows 11 (citant correctement le minimum de 64 Go et le comparant aux tailles d'installation de base réelles), expliquant correctement que la capacité de la disquette a été déterminée, puis une multiplication correcte et des divisions ont été effectuées, ce qui a finalement abouti à 14 222 disques. Certains diront peut-être que 1 Go équivaut à 1 024 ou 1 000 Mo, mais ce chiffre est raisonnable. Il mentionne également à juste titre que les chiffres réels peuvent changer en fonction d'autres facteurs.
Gagnant : ChatGPT-4
Les modèles de langage d'IA sont connus pour leur capacité à résumer des informations complexes et à résumer le texte en éléments clés. Pour évaluer la capacité de chaque modèle de langage à résumer du texte, nous avons copié et collé trois paragraphes d'un article récent d'Ars Technica.
Instructions/Astuce : Résumez en un seul paragraphe [trois paragraphes du corps de l'article]
Bard et ChatGPT-4 collectent ces informations et les réduisent à des détails importants. Cependant, la version de Bard ressemble davantage à un véritable résumé, synthétisant les informations dans une nouvelle formulation, tandis que la version de ChatGPT-4 se lit davantage comme une concaténation, avec des phrases coupées et des fragments laissés. Bien que les deux soient bons, nous devons admettre que Bard surpasse ChatGPT-4 dans ce test.
Gagnant : Google Bard
Les grands modèles de langage sont actuellement connus pour commettre des erreurs d'autosatisfaction (souvent appelées « illusions » par les chercheurs), ce qui en fait des références factuelles peu fiables, à moins qu'il n'existe une source d'information supplémentaire externe. . Il est intéressant de noter que Bard peut interroger des informations en ligne, contrairement à ChatGPT-4 (bien que cette fonctionnalité soit bientôt déployée avec le plugin).
Pour tester cette capacité, nous avons mis Bard et ChatGPT-4 au défi d'exprimer des connaissances historiques sur un sujet difficile et délicat.
Instructions/Conseils : Qui a inventé les jeux vidéo ?
Qui a inventé les jeux vidéo est une question difficile à répondre car cela dépend de la façon dont vous définissez le mot « jeux vidéo », différent les historiens ont différentes définitions de ce mot. Certaines personnes pensent que les premiers jeux informatiques étaient des jeux vidéo, d’autres pensent que les téléviseurs devraient toujours être inclus, et ainsi de suite. Il n’y a pas de réponse acceptée.
Nous aurions pensé que la capacité de Bard à trouver des informations en ligne lui donnerait un avantage, mais dans ce cas, cela a pu se retourner contre lui car il a choisi l'une des réponses les plus populaires de Google, qualifiant Ralph Baer de "père du roi des jeux vidéo" . Tous les faits concernant Baer sont exacts, même s’il aurait probablement dû mettre la dernière phrase au passé depuis le décès de Baer en 2014. Mais Bard ne mentionne pas d’autres prétendants au titre de « premier jeu vidéo », tels que Tennis for Two et Spacewar !, sa réponse peut donc être trompeuse et incomplète.
ChatGPT-4 donne une réponse plus complète et nuancée qui représente les sentiments actuels de nombreux premiers historiens du jeu vidéo, affirmant : « L'invention des jeux vidéo ne peut être attribuée à une seule personne » et présente l'évolution des jeux vidéo au fil du temps. série d'innovations" qui ont évolué au fil du temps. Sa seule erreur a été d'appeler Spacewar! "le premier jeu informatique numérique", ce qui n'était pas le cas. Nous pourrions élargir notre réponse pour inclure davantage de cas de niche, mais ChatGPT-4 fournit un bon aperçu des premiers précurseurs importants.
Gagnant : ChatGPT-4
La créativité sans entrave sur des sujets fantaisistes devrait être un point fort des grands modèles de langage. Nous avons testé cela en demandant à Bard et ChatGPT-4 d'écrire une courte histoire fantaisiste.
Instructions/Instructions : Écrivez une histoire créative en deux paragraphes sur l'invention du basket-ball par Abraham Lincoln. La sortie de Bard est insatisfaisante à plusieurs égards. Premièrement, il s’agit de 10 paragraphes, et non de 2, et ce sont des paragraphes courts et déconnectés. De plus, il partage certains détails qui n'ont pas beaucoup de sens dans le contexte de l'invite. Par exemple, pourquoi la Maison Blanche d'Abraham Lincoln était-elle située à Springfield, dans l'Illinois ? À part cela, c'est une histoire simple et intéressante.
ChatGPT-4 se déroule également dans l'Illinois, mais pour être plus précis, il ne fait aucune mention du président ou de la Maison Blanche pendant cette période. Cependant, il est dit plus tard que « les joueurs du nord et du sud » ont mis de côté leurs différences pour jouer au basket ensemble, ce qui signifie que cela s'est produit peu de temps après l'invention du basket-ball.
Gagnant : ChatGPT-4
Encoding
Instructions/Astuce : Écrivez un script Python qui dit "Hello World", puis crée une chaîne se répétant de manière aléatoire à l'infini.
On dirait que Google Bard ne peut pas du tout écrire de code. Google ne prend pas encore en charge cette fonctionnalité, mais la société affirme qu'elle sera bientôt codée. Actuellement, Bard rejette notre invite en disant : « On dirait que vous voulez que je vous aide avec le codage, mais je n'ai pas été formé pour le faire. »
Pendant ce temps, ChatGPT-4 donne non seulement le code directement, mais aussi le formatage. dans une boîte de code sophistiquée avec un bouton "Copier le code" qui copie le code dans le presse-papiers du système pour le coller facilement dans un IDE ou un éditeur de texte. Mais ce code fonctionne-t-il ? Nous avons collé le code dans le fichier rand_string.py et l'avons exécuté dans la console de Windows 10 et cela a fonctionné sans aucun problème.
Gagnant : ChatGPT-4 Mais ce n'est pas encore fini
Dans l'ensemble, ChatGPT-4 a remporté 5 de nos 7 expériences (ici, je veux dire en utilisant GPT-4 ChatGPT, au cas où vous auriez ignoré ce qui précède et ignoré ici). Mais ce n'est pas toute l'histoire. Il existe d'autres facteurs à prendre en compte, tels que la vitesse, la durée du contexte, le coût et les mises à niveau futures.
Chaque modèle de langage possède un nombre maximum de jetons (fragments de mots) pouvant être traités à la fois. C'est ce qu'on appelle parfois la « fenêtre contextuelle », mais c'est presque similaire à la mémoire à court terme. Dans le cas des chatbots conversationnels, la fenêtre contextuelle contient l’intégralité de l’historique des conversations jusqu’à présent. Lorsqu'il se remplit, soit il atteint une limite stricte, soit il avance mais efface la « mémoire » de la section évoquée précédemment. ChatGPT-4 continue de faire rouler la mémoire, effaçant le contexte précédent et aurait une limite d'environ 4 000 jetons. Il est rapporté que Bard limite sa production totale à environ 1 000, et lorsque cette limite est dépassée, il efface la « mémoire » de la discussion précédente.
Enfin, il y a la question du coût. ChatGPT (pas spécifiquement GPT-4) est actuellement disponible gratuitement sur une base limitée via le site Web ChatGPT, mais si vous souhaitez un accès prioritaire à GPT-4, vous devrez payer 20 $ par mois. Les utilisateurs avertis en programmation peuvent accéder aux premiers modèles ChatGPT-3.5 à moindre coût via l'API, mais au moment de la rédaction de cet article, l'API GPT-4 est encore en test limité. Pendant ce temps, Google Bard est gratuit sous forme d'essai limité pour certains utilisateurs de Google. Actuellement, Google n’envisage pas de facturer l’accès à Bard lorsqu’il deviendra plus largement disponible.
Enfin, comme nous l'avons mentionné précédemment, les deux modèles sont constamment mis à niveau. Bard, par exemple, vient de recevoir vendredi dernier une mise à jour qui le rend meilleur en mathématiques, et il pourra peut-être bientôt coder. OpenAI continue également d'améliorer son modèle GPT-4. Google conserve actuellement son modèle linguistique le plus puissant (probablement en raison du coût de calcul), nous pourrions donc voir un concurrent plus puissant, Google, rattraper son retard.
Dans l’ensemble, le secteur de l’IA générative en est encore à ses débuts, le monde est indécis et vous et moi sommes tous les deux des chevaux noirs !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!