Maison > Article > Périphériques technologiques > Lorsque ChatGPT a participé à l'examen d'entrée à l'université en Chine et lui a fourni les épreuves nationales A et B, cela s'est avéré sérieusement biaisé !
Xi Xiaoyao Technology Talk Original
Auteur | PythonChatGPT, en tant qu'application de conversation homme-machine intelligente, est rapidement devenue populaire dans le monde entier après son lancement. En seulement un mois, son nombre d’utilisateurs a dépassé les 100 millions. Les gens utilisent également ChatGPT pour tester de nombreux éléments d'examen, tels que SAT, AP, GRE, etc. Cependant, que se passerait-il si ChatGPT était autorisé à participer à l’examen d’entrée à l’université en Chine ? Sera-t-il partial ? Les gens ordinaires comme nous peuvent-ils réussir ChatGPT ? Jetons un coup d'œil aux commentaires apportés par les étudiants de l'Université de Fudan et de l'Université normale de Chine orientale.
Titre de l'article :
Évaluer les performances des grands modèles linguistiques sur le benchmark GAOKAO
Lien de l'article :https://www.php.cn/link/de66dbc30377a1f7908db45298324aa3
Cet article utilise une méthode d'invite sans supervision pour convertir les questions de test en entrée ChatGPT, comme le montre la figure ci-dessous. Différentes méthodes d'enquête sont conçues pour différents sujets et types de questions. Pour les questions mathématiques, convertissez la formule en entrée latex.
Le test de cet article utilise l'épreuve nationale A et l'épreuve nationale B pour un total de 13 ans de 2010 à 2022. Chaque ensemble d'épreuves contient 10 matières, à savoir le chinois, Mathématiques, anglais, physique, chimie, vie, histoire et affaires foncières, parmi lesquelles les mathématiques sont divisées en mathématiques scientifiques et mathématiques des arts libéraux.
L'ensemble de données contient un total de 2811 questions de test. Les types de questions spécifiques ne seront pas abordés ici. Je pense que les lecteurs connaissent très bien les questions de l'examen d'entrée à l'université.
Lors de l'évaluation, des professeurs du secondaire du collège Caoyang n°2 de Shanghai ont été embauchés pour noter les questions subjectives.
Les scores obtenus par ChatGPT à l'examen d'entrée à l'université au fil des ans sont présentés dans la figure ci-dessous. Étant donné que chaque matière est normalisée à 100 points lors du calcul des scores, ce score ne peut pas être directement comparé à vos résultats et aux miens à l'examen d'entrée à l'université. Mais on voit aussi que ce score n'est pas idéal, et on estime que ni Fudan ni l'East China Normal University ne seront admis. Pourquoi est-ce ?
L'image ci-dessus montre les performances de ChatGPT dans divers sujets, ainsi que des sujets subjectifs et objectifs. Le bleu correspond aux questions objectives et le jaune aux questions subjectives. L'analyse a révélé que ChatGPT a obtenu de meilleurs résultats sur les questions objectives, en particulier la compréhension écrite de l'anglais, le choix unique et le cloze, atteignant respectivement une précision de 88,3 %, 78,1 % et 73,8 %. Mais même pour les questions objectives, le taux de précision en sciences et en mathématiques est inférieur à 40 %. Les mathématiques sont vraiment difficiles ~
Les performances de ChatGPT sur les questions subjectives sont médiocres. Dans les matières de physique, de chimie, de biologie et de mathématiques, les performances des questions subjectives ne sont évidemment pas aussi bonnes que celles des questions objectives. Les scores aux questions objectives dans les matières scientifiques sont également médiocres. Peut-être que ChatGPT est biaisé en faveur des matières d'arts libéraux ? Selon les commentaires des évaluateurs, les principaux défauts de ChatGPT sont les suivants : 1. Les équations complexes des problèmes mathématiques sont difficiles à résoudre correctement et de mauvaises formules sont utilisées dans le processus de résolution de problèmes. 2. Capacité insuffisante à comprendre et à résumer lors de la lecture de documents plus longs.
ChatGPT ne peut pas utiliser les données des questions de l'examen d'entrée à l'université chinoise pendant le processus de formation, ses performances ne sont donc pas affectées par les fuites de données et ont une grande crédibilité.
Les résultats d'observation montrent que par rapport aux examens étrangers, les performances de ChatGPT aux questions de l'examen d'entrée à l'université chinoise sont légèrement inférieures. Par conséquent, les étudiants nationaux n’ont pas à trop s’inquiéter de ne pas pouvoir réussir l’examen ChatGPT pour le moment. Cependant, les capacités de résumé de texte long mentionnées dans l'article ont été considérablement améliorées dans GPT4-32K, et le grand modèle national a également été optimisé davantage sur les données chinoises. Par conséquent, nous pouvons nous attendre à des performances plus impressionnantes sur les questions d’examen d’entrée à l’université à grande échelle à l’avenir.
De plus, l'idée d'utiliser ChatGPT pour résoudre les questions d'examen d'entrée à l'université pourrait peut-être répondre au débat parmi les internautes sur la question de savoir quelle province les questions d'examen sont les plus difficiles ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!