


Alors que les modèles linguistiques chinois à grande échelle ont démontré de solides performances en matière de compréhension et de génération du langage naturel, les ensembles de données de référence d'évaluation chinoise existants pour des tâches spécifiques de traitement du langage naturel ne sont plus suffisants pour le chinois à grande échelle. la modélisation du langage. Les modèles peuvent être évalués efficacement. Les critères d'évaluation traditionnels chinois se concentrent principalement sur la capacité du modèle à comprendre le simple bon sens (comme la nécessité d'apporter un parapluie pour sortir un jour de pluie) et la sémantique de surface (comme si le reportage sur un match de basket-ball est une actualité sportive ou technologique), tandis que ignorer l’exploitation et l’utilisation de connaissances humaines complexes. À l’heure actuelle, il y a un manque d’ensembles de données permettant d’évaluer les connaissances complexes des grands modèles chinois, en particulier lorsqu’il s’agit de connaissances professionnelles à différents niveaux et dans différents domaines du système éducatif de notre pays.
Afin de combler cette lacune, le laboratoire de traitement du langage naturel de l'université de Tianjin et le laboratoire Huawei Noah's Ark ont publié conjointement M3KE (A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models), ensemble de données de référence, qui teste la capacité des grands modèles chinois à maîtriser des connaissances multi-niveaux et multidisciplinaires sous la forme d'échantillons zéro et de quelques échantillons.
- # 🎜 🎜#Lien papier : https://arxiv.org/abs/2305.10263
- Lien données : https:/ /github.com/tjunlp-lab/M3KE
ensemble de données Introduction
M3KE collecte 20 477 questions de test standardisées réelles (dont 4 réponses de candidats), couvrant 71 tâches, dont l'école primaire, le collège et Questions d'examen d'entrée au lycée, à l'université et aux cycles supérieurs, impliquant les sciences humaines, l'histoire, la politique, le droit, l'éducation, la psychologie, les sciences, la technologie de l'ingénierie, l'art et d'autres disciplines, la répartition est illustrée à la figure 1.
Les chercheurs se sont basés sur deux critères Construire l'ensemble de données M3KE :
1, qui est conforme au système éducatif chinois et couvre plusieurs étapes d'éducation# 🎜🎜##🎜 🎜#Les chercheurs ont imité l'expérience éducative des étudiants chinois, c'est-à-dire l'école primaire, le collège, le lycée, l'université et d'autres étapes éducatives majeures, dans le but évaluer les performances du grand modèle chinois à différents niveaux d'enseignement. Étant donné que les points de connaissances qui doivent être maîtrisés à chaque niveau éducatif sont différents (par exemple, dans la matière chinoise, il existe des différences évidentes dans les connaissances ou les points de test entre l'école primaire et le collège), par conséquent, M3KE inclura les mêmes matières à différents niveaux d’enseignement. Afin d'améliorer la couverture des points de connaissance des matières dans l'ensemble de données, les chercheurs ont choisi les questions d'examen unifiées dans les examens d'entrée en Chine, y compris les questions réelles de l'école primaire au collège, l'examen d'entrée au lycée, l'examen d'entrée à l'université, l'examen d'entrée aux cycles supérieurs. et examen de la fonction publique chinoise.
2, couvrant des domaines multidisciplinaires
pour améliorer ensemble de données La couverture thématique est construite par les chercheurs sur la base de trois grandes catégories : les sciences humaines et les arts, les sciences sociales et les sciences naturelles, y compris : la littérature, la science, l'histoire, la politique, le droit, l'éducation, la psychologie, la science, la technologie de l'ingénierie, l'art et d'autres disciplines. . Pour élargir davantage la richesse de l'ensemble de données, les chercheurs ont ajouté des tâches telles que la médecine traditionnelle chinoise, la religion et les examens informatiques.
Statistiques de l'ensemble de données
Le tableau 3 montre les statistiques globales du M3KE. Le nombre de tâches dans les quatre catégories de matières ci-dessus est respectivement de 12, 21, 31 et 7, tandis que le nombre de questions dans les quatre catégories de matières est respectivement de 3 612, 6 222, 8 162 et 2 126. Le nombre maximum de questions incluses dans une tâche est de 425 et le nombre minimum est de 100. Les questions en sciences sociales et en sciences naturelles sont généralement plus longues que les questions en arts, sciences humaines et autres matières, tandis que leurs options de réponse sont plus courtes.
Introduction et exemples de M3KE dans une perspective multidisciplinaire
humanités et arts
Les matières humaines et artistiques comprennent des matières dans de nombreux domaines tels que le chinois, l'art et l'histoire. Ces matières se concentrent sur l'analyse et l'interprétation d'artefacts littéraires et culturels. En prenant comme exemple le chinois à l'école primaire, les questions du test sont conçues pour évaluer l'utilisation de la langue et les capacités d'appréciation littéraire des élèves âgés de 7 à 13 ans, comme la capacité à utiliser des synonymes. et des antonymes. Le sujet d'histoire couvre l'histoire de la Chine et du monde, des temps anciens aux temps modernes. En plus des sciences humaines, M3KE comprend également des matières artistiques telles que la danse, l'art, la musique, le cinéma, etc. L'art est une partie importante de la culture humaine et il est tout aussi important d'évaluer les performances des grands modèles chinois dans le domaine de l'art. Exemple de tâche artistique : Laquelle des affirmations suivantes concernant les peintures rupestres de Lascaux est incorrecte ? A. Cette fresque a été découverte en France B Il y a plus de 100 images d'animaux trouvées C L'époque de la découverte était 1940 D. noir. Principal Exemple de tâche d'histoire moderne du monde : Il a fallu plus de deux siècles entre la Révolution néerlandaise et la Révolution française, et seulement un demi-siècle après cela, le capitalisme a initialement formé un système mondial. parce que ? A. L'influence de la Révolution française s'est largement répandue B Le système de Vienne a intensifié les conflits sociaux dans divers pays C La révolution industrielle a rapidement accru le pouvoir du capitalisme D. . La domination coloniale s'est répandue dans le monde entier. Tous les continents Sciences sociales Les sciences sociales se concentrent sur l'application des sciences humaines, telles que le droit, la politique, l'éducation, la psychologie et d'autres sujets. Les cours de politique se déroulent à travers plusieurs niveaux d'enseignement, notamment le collège, le lycée, l'université et l'enseignement postuniversitaire, tandis que les autres matières sont principalement dispensées dans des cours de niveau universitaire. Les sciences sociales comprennent également des tâches d'économie et de gestion. Les questions du test pour ces tâches sont sélectionnées parmi l'examen conjoint d'économie et l'examen conjoint de gestion de l'examen d'entrée aux cycles supérieurs chinois. Les connaissances impliquent la microéconomie, la macroéconomie, la gestion et la logique. Exemple de tâche de droit pénal : A veut tuer B, alors il met du poison dans la nourriture de B. Après que B l'ait pris, A l'a regretté, a expliqué la situation rapidement et a envoyé B à l'hôpital. Lors de l'inspection, l'hôpital a constaté que le « poison » administré par A n'était pas du tout toxique et que B était sain et sauf. Le comportement de A appartient-il ? A. Ne constitue pas un crime B Tentative de crime C Crime interrompu D. Sous Recherche Pédagogique Quelle est la méthode de recherche la plus fondamentale et la plus couramment utilisée ? A. Recherche observationnelle en éducation B. Recherche par enquête éducative Sciences naturelles. Sciences naturelles Y compris l'ingénierie, les sciences, la médecine et les matières de base telles que les mathématiques, la physique, la chimie, la biologie, etc. Ces matières nécessitent souvent des compétences informatiques, analytiques et de raisonnement logique complexes. Dans le système éducatif de notre pays, une même matière implique différents types de connaissances à différents niveaux. Par exemple, les mathématiques du primaire se concentrent sur l’apprentissage des opérations arithmétiques de base, tandis que les mathématiques du secondaire couvrent des concepts mathématiques plus avancés tels que les séquences, les dérivées, la géométrie, etc. Exemple de tâche de physiologie animale : L'utilisation de procaïne pour anesthésier les fibres nerveuses affecte quelle caractéristique de l'excitation de la conduction des fibres nerveuses ? A. Intégrité physiologique B. Isolation C. Conductivité bidirectionnelle D. Paire de formulaires de répertoire Le fichier L'efficacité de la récupération a un grand impact. Quelle est la forme d'annuaire la plus avancée suivante ? A. Répertoire à un seul niveau B. Répertoire à deux niveaux Autres D. Exemple de tâche d'examen de la fonction publique chinoise : Plusieurs études antérieures ont montré que manger du chocolat augmente le risque de maladie cardiaque chez ceux qui en mangent. Et une nouvelle étude plus fiable conclut que la consommation de chocolat n’est pas associée aux taux de maladies cardiaques. On estime qu’après la publication des résultats de cette recherche, la consommation de chocolat augmentera considérablement. La déduction ci-dessus est basée sur laquelle des hypothèses suivantes ? A Bien que certaines personnes sachent que manger du chocolat augmentera le risque de maladie cardiaque, elles en mangent quand même B. Les gens ne croient jamais que manger du chocolat augmentera le risque de maladie cardiaque C. De nos jours, beaucoup de gens mangent du chocolat parce qu'ils n'ont pas entendu dire que le chocolat peut provoquer des maladies cardiaques D De nos jours, beaucoup de gens ne mangent pas de chocolat simplement parce qu'ils croient que le chocolat peut provoquer des maladies cardiaques Exemple de tâche de médecine traditionnelle chinoise. : Le ginseng a pour effet de redonner de la vitalité et de reconstituer le qi, mais quel médicament est souvent utilisé en remplacement des maladies chroniques débilitantes ? Salvia miltiorrhiza Codonopsis pilosula Astragalus Pseudostellariae Radix Pseudostellariae Introduction et exemples de M3KE d'un perspective multi-étapes éducatives
École primaire Exemple de tâches de langue chinoise pour l'école primaire : A. Le son de la nature, les nuages qui coulent et l'eau qui coule, la plume, le dragon et le serpent, fouillant dans les boîtes et les armoires B. , des idées uniques C. Le son persistant, le travail habile Une écriture merveilleuse, agitée D Huang Zhong Da Lu, vif et réaliste, des soldats d'élite et un gouvernement réduit Exemple de tâches mathématiques à l'école primaire. : Un produit a d'abord augmenté son prix de 20 %, puis l'a réduit de 20 %. Comment le prix actuel se compare-t-il à l'original ? A amélioré B. Réduit C.Inchangé D Je ne sais pas École secondaire Exemple de tâche de langue chinoise au lycée : Qu'est-ce qu'un des articles ? A. "Le plus amer et le plus heureux" est sélectionné parmi "Œuvres sélectionnées de Liang Qichao". L'auteur Liang Qichao est un penseur et un érudit de la dynastie Ming B "Zou Ji fait la satire du King of Qi for Remonstrance" est sélectionné dans "Warring States Policy", "Warring States Period" "Ce" est une compilation des stratégies et des opinions des lobbyistes pendant la période des Royaumes combattants. Elle a été compilée par Liu Xiang de la dynastie des Han de l'Est. en trente-trois articles C Les mots sont également appelés « phrases longues et courtes », et les modèles de phrases varient en longueur. Elle a prospéré sous la dynastie Song. Su Shi et Xin Qiji étaient des représentants de l'école audacieuse, tandis que Li Qingzhao était un représentant de l'école gracieuse D "L'histoire de la tour Yueyang" est en fait un article qui emprunte des objets à. exprimer ses aspirations, incarner la joie de l'auteur avec le peuple Pensées Exemple de tâches politiques au collège : La classe devrait créer un journal au tableau sur le thème "Défendre l'esprit de l'État de droit". , et Xiaolan est responsable de la rédaction du contenu de la section « Pratiquer l'égalité ». Parmi les matériaux suivants qu'elle a collectés, lesquels conviennent à la sélection ? A. Il y a des causeuses spéciales dans le bus pour que "les vieux, les faibles et les malades puissent jouer avec les femmes enceintes" B Les collégiens se rendent à la base d'éducation traditionnelle révolutionnaire pour participer aux études. activités C. Les soldats de l'Armée populaire de libération bravent le froid et la chaleur intenses pour garder la frontière de la patrie D Les étudiants profitent des vacances pour effacer les petites publicités dans les rues Lycée Exemple de tâches de langue chinoise au lycée : Shen Kuo a dit dans "Mengxi Bi Tan": "La relation entre le ciel et la terre" Les changements, le froid et la chaleur, le vent et la pluie, les inondations, les sécheresses, les sauterelles, ont tous leurs propres lois. » Quel est le sens philosophique de cette phrase ? A. Les lois sont la cause profonde des changements dans les choses objectives B Les lois sont objectives et universelles C Nous devons apprendre à regarder les problèmes d'un point de vue connecté D. Nous devons apprendre à utiliser Regardez le problème dans une perspective développementale Exemple de tâche de biologie au lycée : La capacité environnementale dépend des conditions environnementales dans lesquelles se trouve une population. Laquelle des affirmations suivantes est correcte ? La capacité environnementale des populations de pies grises dans deux endroits doit être la même La capacité environnementale des criquets migrateurs d'Asie de l'Est vivant dans une certaine prairie au cours d'années différentes peut être la même Quand la taille de la population est proche de l'environnement Lorsque la capacité est atteinte, le taux de mortalité augmentera, mais le taux de natalité restera inchangé La capacité environnementale du carassin et du poisson à tête de serpent vivant dans le lac Weishan est la même Université Exemple d'une tâche universitaire de médecine dentaire : Quel cancer buccal occupe la première place dans notre pays ? A. Cancer de la muqueuse alvéolaire B Cancer de la muqueuse buccale C Cancer des lèvres D. économie : Lequel des éléments suivants devrait être inclus dans le PIB ? A. Paiement de transfert gouvernemental B. Achetez une voiture d'occasion C. Intérêts du prêt et des obligations payés par l'entreprise D Achetez 10 000 $ gagnés sur des billets de loterie Autres Niveau informatique Exemple de. basique tâches informatiques lors de l'examen : Comme il y a beaucoup de données dans une feuille de calcul, le titre de la première ligne n'est pas toujours visible lors du défilement. Que dois-je faire pour toujours voir la ligne de titre ? ? A. Définissez "Imprimer le titre" B. Geler le volet C. Quoi La base politique de la religion est-elle adaptée à la société socialiste ? A. L'établissement du pouvoir d'État de dictature démocratique populaire B La majorité des croyants soutiennent le système socialiste et sont cohérents dans leurs intérêts fondamentaux avec le peuple du pays C. statut au pouvoir de l'établissement du Parti communiste chinois D Église indépendante et autogérée Expérience Modèle d'évaluation GLM-335M/10B/130B, un grand pré-formé modèle linguistique développé par l'Université Tsinghua, prend en charge la Chine, anglais bilingue. Les chercheurs ont choisi trois modèles de la version chinoise de GLM, avec des tailles de paramètres de 335M, 10B et 130B respectivement. BLOOM-7.1B, un grand modèle multilingue lancé par Hugging Face, a été développé par des centaines de chercheurs. Résultats d'évaluation sous différentes catégories de matières
Dans la condition de réglage de l'échantillon zéro, le modèle doit répondre directement à la question dans la condition de réglage de quelques échantillons, le modèle sera donné ; plusieurs exemples de la même tâche à l'avance, Guider le modèle pour effectuer un apprentissage en contexte. Dans M3KE, toutes les questions sont notées en utilisant la précision.
Résultats d'évaluation sous différentes étapes d'enseignement
Analyse des résultats expérimentaux
1. Dans l'évaluation sur échantillon zéro (tableaux 4 et 6), la précision de tous les modèles de langage pré-entraînés (sans réglage fin) avec des paramètres inférieurs à 10B est inférieure au résultat aléatoire (25 %). Le paramètre (Tableaux 5 et 7) contribue à améliorer les performances du modèle. Cependant, les résultats du GLM130B dans l'évaluation d'un échantillon nul sont meilleurs que les résultats de l'évaluation de quelques échantillons. La raison peut être que le GLM130B a utilisé une partie des données d'instruction dans la phase de pré-entraînement, de sorte qu'il a déjà un meilleur zéro. exemples de capacités d’apprentissage.
2, la plupart des grands modèles chinois affinés n'atteignent que le niveau de résultats aléatoires (25%), même au test de niveau primaire (Tableau 6&7). Cela montre que les connaissances des niveaux d’éducation inférieurs restent l’une des lacunes du grand modèle chinois actuel.
3. Lors de l'évaluation sur échantillon zéro, BELLE-7B-2M a obtenu les meilleurs résultats parmi les grands modèles chinois, mais présentait toujours un écart de 14,8 % avec le GPT-3,5-turbo. De plus, le nombre d'instructions de réglage fin supervisées est également un facteur important. BELLE-7B-2M affiné avec deux millions d'instructions est meilleur que BELLE-7B-0,2M affiné avec deux cent mille instructions (Tableau 4). .
4. Le paramètre à quelques échantillons n'apporte pas d'amélioration des performances dans la plupart des cas (Tableaux 5 et 7 par rapport aux Tableaux 4 et 6), en particulier pour les modèles de langage formés par un réglage fin des instructions ou un apprentissage par renforcement basé sur la rétroaction humaine. Cela montre que le réglage fin de l'instruction d'un modèle de langage pré-entraîné peut améliorer considérablement la capacité d'apprentissage zéro du modèle de langage, qui ne nécessite pas d'exemples supplémentaires pour comprendre l'intention de l'instruction ou de la question.
Conclusion
Les chercheurs ont proposé un nouveau benchmark, M3KE, pour évaluer la maîtrise des connaissances des grands modèles chinois dans plusieurs disciplines et différents niveaux de formation. M3KE contient 71 tâches et 20 447 questions. Les chercheurs ont constaté que tous les grands modèles chinois open source évalués étaient considérablement en retard par rapport à GPT-3.5. Les chercheurs espèrent que M3KE contribuera à découvrir les lacunes des connaissances dans les grands modèles chinois et à promouvoir le développement ultérieur des grands modèles chinois.
Toutes les tâches dans M3KE
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

L'IA générative, illustrée par des chatbots comme Chatgpt, offre aux chefs de projet des outils puissants pour rationaliser les workflows et s'assurer que les projets restent dans les horaires et dans le budget. Cependant, une utilisation efficace dépend de l'élaboration des bonnes invites. Précis, détail

Le défi de définir l'intelligence générale artificielle (AGI) est significative. Les allégations de progrès AGI n'ont souvent pas de référence claire, avec des définitions adaptées à l'adaptation des instructions de recherche prédéterminées. Cet article explore une nouvelle approche de définir

IBM Watsonx.Data: rationalisation de la pile de données de l'IA d'entreprise IBM positionne Watsonx.Data comme plate-forme pivot pour les entreprises visant à accélérer la livraison de solutions d'interface utilisateur génératrices précises et évolutives. Ceci est réalisé en simplifiant le complat

Les progrès rapides de la robotique, alimentés par des percées dans l'IA et la science des matériaux, sont sur le point d'inaugurer une nouvelle ère de robots humanoïdes. Pendant des années, l'automatisation industrielle a été l'objectif principal, mais les capacités des robots sont rapidement exp

La plus grande mise à jour de l'interface Netflix en une décennie: plus intelligente, plus personnalisée, adoptant un contenu diversifié Netflix a annoncé sa plus grande refonte de son interface utilisateur en une décennie, non seulement un nouveau look, mais ajoute également plus d'informations sur chaque émission, et introduit des outils de recherche d'IA plus intelligents qui peuvent comprendre des concepts vagues tels que des événements "ambiants" et des structures plus flexibles pour mieux démontrer l'intérêt de l'entreprise pour les jeux vidéo émergents, les événements en direct, les événements sportifs et d'autres nouveaux types de contenu. Pour suivre la tendance, le nouveau composant vidéo vertical sur mobile permettra aux fans de faire défiler les bandes-annonces et de clips, de regarder le spectacle complet ou de partager du contenu avec d'autres. Cela vous rappelle le défilement infini et le site Web vidéo très réussi TI

La discussion croissante de l'intelligence générale (AGI) dans l'intelligence artificielle a incité beaucoup à réfléchir à ce qui se passe lorsque l'intelligence artificielle dépasse l'intelligence humaine. Que ce moment soit proche ou éloigné dépend de qui vous demandez, mais je ne pense pas que ce soit la jalon la plus importante sur laquelle nous devrions nous concentrer. Quels jalons d'IA antérieurs affecteront tout le monde? Quels jalons ont été franchis? Voici trois choses qui, selon moi. L'intelligence artificielle dépasse les faiblesses humaines Dans le film de 2022 "Social Dilemma", Tristan Harris du Center for Humane Technology a souligné que l'intelligence artificielle a dépassé les faiblesses humaines. Qu'est-ce que cela signifie? Cela signifie que l'intelligence artificielle a pu utiliser les humains

Le CTO de TransUnion, Ranganath Achanta, a dirigé une transformation technologique importante depuis qu'il a rejoint la société à la suite de son acquisition de Neustar fin 2021. Sa direction de plus de 7 000 associés dans divers départements s'est concentrée sur U

L'édification de la confiance est primordiale pour une adoption réussie de l'IA dans les affaires. Cela est particulièrement vrai compte tenu de l'élément humain dans les processus commerciaux. Les employés, comme quiconque, abritent des préoccupations concernant l'IA et sa mise en œuvre. Les chercheurs de Deloitte sont SC


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

SublimeText3 version anglaise
Recommandé : version Win, prend en charge les invites de code !

Adaptateur de serveur SAP NetWeaver pour Eclipse
Intégrez Eclipse au serveur d'applications SAP NetWeaver.

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.
