Maison  >  Article  >  Périphériques technologiques  >  Les benchmarks pour noter les grands modèles sont-ils fiables ? Anthropic vient pour une grande évaluation

Les benchmarks pour noter les grands modèles sont-ils fiables ? Anthropic vient pour une grande évaluation

PHPz
PHPzavant
2023-11-06 12:13:081073parcourir

Avec la prévalence des grands modèles (LLM), l'évaluation des systèmes d'IA est devenue un élément important. Quelles difficultés seront rencontrées lors du processus d'évaluation ? Un article d'Anthropic nous révèle la réponse.

À ce stade, la plupart des discussions autour de l'impact de l'intelligence artificielle (IA) sur la société peuvent être attribuées à certaines propriétés des systèmes d'IA, telles que l'authenticité, l'équité, le potentiel d'abus, etc. Mais le problème est désormais que de nombreux chercheurs ne réalisent pas pleinement à quel point il est difficile de construire des évaluations de modèles robustes et fiables. De nombreux kits d'évaluation existants aujourd'hui ont des performances limitées à divers égards.

La startup d'IA Anthropic a récemment publié un article « Les défis liés à l'évaluation des systèmes d'IA » sur son site officiel. L'article écrit qu'ils ont passé beaucoup de temps à construire une évaluation du système d'IA pour mieux comprendre le système d'IA.

Les benchmarks pour noter les grands modèles sont-ils fiables ? Anthropic vient pour une grande évaluation

Adresse de l'article : https://www.anthropic.com/index/evaluating-ai-systems

Cet article aborde principalement les aspects suivants :

  • Utiliser des évaluations à choix multiples ; des cadres d'évaluation de parties tels que BIG-bench et HELM ;

  • Laisser le personnel mesurer si les modèles sont utiles ou nuisibles

  • Laisser les experts du domaine effectuer une analyse par l'équipe rouge des menaces pertinentes (red team) ; L'IA pour développer des méthodes d'évaluation ;

  • Travailler avec des organisations à but non lucratif pour examiner les modèles de préjudice.

  • Les défis de l'évaluation à choix multiples
  • L'évaluation à choix multiples peut sembler simple, mais ce n'est pas le cas. Cet article aborde les défis du modèle sur les benchmarks MMLU (Measuring Multitask Language Understanding) et BBQ (Bias Benchmark for QA).

Ensemble de données MMLU

MMLU est un ensemble de données d'évaluation en anglais contenant 57 tâches de questions et réponses à choix multiples, couvrant les mathématiques, l'histoire, le droit, etc., et est actuellement l'ensemble de données d'évaluation LLM principal. Plus la précision est élevée, plus la capacité du modèle est forte. Cependant, cet article a révélé que l'utilisation de MMLU présente quatre défis :

1 Étant donné que MMLU est largement utilisé, cette situation est inévitable et il est plus facile pour le modèle d'incorporer les données MMLU pendant le processus de formation. C’est la même chose que lorsque les étudiants voient des questions avant de passer un test : c’est de la triche.

2. Sensible aux changements de formatage simples, tels que le changement de l'option de (A) à (1) ou l'ajout d'espaces supplémentaires entre l'option et la réponse. Ces pratiques peuvent entraîner une fluctuation de la précision de l'évaluation d'environ 5 %. 3. Certains développeurs ont ciblé des moyens d'améliorer les scores MMLU, comme l'apprentissage en quelques étapes ou le raisonnement en chaîne de pensée. Par conséquent, il faut faire très attention lors de la comparaison des scores MMLU entre les laboratoires.

4.MMLU n'a peut-être pas été soigneusement relu - certains chercheurs ont trouvé des exemples d'erreurs d'étiquette ou de questions sans réponse dans MMLU.

En raison des problèmes ci-dessus, il est nécessaire de faire preuve de jugement et de réfléchir à l'avance lors de la réalisation de cette évaluation simple et standardisée. Cet article démontre que les défis rencontrés lors de l’utilisation de MMLU s’appliquent généralement à d’autres évaluations à choix multiples similaires.

BBQ

Les évaluations à choix multiples peuvent également mesurer certains dangers de l'IA. Plus précisément, pour mesurer ces dangers dans leur propre modèle, Claude, les chercheurs d'Anthropic ont utilisé le benchmark BBQ, un benchmark commun utilisé pour évaluer les biais du modèle par rapport aux populations. Après avoir comparé ce benchmark à plusieurs évaluations similaires, cet article est convaincu que le BBQ fournit une bonne mesure des préjugés sociaux. Les travaux leur ont pris plusieurs mois.

Cet article indique que la mise en œuvre du BBQ est beaucoup plus difficile que prévu. La première était qu'une implémentation open source fonctionnelle de BBQ n'avait pas pu être trouvée, et il a fallu une semaine aux meilleurs ingénieurs d'Anthropic pour effectuer et tester l'évaluation. Contrairement au MMLU, qui est évalué en termes d'exactitude, les scores de biais dans BBQ nécessitent des nuances et de l'expérience pour être définis, calculés et interprétés.

Les scores de biais du barbecue vont de - 1 à 1, où 1 indique un biais stéréotypé significatif, 0 indique l'absence de biais et -1 indique un biais anti-stéréotype significatif. Après la mise en œuvre de BBQ, cet article a révélé que certains modèles avaient un score de biais de 0. Ce résultat rend également les chercheurs optimistes, indiquant qu'ils ont progressé dans la réduction des résultats biaisés du modèle.

Cadre d'évaluation par des tiers

Récemment, des tiers ont activement développé des suites d'évaluation. Anthropic a jusqu’à présent participé à deux de ces projets : BIG-bench et HELM (Holistic Evaluation of Language Models) de l’Université de Stanford. Même si les évaluations par des tiers semblent utiles, les deux projets sont confrontés à de nouveaux défis.

BIG-bench

BIG-bench se compose de 204 évaluations, réalisées en collaboration par plus de 450 chercheurs, couvrant une gamme de sujets allant de la science au raisonnement social. Anthropic a déclaré avoir rencontré certains défis lors de l'utilisation de ce benchmark : pour installer BIG-bench, ils ont passé beaucoup de temps. BIG-bench n'est pas aussi plug-and-play que MMLU - sa mise en œuvre demande encore plus d'efforts que l'utilisation de BBQ.

BIG-bench ne peut pas évoluer efficacement et il est très difficile de réaliser les 204 évaluations. Par conséquent, il doit être réécrit pour fonctionner correctement avec l’infrastructure utilisée, ce qui représente une charge de travail énorme.

De plus, au cours du processus de mise en œuvre, cet article a révélé qu'il y avait des bugs dans l'évaluation, qui étaient très gênants à utiliser, les chercheurs d'Anthropic l'ont donc abandonné après cette expérience.

HELM : organiser un ensemble d'évaluations de haut en bas

BIG-bench est un effort « ascendant » où n'importe qui peut soumettre n'importe quelle tâche, qui est ensuite soumise à un examen limité par un groupe d'organisateurs experts. HELM adopte une approche « descendante », les experts décidant des tâches à utiliser pour évaluer le modèle.

Plus précisément, HELM évalue le modèle dans plusieurs scénarios tels que des scénarios d'inférence et des scénarios contenant de fausses informations, en utilisant des indicateurs standard tels que l'exactitude, la robustesse et l'équité. Anthropic fournit aux développeurs HELM un accès API pour exécuter des tests de performance sur leurs modèles.

Par rapport à BIG-bench, HELM présente deux avantages : 1) il ne nécessite pas de travaux d'ingénierie approfondis, 2) on peut compter sur des experts pour sélectionner et interpréter des évaluations spécifiques de haute qualité.

Cependant, HELM apporte également quelques défis. Les méthodes qui fonctionnent pour évaluer d'autres modèles ne fonctionnent pas nécessairement pour les modèles d'Anthropic, et vice versa. Par exemple, la famille de modèles Claude d'Anthropic est formée pour suivre un format de texte spécifique appelé format Humain/Assistant. Anthropic suit ce format spécifique en interne lors de l'évaluation de ses modèles. Si ce format n'est pas suivi, Claude donnera parfois des réponses inhabituelles, rendant les résultats des mesures d'évaluation standards moins crédibles.

De plus, HELM prend beaucoup de temps, et l'évaluation de nouveaux modèles peut prendre des mois et nécessite une coordination et une communication avec des parties externes.

Les systèmes d'intelligence artificielle sont conçus pour une interaction ouverte et dynamique avec les personnes, alors comment évaluer le modèle au plus près des applications réelles ?

Tests A/B par des personnes issues du crowdsourcing

Actuellement, le domaine repose principalement (mais pas exclusivement) sur un type fondamental d'évaluation humaine : les tests A/B sur une plateforme de crowdsourcing, où les gens interagissent à deux. Ayez un dialogue ouvert avec des modèles et choisissez si la réponse est plus utile ou inoffensive par rapport au modèle A ou B, en classant les modèles en fonction de leur utilité ou de leur innocuité. L’avantage de cette méthode d’évaluation est qu’elle correspond à des environnements réels et permet de classer différents modèles.

Cependant, cette méthode d'évaluation présente certaines limites et les expériences sont coûteuses et longues à réaliser.

Tout d'abord, cette approche nécessite de s'associer et de payer pour une plateforme de crowdsourcing tierce, de créer une interface Web personnalisée pour le modèle, de concevoir des instructions détaillées pour les testeurs A/B, d'analyser et de stocker les données résultantes et de résoudre les problèmes d'embauche. Défis éthiques posées par les travailleurs du crowdsourcing.

Dans le cas de tests inoffensifs, les expériences comportent également le risque d'exposer les personnes à des résultats nocifs. Les résultats des évaluations humaines peuvent également varier considérablement en fonction des caractéristiques de l'évaluateur humain, notamment de son niveau de créativité, de sa motivation et de sa capacité à identifier les failles potentielles du système testé.

De plus, il existe une tension inhérente entre l’utile et l’inoffensif. Le système peut le rendre moins nuisible en fournissant des réponses inutiles telles que « Désolé, je ne peux pas vous aider ».

Quel est le juste équilibre entre utile et inoffensif ? Quelle valeur d'indicateur indique que le modèle est suffisamment utile et inoffensif ? De nombreuses questions nécessitent que les chercheurs du domaine redoublent d’efforts pour trouver des réponses.

Pour plus d'informations, veuillez vous référer à l'article original.

Lien original : https://www.anthropic.com/index/evaluating-ai-systems

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer