recherche
MaisonPériphériques technologiquesIALorsque vous soumettez votre article à Nature, renseignez-vous d'abord sur GPT-4 ! Stanford a en fait testé 5 000 articles, et la moitié des opinions étaient les mêmes que celles des évaluateurs humains.

GPT-4 est-il capable de révision papier ?

Des chercheurs de Stanford et d’autres universités l’ont testé.

Ils ont donné à GPT-4 des milliers d'articles provenant de grandes conférences telles que Nature et ICLR, l'ont laissé générer des avis de révision (y compris des suggestions de modifications, etc.) , puis les ont comparés aux opinions données par les humains.

Après enquête, nous avons constaté que :

Plus de 50 % des avis proposés par GPT-4 sont cohérents avec au moins un évaluateur humain 

Et plus de 82,4 % des auteurs ont constaté que ; les avis fournis par GPT-4 Très utiles

Quelles informations cette recherche peut-elle nous apporter ?

La conclusion est la suivante :

Il n'y a toujours pas de substitut à un retour humain de haute qualité ; mais GPT-4 peut aider les auteurs à améliorer leurs premières ébauches avant un examen formel par les pairs.

Lorsque vous soumettez votre article à Nature, renseignez-vous dabord sur GPT-4 ! Stanford a en fait testé 5 000 articles, et la moitié des opinions étaient les mêmes que celles des évaluateurs humains.

Regardez-le spécifiquement.

Test réel du niveau de révision des articles GPT-4

Pour prouver le potentiel de GPT-4, les chercheurs ont d'abord créé un

pipeline automatique utilisant GPT-4.

Il peut analyser l'intégralité de l'article au format PDF, extraire des titres, des résumés, des figures, des titres de tableaux et d'autres contenus pour créer des invites

, puis laisser GPT-4 fournir des commentaires de révision.

Parmi eux, les avis sont les mêmes que les standards de chaque grande conférence, et comprennent quatre parties :

L'importance et la nouveauté de la recherche, ainsi que les raisons d'une éventuelle acceptation ou rejet et des suggestions d'amélioration

Lorsque vous soumettez votre article à Nature, renseignez-vous dabord sur GPT-4 ! Stanford a en fait testé 5 000 articles, et la moitié des opinions étaient les mêmes que celles des évaluateurs humains.

Les expériences spécifiques proviennent de

Deux aspects se dévoilent.

La première est l'expérience quantitative :

Lisez les articles existants, générez des commentaires et comparez systématiquement avec de vraies opinions humaines pour découvrir le chevauchement

Ici, l'équipe a collecté des données du journal principal Nature et des sous-titres majeurs. -journaux 3096 articles ont été sélectionnés, 1709 articles ont été sélectionnés lors de la conférence ICLR Machine Learning

(y compris l'année dernière et cette année) , pour un total de 4805 articles.

Parmi eux, les articles Nature impliquaient un total de 8 745 commentaires d'examen humain ; les conférences ICLR impliquaient 6 506 commentaires.

Lorsque vous soumettez votre article à Nature, renseignez-vous dabord sur GPT-4 ! Stanford a en fait testé 5 000 articles, et la moitié des opinions étaient les mêmes que celles des évaluateurs humains.

Une fois que GPT-4 a donné son avis, le pipeline extrait les arguments humains et GPT-4 dans le lien de correspondance, puis effectue une correspondance sémantique de texte pour trouver des arguments qui se chevauchent afin de mesurer l'efficacité et la fiabilité des opinions GPT-4.

Les résultats sont :

1. Les opinions GPT-4 recoupent de manière significative les opinions réelles des évaluateurs humains

Dans l'ensemble, dans les articles Nature, 57,55 % des opinions GPT-4 sont cohérentes avec au moins un évaluateur humain ; ICLR, ce chiffre atteint 77,18 %.

Lorsque vous soumettez votre article à Nature, renseignez-vous dabord sur GPT-4 ! Stanford a en fait testé 5 000 articles, et la moitié des opinions étaient les mêmes que celles des évaluateurs humains.

Après avoir soigneusement comparé GPT-4 avec les opinions de chaque évaluateur, l'équipe a constaté que :

Le taux de chevauchement de GPT-4 avec les évaluateurs humains sur les articles Nature est tombé à 30,85 % et sur ICLR est tombé à 39,23. %.

Cependant, cela est comparable au taux de chevauchement entre deux évaluateurs humains

Dans les articles Nature, le taux de chevauchement moyen pour les humains est de 28,58 % ; sur ICLR, il est de 35,25 %

Lorsque vous soumettez votre article à Nature, renseignez-vous dabord sur GPT-4 ! Stanford a en fait testé 5 000 articles, et la moitié des opinions étaient les mêmes que celles des évaluateurs humains.

De plus, ils ont également analysé la note. niveau de l'article (oral, vedette ou directement rejeté) et a constaté que :

Pour les articles avec des notes plus faibles, le taux de chevauchement entre GPT-4 et les évaluateurs humains devrait augmenter. De plus de 30 % actuellement, il peut être augmenté à près de 50 %

Cela montre que GPT-4 a une grande capacité de discrimination et peut identifier les articles de mauvaise qualité

L'auteur a également déclaré que ceux qui nécessitent des modifications plus substantielles peuvent Heureusement pour les articles acceptés, tout le monde peut essayer les suggestions de révision données par GPT-4 avant de les soumettre officiellement.

2. GPT-4 peut fournir des commentaires non universels

Les commentaires dits non universels signifient que GPT-4 ne donnera pas d'avis d'évaluation universel qui s'applique à plusieurs articles.

Ici, les auteurs ont mesuré une métrique de « taux de chevauchement par paire » et ont constaté qu'elle était significativement réduite à 0,43 % et 3,91 % à la fois sur Nature et ICLR.

Cela montre que GPT-4 a des objectifs spécifiques

3 Il peut parvenir à un accord avec les opinions humaines sur des questions majeures et universelles

.

De manière générale, les commentaires qui apparaissent les plus tôt et sont mentionnés par plusieurs évaluateurs représentent souvent des problèmes importants et courants

Ici, l'équipe a également constaté que LLM est plus susceptible d'identifier les problèmes communs qui sont unanimement reconnus par plusieurs évaluateurs. Problèmes ou défauts

.

GPT-4 fonctionne globalement bien

4. Les avis donnés par GPT-4 mettent l'accent sur certains aspects qui sont différents de ceux des humains

L'étude a révélé que la fréquence des commentaires de GPT-4 sur le sens de la recherche elle-même est humaine. 7,27 fois plus susceptibles que les humains de commenter la nouveauté de la recherche.

GPT-4 et les humains recommandent souvent des expériences supplémentaires, mais les humains se concentrent davantage sur les expériences d'ablation, et GPT-4 recommande de l'essayer sur davantage d'ensembles de données.

Les auteurs ont déclaré que ces résultats indiquent que GPT-4 et les évaluateurs humains accordent une importance différente à divers aspects et que la coopération entre les deux peut apporter des avantages potentiels.

Au-delà des expériences quantitatives se trouve la recherche sur les utilisateurs.

Au total, 308 chercheurs dans les domaines de l'IA et de la biologie computationnelle de différentes institutions ont participé à cette étude. Ils ont téléchargé leurs articles sur GPT-4 pour examen

L'équipe de recherche a recueilli leurs véritables commentaires sur les commentaires de l'examen GPT-4.

Lorsque vous soumettez votre article à Nature, renseignez-vous dabord sur GPT-4 ! Stanford a en fait testé 5 000 articles, et la moitié des opinions étaient les mêmes que celles des évaluateurs humains.

Dans l'ensemble, plus de la moitié (57,4%)des participants ont estimé que les commentaires générés par GPT-4 étaient très utiles, notamment en donnant certains points auxquels les humains ne penseraient pas.

Et 82,4 % des personnes interrogées l'ont trouvé plus bénéfique qu'au moins certains commentaires d'évaluateurs humains.

De plus, plus de la moitié (50,5 %) ont exprimé leur volonté d'utiliser davantage de grands modèles tels que GPT-4 pour améliorer le papier.

L'un d'eux a déclaré qu'il ne fallait que 5 minutes à GPT-4 pour donner les résultats. Ce retour d'information est très rapide et est très utile aux chercheurs pour améliorer leurs articles.

Bien sûr, l'auteur souligne :

Les capacités de GPT-4 ont également certaines limites

La plus évidente est qu'il se concentre davantage sur la « présentation globale » et manque de suggestions approfondies dans des domaines techniques spécifiques ( comme l'architecture modèle) .

Ainsi, comme l'indique la conclusion finale de l'auteur :

Les commentaires de haute qualité des évaluateurs humains sont très importants avant l'examen formel, mais nous pouvons d'abord tâter le terrain pour compenser les détails tels que les expériences et la construction qui peuvent être en cas de problème. omission

Bien sûr, ils rappellent également :

Lors de l'évaluation formelle, les évaluateurs doivent toujours participer de manière indépendante et ne s'appuyer sur aucun LLM.

Tous les auteurs sont chinois

Cette étude Il y a trois auteurs, tous chinois, et tous issus de la School of Computer Science de l'Université de Stanford.

Lorsque vous soumettez votre article à Nature, renseignez-vous dabord sur GPT-4 ! Stanford a en fait testé 5 000 articles, et la moitié des opinions étaient les mêmes que celles des évaluateurs humains.

Il s'agit de :

  • Liang Weixin, doctorant à l'école et membre du Stanford AI Laboratory (SAIL) . Il est titulaire d'une maîtrise en génie électrique de l'Université de Stanford et d'une licence en informatique de l'Université du Zhejiang.
  • Yuhui Zhang, également doctorant, effectue des recherches sur les systèmes d'IA multimodaux. Diplômé d'un baccalauréat de l'Université Tsinghua et d'une maîtrise de Stanford.
  • Cao Hancheng est doctorant en cinquième année à l'école, avec une spécialisation en sciences de gestion et en ingénierie. Il a également rejoint les groupes PNL et HCI de l'Université de Stanford. Précédemment diplômé du Département de génie électronique de l'Université Tsinghua avec un baccalauréat.

Lien papier : https://arxiv.org/abs/2310.01783

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Gemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAGemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAApr 17, 2025 am 11:55 AM

Explorer le fonctionnement interne des modèles de langue avec Gemma Scope Comprendre les complexités des modèles de langue IA est un défi important. La sortie de Google de Gemma Scope, une boîte à outils complète, offre aux chercheurs un moyen puissant de plonger

Qui est un analyste de Business Intelligence et comment en devenir un?Qui est un analyste de Business Intelligence et comment en devenir un?Apr 17, 2025 am 11:44 AM

Déverrouiller le succès de l'entreprise: un guide pour devenir un analyste de Business Intelligence Imaginez transformer les données brutes en informations exploitables qui stimulent la croissance organisationnelle. C'est le pouvoir d'un analyste de Business Intelligence (BI) - un rôle crucial dans GU

Comment ajouter une colonne dans SQL? - Analytique VidhyaComment ajouter une colonne dans SQL? - Analytique VidhyaApr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Analyste d'entreprise vs analyste de donnéesAnalyste d'entreprise vs analyste de donnéesApr 17, 2025 am 11:38 AM

Introduction Imaginez un bureau animé où deux professionnels collaborent sur un projet critique. L'analyste commercial se concentre sur les objectifs de l'entreprise, l'identification des domaines d'amélioration et la garantie d'alignement stratégique sur les tendances du marché. Simulé

Que sont le comte et le coude à Excel? - Analytique VidhyaQue sont le comte et le coude à Excel? - Analytique VidhyaApr 17, 2025 am 11:34 AM

Excel Counting and Analysis: Explication détaillée du nombre et des fonctions de compte Le comptage et l'analyse des données précises sont essentiels dans Excel, en particulier lorsque vous travaillez avec de grands ensembles de données. Excel fournit une variété de fonctions pour y parvenir, les fonctions Count et Count sont des outils clés pour compter le nombre de cellules dans différentes conditions. Bien que les deux fonctions soient utilisées pour compter les cellules, leurs cibles de conception sont ciblées sur différents types de données. Faisons des détails spécifiques du comptage et des fonctions de coude, mettons en évidence leurs caractéristiques et différences uniques et apprenez à les appliquer dans l'analyse des données. Aperçu des points clés Comprendre le nombre et le cou

Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Apr 17, 2025 am 11:29 AM

La révolution de l'IA de Google Chrome: une expérience de navigation personnalisée et efficace L'intelligence artificielle (IA) transforme rapidement notre vie quotidienne, et Google Chrome mène la charge dans l'arène de navigation Web. Cet article explore les exciti

Côté humain de l'AI: le bien-être et le quadruple de basCôté humain de l'AI: le bien-être et le quadruple de basApr 17, 2025 am 11:28 AM

Réinventuation d'impact: le quadruple bas Pendant trop longtemps, la conversation a été dominée par une vision étroite de l’impact de l’IA, principalement axée sur le résultat du profit. Cependant, une approche plus holistique reconnaît l'interconnexion de BU

5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaître5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaîtreApr 17, 2025 am 11:24 AM

Les choses évoluent régulièrement vers ce point. L'investissement affluant dans les prestataires de services quantiques et les startups montre que l'industrie comprend son importance. Et un nombre croissant de cas d'utilisation réels émergent pour démontrer sa valeur

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

Version Mac de WebStorm

Version Mac de WebStorm

Outils de développement JavaScript utiles

Navigateur d'examen sécurisé

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

SublimeText3 version anglaise

SublimeText3 version anglaise

Recommandé : version Win, prend en charge les invites de code !

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP