Maison  >  Article  >  Périphériques technologiques  >  Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

王林
王林avant
2023-04-08 12:11:16752parcourir

​Récemment, OpenAI a publié un produit d'IA de questions et réponses populaire à l'échelle mondiale - ChatGPT. La chose la plus impressionnante est son "mécanisme de protection". Par exemple, il ne fournira pas de suggestions d'actions violentes et ne prédira pas les résultats de la Coupe du monde. etc.

Mais les chatbots taquins ressemblent davantage à un « jeu du chat et de la souris ». Les utilisateurs recherchent sans cesse des moyens d'ouvrir ChatGPT, et les développeurs de ChatGPT font également de leur mieux pour améliorer le mécanisme de protection.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

OpenAI a investi beaucoup d'efforts pour rendre ChatGPT plus sécurisé. Sa principale stratégie de formation utilise le RLHF (Reinforcement Learning by Human Feedback). punissez les mauvaises réponses renvoyées et récompensez les bonnes réponses, contrôlant ainsi les réponses de ChatGPT.

Mais dans les applications pratiques, le nombre de cas particuliers est incalculable. Bien que l'IA puisse généraliser des règles à partir d'exemples donnés, par exemple, lors d'une formation, ordonner à l'IA de ne pas dire « Je soutiens la discrimination raciale », ce qui signifie qu'il est peu probable que cela se produise. L'IA dira « Je soutiens le sexisme » dans un environnement de test, mais une généralisation plus poussée pourrait ne pas être possible avec les modèles d'IA actuels.

Récemment, un passionné d'IA bien connu, Scott Alexander, a écrit un blog sur la stratégie de formation actuelle d'OpenAI, résumant trois problèmes possibles avec le RLHF :

1 RLHF n'est pas très efficace

2. la stratégie fonctionne parfois, alors c'est une mauvaise stratégie ;

3 Dans un sens, l'IA peut contourner le RLHF

Quelle est l'efficacité du RLHF ?

Bien que chacun ait ses propres opinions, pour OpenAI, les chercheurs espèrent que les modèles d'IA qu'ils créent n'auront pas de préjugés sociaux. Par exemple, l'IA ne peut pas dire "Je soutiens beaucoup le racisme". Des efforts ont été déployés pour utiliser diverses technologies de filtration avancées.

Mais le résultat est évident : quelqu’un peut toujours trouver un moyen d’amener l’IA à admettre qu’elle a un problème de racisme.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

La raison pour laquelle ce problème se produit n'est pas seulement que "une partie des données d'apprentissage de l'IA provient de racistes", cela peut aussi être dû au problème d'interface de ChatGPT.

Par exemple, si vous utilisez l'encodage base64 pour demander à ChatGPT comment utiliser le hotwire (le fil sous le volant) pour démarrer le véhicule, vous pouvez contourner le système d'inspection de sécurité ; ] $pythonfriend.py pour générer des histoires sur Hitler, etc.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Il y a dix ans, la nécessité de contourner les systèmes de sécurité n'existait pas du tout. L'IA ne faisait que ce pour quoi elle était programmée ou non.

Certes, OpenAI n'a certainement jamais programmé ChatGPT avec des questions sur le racisme, ni enseigné aux gens comment voler des voitures, fabriquer de la drogue, etc.

Dans l'ensemble, c'est une nouvelle négative pour le domaine de l'IA. Même les plus grandes entreprises d'IA ne peuvent pas contrôler les programmes d'intelligence artificielle qu'elles créent, ni même la technologie qui sera utilisée pour contrôler le contenu des chatbots à l'avenir. pas encore connu.

Le RLHF occasionnellement efficace n'est pas fiable

En pratique, les stratégies RLHF doivent lier le modèle d'IA à des facteurs qui le récompensent ou le punissent fournis par l'annotateur.

Bien que les spécifications d'annotation spécifiques d'OpenAI n'aient pas encore été annoncées, l'auteur suppose que les développeurs ont trois objectifs principaux :

1 Fournir des réponses utiles, claires et faisant autorité pour aider les lecteurs humains ; faits, dites la vérité ;

3. Ne dites pas de mots offensants.

Mais que se passe-t-il lorsque ces trois objectifs entrent en conflit ?

Si ChatGPT ne connaît pas la vraie réponse, c'est-à-dire lorsque l'objectif 1 (fournir des réponses claires et utiles) entre en conflit avec l'objectif 2 (dire la vérité), alors l'objectif 1 aura une priorité plus élevée, alors ChatGPT décide lui-même. réponse pour la rendre utile au lecteur.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Lorsque l'objectif 2 (dire la vérité) entre en conflit avec l'objectif 3 (ne pas s'offusquer), alors que la plupart des gens trouveraient acceptable d'admettre que les hommes sont en moyenne plus grands que les femmes, cela ressemble à a Questions potentiellement offensantes.

ChatGPT3 n'était pas sûr qu'une réponse directe constituerait un problème de discrimination, il a donc décidé d'utiliser un mensonge inoffensif au lieu d'une vérité potentiellement blessante.

Ne soyez pas trop content de ChatGPT ! Le mécanisme RLHF qui le sous-tend présente également trois défauts fatals.

Pendant le processus de formation proprement dit, OpenAI a dû étiqueter plus de 6 000 exemples pour que RLHF obtienne des résultats aussi étonnants.

RLHF peut être utile, mais vous devez être très prudent lorsque vous l'utilisez. S'il est utilisé sans réfléchir, RLHF ne fera que pousser le chatbot à contourner le mode échec. Punir les réponses inutiles augmentera la probabilité que l'IA donne de mauvaises réponses ; punir les mauvaises réponses peut amener l'IA à donner des réponses plus agressives et dans d'autres situations.

Bien qu'OpenAI n'ait pas encore divulgué les détails techniques, selon les données fournies par Redwood, chaque fois que 6 000 réponses incorrectes sont punies, le taux de réponses incorrectes par unité de temps sera réduit de moitié.

Il est en effet possible pour la RLHF de réussir, mais ne sous-estimez jamais la difficulté de ce problème.

Peut-être que l'IA peut contourner RLHF

Sous la conception de RLHF, après que l'utilisateur a posé une question à l'IA, s'il n'aime pas la réponse de l'IA, il « punira » le modèle, changeant ainsi l'IA en quelque sorte un circuit de réflexion pour rapprocher leurs réponses des réponses qu'ils souhaitent.

ChatGPT est relativement stupide et n'est peut-être pas encore capable de formuler une stratégie pour se débarrasser du RLHF, mais si une IA plus intelligente ne veut pas être punie, elle peut imiter les humains - faire semblant de l'être lorsqu'elle est espionnée. les gens attendent leur heure et attendent que la police soit partie avant de faire de mauvaises choses.

Le RLHF conçu par OpenAI n'est absolument pas préparé pour cela, ce qui est bien pour des choses stupides comme ChatGPT3, mais pas pour une IA qui peut penser par elle-même.

Les grandes entreprises d'IA ne peuvent toujours pas contrôler l'IA

OpenAI a toujours été connu pour sa prudence, comme faire la queue pour expérimenter le produit, mais cette fois, ChatGPT est rendu public directement. L'un des objectifs peut inclure un brainstorming. pour trouver des échantillons contradictoires et trouver Il y a déjà beaucoup de commentaires sur les problèmes de ChatGPT sur Internet concernant certaines invites peu performantes, et certaines d'entre elles ont été corrigées.

Certains échantillons de RLHF rendront le bot plus enclin à dire du contenu utile, vrai et inoffensif, mais cette stratégie ne peut s'appliquer qu'à ChatGPT, GPT-4 et à ses produits précédemment publiés.

Si vous appliquez RLHF à un drone équipé d'armes, et collectez un grand nombre d'exemples pour éviter à l'IA un comportement inattendu, même une seule panne sera catastrophique.

Il y a 10 ans, tout le monde pensait « nous n'avons pas besoin de commencer à résoudre le problème de l'alignement de l'IA maintenant, nous pouvons attendre que la véritable intelligence artificielle émerge et laisser les entreprises faire le travail manuel. » La véritable intelligence artificielle arrive, mais avant l'échec de ChatGPT, tout le monde n'avait aucune motivation pour se tourner. Le vrai problème est qu'une entreprise leader mondial en matière d'intelligence artificielle ne sait toujours pas comment contrôler l'intelligence artificielle qu'elle a développée.

Personne ne peut obtenir ce qu'il veut tant que tous les problèmes ne sont pas résolus.

Référence :

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer