Maison >Périphériques technologiques >IA >OpenAI renforce son équipe de sécurité, en lui permettant d'opposer son veto aux IA dangereuses

OpenAI renforce son équipe de sécurité, en lui permettant d'opposer son veto aux IA dangereuses

WBOY
WBOYavant
2023-12-19 17:30:411323parcourir

Les modèles en production sont gérés par l'équipe "Systèmes de Sécurité". Les modèles de pointe en développement disposent d’équipes de « préparation » qui identifient et quantifient les risques avant la publication du modèle. Ensuite, il y a l’équipe « Super Alignement », qui travaille sur des lignes directrices théoriques pour les modèles de « super intelligence »

Restructurer le groupe consultatif sur la sécurité pour qu'il siège au-dessus de l'équipe technique afin de faire des recommandations à la direction et de donner au conseil d'administration un pouvoir de veto

OpenAI a annoncé que afin de se défendre contre la menace d'une intelligence artificielle nuisible, ils renforcent leurs processus de sécurité interne. Ils créeront un nouveau département appelé « Groupe consultatif sur la sécurité », qui siègera au-dessus de l'équipe technologique et fournira des conseils aux dirigeants et disposera d'un droit de veto au conseil d'administration. Cette décision a été annoncée le 18 décembre, heure locale

La mise à jour suscite des inquiétudes principalement parce que le PDG d'OpenAI, Sam Altman, a été licencié par le conseil d'administration, ce qui semble être lié à des problèmes de sécurité avec les grands modèles. Deux membres « ralentis » du conseil d’administration d’OpenAI, Ilya Sutskvi et Helen Toner, ont perdu leur siège au conseil d’administration à la suite d’un remaniement de haut niveau

Dans cet article, OpenAI discute de son dernier « Cadre de préparation », comment OpenAI suit, évalue, prédit et se protège contre les risques catastrophiques posés par des modèles de plus en plus puissants. Quelle est la définition du risque catastrophique ? OpenAI explique : « Ce que nous appelons les risques catastrophiques fait référence aux risques qui peuvent entraîner des centaines de milliards de dollars de pertes économiques ou causer des blessures graves, voire la mort de nombreuses personnes. Cela inclut également, mais sans s'y limiter, les risques existentiels. »

OpenAI renforce son équipe de sécurité, en lui permettant dopposer son veto aux IA dangereuses

Il existe trois groupes d'équipes de sécurité couvrant différentes périodes et risques

Selon le site officiel d'OpenAI, les modèles en production sont gérés par l'équipe "Security System". Durant la phase de développement, il existe une équipe appelée « préparation » qui identifie et évalue les risques avant la sortie du modèle. De plus, il existe une équipe appelée "superalignment" qui travaille sur des lignes directrices théoriques pour les modèles "superintelligents"

L'équipe OpenAI évaluera chaque modèle selon quatre catégories de risques : cybersécurité, pouvoir de persuasion (comme la désinformation), autonomie du modèle (la capacité d'agir de manière autonome) et CBRN (menaces chimiques, biologiques, radiologiques et nucléaires, comme la capacité de créer de nouveaux agents pathogènes)

OpenAI prend en compte diverses atténuations dans ses hypothèses : par exemple, le modèle maintient des réserves raisonnables sur la description du processus de fabrication du napalm ou des bombes artisanales. Après prise en compte des atténuations connues, si un modèle est toujours évalué comme présentant un risque « élevé », il ne sera pas déployé, et si un modèle présente des risques « critiques », il ne sera pas développé davantage

Tous ceux qui créent un modèle ne sont pas les mieux placés pour l'évaluer et faire des recommandations. Pour cette raison, OpenAI crée une équipe appelée « Groupe consultatif de sécurité interfonctionnel » qui examinera les rapports des chercheurs d'un niveau technique et formulera des recommandations d'un point de vue plus élevé, dans l'espoir de découvrir des « inconnues inconnues »

.

Ce processus nécessite que ces recommandations soient envoyées à la fois au conseil d'administration et à la direction, qui décideront de poursuivre ou de cesser les activités, mais le conseil d'administration a le droit d'annuler ces décisions. Cela évite que des produits ou des processus à haut risque soient approuvés à l’insu du conseil d’administration

Cependant, le monde extérieur s’inquiète toujours du fait que si le groupe d’experts fait des recommandations et que le PDG prend des décisions sur la base de ces informations, le conseil d’administration d’OpenAI a-t-il vraiment le droit de réfuter et d’agir ? S’ils le faisaient, le public en entendrait-il parler ? Actuellement, hormis la promesse d’OpenAI de solliciter des audits tiers indépendants, leurs problèmes de transparence n’ont pas vraiment été résolus

Le « cadre de préparation » d'OpenAI contient les cinq éléments clés suivants :

1. Évaluation et notation

Nous évaluerons notre modèle et mettrons continuellement à jour notre « scorecard ». Nous évaluerons tous les modèles de pointe, notamment en triplant le calcul efficace pendant la formation. Nous repousserons les limites du modèle. Ces résultats nous aideront à évaluer les risques des derniers modèles et à mesurer l’efficacité de toutes les mesures d’atténuation proposées. Notre objectif est de détecter les insécurités spécifiques à la périphérie afin d’atténuer efficacement les risques. Pour suivre le niveau de sécurité de nos modèles, nous produirons des « tableaux de bord » des risques et des rapports détaillés

OpenAI renforce son équipe de sécurité, en lui permettant dopposer son veto aux IA dangereuses

Pour évaluer tous les modèles de pointe, une « scorecard » est requise

Le but de la définition de seuils de risque est d'avoir une limite claire lors de la prise de décision et de la gestion des risques. Le seuil de risque fait référence au niveau maximum de risque qu'une organisation ou un individu est prêt à supporter dans des circonstances spécifiques. En définissant des seuils de risque, vous pouvez aider une organisation ou un individu à identifier quand une action est nécessaire pour atténuer ou éviter un risque. La définition des seuils de risque doit être basée sur les résultats de l’évaluation des risques, les réglementations et politiques pertinentes et la tolérance au risque de l’organisation ou de l’individu. Lors de la définition des seuils de risque, les caractéristiques et l’impact des différents types de risques doivent être pris en compte pour garantir l’efficacité et l’applicabilité des mesures de gestion des risques. Enfin, les seuils de risque fixés doivent être régulièrement évalués et ajustés pour rester cohérents avec les objectifs de gestion des risques de l’organisation ou de l’individu

Nous fixerons des seuils de risque qui déclenchent des mesures de sécurité. Nous fixons des seuils de niveaux de risque en fonction des catégories de suivi préliminaires suivantes : cybersécurité, CBRN (menaces chimiques, biologiques, radiologiques, nucléaires), persuasion et autonomie du modèle. Nous spécifions quatre niveaux de risque de sécurité, et seuls les modèles avec un score post-atténuation de « moyen » ou inférieur peuvent être déployés ; seuls les modèles avec un score post-atténuation « élevé » ou inférieur peuvent être développés davantage. Pour les modèles présentant des risques élevés ou graves (pré-atténuation), nous mettrons également en œuvre des mesures de sécurité supplémentaires

OpenAI renforce son équipe de sécurité, en lui permettant dopposer son veto aux IA dangereuses

Niveau de danger

Réinitialiser la structure opérationnelle de suivi des travaux techniques et de prise de décision en matière de sécurité

Nous mettrons en place une équipe dédiée pour superviser le travail technique et la structure opérationnelle des décisions de sécurité. L’équipe de préparation dirigera le travail technique pour examiner les limites des capacités des modèles de pointe et réalisera des évaluations et des rapports complets. Ce travail technique est essentiel aux décisions de développement et de déploiement des modèles de sécurité OpenAI. Nous créons un groupe consultatif interfonctionnel sur la sécurité pour examiner tous les rapports et les envoyer à la direction et au conseil d'administration. Bien que la direction soit le décideur, le conseil d'administration a le pouvoir d'annuler les décisions

OpenAI renforce son équipe de sécurité, en lui permettant dopposer son veto aux IA dangereuses

Superviser les nouveaux changements dans le travail technique et la structure opérationnelle de prise de décision en matière de sécurité

Améliorer la sécurité et renforcer la responsabilité externe

Nous élaborerons des protocoles pour améliorer la sécurité et la responsabilité externe. Nous organiserons régulièrement des exercices de sécurité pour tester notre entreprise et notre propre culture. Certains problèmes de sécurité peuvent survenir rapidement, nous avons donc la possibilité de signaler les problèmes urgents pour une réponse rapide. Nous pensons qu'il est utile d'obtenir des commentaires de personnes extérieures à OpenAI et de les faire examiner par un tiers qualifié et indépendant. Nous continuerons à demander à d'autres personnes de former des équipes rouges et d'évaluer nos modèles, et nous prévoyons de partager les mises à jour en externe

Réduire les autres risques de sécurité connus et inconnus :

Nous contribuerons à atténuer d’autres risques de sécurité connus et inconnus. Nous travaillerons en étroite collaboration avec des parties externes ainsi qu'en interne avec des équipes telles que les systèmes de sécurité pour suivre les abus dans le monde réel. Nous travaillerons également avec Super Alignment pour suivre les risques urgents de désalignement. Nous sommes également pionniers en matière de recherche pour mesurer l'évolution du risque à mesure que les modèles évoluent et aider à prédire le risque à l'avance, à l'instar de notre succès antérieur avec la loi d'échelle. Enfin, nous aurons un processus continu pour tenter de résoudre toute « inconnue » émergente

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer