Maison >Périphériques technologiques >IA >La gestion des données est la clé du développement sain de l'intelligence artificielle générative

La gestion des données est la clé du développement sain de l'intelligence artificielle générative

WBOY
WBOYavant
2023-06-03 23:00:151195parcourir

2023 est devenu le début officiel de l'ère de l'intelligence artificielle, et presque tout le monde parle de ChatGPT. Les modèles de langage d'IA génératifs comme ChatGPT attirent notre attention, nos yeux et notre intérêt, car pour la première fois, nous pouvons voir l'intelligence artificielle converser avec nous comme une personne réelle et générer des articles, des poèmes et d'autres nouveaux contenus que nous trouvons créatifs. Les solutions d’IA générative semblent receler un potentiel révolutionnaire pour une innovation, une productivité et une réalisation de valeur plus rapides et meilleures. Cependant, leurs limites n’ont pas été largement remarquées, et leurs meilleures pratiques en matière de confidentialité et de gestion des données ne sont pas non plus largement comprises.

La gestion des données est la clé du développement sain de lintelligence artificielle générative Récemment, de nombreux membres des communautés de technologie et de sécurité ont tiré la sonnette d'alarme en raison du manque de compréhension et de réglementation adéquate de l'utilisation de la technologie de l'intelligence artificielle. Nous constatons déjà des inquiétudes concernant la fiabilité des résultats des outils d’IA, les fuites de propriété intellectuelle (propriété intellectuelle) et de données sensibles, ainsi que les violations de la vie privée et de la sécurité.

L'incident de Samsung avec ChatGPT a fait la une des journaux après que le géant de la technologie a divulgué par inadvertance ses secrets à l'intelligence artificielle. Samsung n'est pas seul : une étude de Cyberhaven a révélé que 4 % des employés mettent les données sensibles de l'entreprise dans de grands modèles linguistiques. Beaucoup de gens ne savent pas que lorsqu’ils entraînent un modèle sur les données de l’entreprise, l’entreprise d’IA peut être en mesure de réutiliser ces données ailleurs.

La société de renseignement sur la cybersécurité Recorded Future a révélé : « Quelques jours après la sortie de ChatGPT, nous avons découvert un certain nombre d'acteurs menaçants sur le dark web et sur des forums à accès spécial qui partagent des messages imparfaits mais puissants. logiciels malveillants, didacticiels d'ingénierie sociale, programmes lucratifs et bien plus encore, tous rendus possibles grâce à l'utilisation de ChatGPT. Lorsqu'un individu s'inscrit à un outil tel que ChatGPT, il a accès aux adresses IP, aux paramètres du navigateur et au comportement de navigation, un peu comme les moteurs de recherche d'aujourd'hui. Mais les enjeux sont plus importants car "cela pourrait révéler des convictions politiques ou une orientation sexuelle sans le consentement de l'individu et pourrait signifier la divulgation d'informations embarrassantes, voire destructrices de carrière", a déclaré José Blaya, directeur de l'ingénierie chez Private Internet Access.

De toute évidence, nous avons besoin de meilleures réglementations et normes pour mettre en œuvre ces nouvelles technologies d'intelligence artificielle. Cependant, il y a un manque de discussion autour du rôle important de la gouvernance et de la gestion des données – alors que cela joue un rôle clé dans l’adoption par les entreprises et l’utilisation sûre de l’IA. Tout est question de données #

Gouvernance des données et transparence des données de formation : Un problème central concerne les modèles d'IA propriétaires pré-entraînés ou les grands modèles de langage (LLM ). Les programmes d'apprentissage automatique utilisant LLM contiennent de grands ensembles de données provenant de nombreuses sources différentes. Le problème est que LLM est une boîte noire qui offre peu de transparence sur les données sources. Nous ne savons pas si ces sources contiennent des données frauduleuses, contiennent des PII (informations personnellement identifiables), sont dignes de confiance, impartiales, exactes ou légales. LLM R&D ne partage pas ses données sources.

Le Washington Post a analysé l'ensemble de données C4 de Google sur 15 millions de sites Web et a trouvé des dizaines de sites répréhensibles contenant du contenu incendiaire, des données PII et d'autres contenus douteux. Nous avons besoin d'une gouvernance des données, qui nécessite la transparence des sources de données utilisées et la validité/fiabilité des connaissances contenues dans ces sources. Par exemple, votre robot IA peut être formé sur des données provenant de sources non vérifiées ou de sites de fausses informations, biaisant ainsi ses connaissances qui font désormais partie des nouvelles politiques ou initiatives de R&D de votre entreprise.

Isolement des données et domaines de données :

Actuellement, différents fournisseurs d'IA ont des politiques de confidentialité différentes sur la manière dont ils traitent les données que vous fournissez. Involontairement, les employés peuvent fournir des données au LLM dans leurs invites, sans savoir que le modèle peut incorporer les données dans sa base de connaissances. Les entreprises peuvent, sans le savoir, divulguer au monde des secrets commerciaux, des codes logiciels et des données personnelles.

Certaines solutions d'IA proposent des solutions de contournement, telles que l'adoption d'API, pour protéger la confidentialité des données en excluant vos données des modèles pré-entraînés, mais cela limite également la valeur fonctionnelle de l'IA. Parce que le cas d'utilisation idéal consiste à augmenter un modèle pré-entraîné avec vos données spécifiques à votre cas tout en préservant la confidentialité des données.

Une solution consiste à faire en sorte que les outils d'IA pré-entraînés comprennent le concept de « domaine » de données. Les domaines « communs » des données de formation sont utilisés pour la pré-formation et partagés entre des applications communes, tandis que les modèles de formation basés sur des « données propriétaires » sont limités en toute sécurité aux limites de l'organisation. La gestion des données garantit que ces limites sont créées et préservées.

Dérivés de l'intelligence artificielle : Le troisième domaine de la gestion des données concerne les données générées par le processus d'IA et son propriétaire ultime. Par exemple, utilisez un robot IA pour résoudre des problèmes de codage. Si quelque chose a été mal fait, entraînant un bug ou un bug, nous saurons généralement qui a fait quoi pour enquêter et le corriger. Mais avec l’IA, il est difficile pour les organisations de définir qui est responsable des erreurs ou des mauvais résultats résultant des tâches effectuées par l’IA. On ne peut pas blâmer la machine : dans une certaine mesure, c’est l’être humain qui est à l’origine de l’erreur ou des mauvais résultats.

La question la plus compliquée est celle de la propriété intellectuelle. Possédez-vous la propriété intellectuelle des œuvres créées à l'aide d'outils d'intelligence artificielle générative ? Comment vous défendriez-vous devant un tribunal ? Selon la Harvard Business Review, le monde de l’art a commencé à déposer des plaintes contre certaines applications de l’IA.

Pensez dès maintenant aux stratégies de gestion des données

Au début, nous ne savions pas ce que l'IA ignorait sur les risques liés aux mauvaises données, à la confidentialité et à la sécurité, à la propriété intellectuelle et à d'autres ensembles de données sensibles. L'intelligence artificielle est également un vaste domaine avec de multiples approches telles que le LLM, l'automatisation basée sur la logique des processus métiers, ce ne sont là que quelques-uns des sujets qui sont explorés à travers la combinaison des politiques de gouvernance des données et des pratiques de gestion des données :

Pause sur le génératif IA Expérimentez jusqu’à ce que vous disposiez d’une stratégie, d’une politique et de procédures de surveillance pour atténuer les risques et valider les résultats.

L'intégration des principes directeurs de la gestion des données commence par une solide compréhension de vos données, peu importe où elles se trouvent. Où se trouvent vos informations personnelles sensibles et vos données clients ? De quelle quantité de données IP disposez-vous et où se trouvent ces fichiers ? Pouvez-vous surveiller l’utilisation pour garantir que ces types de données ne sont pas introduits par inadvertance dans les outils d’IA et prévenir les violations de sécurité ou de confidentialité ?

Ne fournissez pas plus de données aux applications d’IA que nécessaire et ne partagez aucune donnée propriétaire sensible. Verrouillez/chiffrez l’adresse IP et les données des clients pour empêcher leur partage.

Comprenez comment et si les outils d'IA peuvent être transparents pour les sources de données.

Le fournisseur peut-il protéger vos données ? Google a partagé l'annonce sur son blog, mais le « comment » n'est pas clair : « Qu'une entreprise forme un modèle dans Vertex AI ou construise une expérience de service client sur Generative AI App Builder, les données privées restent privées. le corpus de formation du modèle de base plus large « Lisez le langage contractuel de chaque outil d'IA pour comprendre si les données que vous lui fournissez peuvent rester confidentielles.

Données qui identifient le propriétaire, la personne ou le service qui a commandé le projet en tant qu'œuvre dérivée. Ceci est utile car vous pouvez en fin de compte être responsable de tout travail produit par votre entreprise et vous souhaitez savoir comment l’IA est intégrée dans le processus et qui est impliqué.

Assure la portabilité des données entre les domaines. Par exemple, une équipe peut souhaiter supprimer les données de son adresse IP et de ses caractéristiques d'identification et les intégrer dans un ensemble de données de formation commun pour une utilisation future. L'automatisation et le suivi de ce processus sont essentiels.

Restez informé de toutes les réglementations et directives du secteur en cours d'élaboration et parlez à vos pairs d'autres organisations pour comprendre comment ils abordent l'atténuation des risques et la gestion des données.

Avant de démarrer tout projet d'IA générative, consultez un expert juridique pour comprendre les risques et les processus en cas de violation de données, de violations de la vie privée et de la propriété intellectuelle, d'acteurs malveillants ou de résultats faux/erronés.

Approches pratiques de l'intelligence artificielle dans les entreprises

L'intelligence artificielle se développe rapidement et offre de larges perspectives, avec le potentiel d'accélérer l'innovation et de réduire les coûts à un rythme sans précédent et améliorer l'expérience utilisateur. Mais comme la plupart des outils puissants, l’IA doit être utilisée avec prudence et dans le bon contexte, avec des garde-fous appropriés en matière de gouvernance et de gestion des données. Aucune norme claire n’a encore émergé pour la gestion des données pour l’intelligence artificielle, et c’est un domaine qui nécessite une exploration plus approfondie. Dans le même temps, les entreprises doivent faire preuve de prudence et s’assurer d’avoir une compréhension claire de l’exposition des données, des violations de données et des risques potentiels pour la sécurité des données avant d’utiliser des applications d’IA.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer