WBOY
WBOYavant
2024-03-22 14:36:34375parcourir

L'émergence de GenAI a accéléré le rythme auquel les gens libèrent le potentiel des données, offrant des opportunités pour de nouvelles informations et de meilleures décisions. Cependant, parvenir à un accès plus large aux données nécessite une stratégie de gouvernance des données solide. Les entreprises qui parviennent à trouver un équilibre entre démocratisation des données et gouvernance rigoureuse des données se différencieront sur le marché en libérant des informations uniques basées sur les données.

Selon Gartner, plus de 80 % des entreprises utiliseront les API et modèles GenAI ou déploieront des applications compatibles GenAI en production d'ici 2026, contre moins de 5 % l'année dernière. L'interface en langage naturel de GenAI permet aux utilisateurs non techniques, des chefs de service aux travailleurs de première ligne, d'accéder et d'utiliser plus facilement les données. Cela uniformise les règles du jeu en matière d’accès à l’information et aux compétences, ce que Gartner qualifie de « l’une des tendances les plus perturbatrices de cette décennie ».

Si les entreprises veulent éviter des risques accrus pour la vie privée, la sécurité et la qualité des données, démocratiser les données de cette manière rend encore plus critique une gouvernance solide, ce qui signifie savoir exactement de quelles données vous disposez, où elles résident, où, qui a accès à ces données, et comment chaque type d'utilisateur est autorisé à l'utiliser, mais comment une entreprise peut-elle imposer un contrôle total sans étouffer l'innovation ?

À un niveau supérieur, l'approche privilégiée consiste à consolider les données dans un référentiel complet qui peut être partagé facilement et en toute sécurité par différentes équipes et groupes de travail. En unifiant les données, les entreprises peuvent centraliser la gestion et étendre l'accès aux données tout en minimisant la complexité et en optimisant les coûts. Cette approche centralisée du stockage des données permet de garantir la cohérence et l'exactitude des données et d'éviter les problèmes causés par la duplication et l'incohérence des données. De plus, cela contribue également à améliorer la sécurité des données et à protéger la confidentialité, car les mesures de contrôle d’accès et de surveillance peuvent être plus facilement mises en œuvre. Par conséquent, l'établissement d'un référentiel de données unifié est très important pour les entreprises.

En pratique, cela peut poser certains défis, car les réglementations sur la souveraineté des données exigent que certaines données soient stockées dans des pays ou des régions spécifiques. Face à cette situation, les entreprises doivent s’efforcer d’éliminer les silos de données et de mettre en œuvre un cadre de gouvernance cohérent sur l’ensemble de leurs plateformes de données.

De plus, certaines méthodes et technologies spécifiques contribuent à garantir que les entreprises peuvent maintenir une gouvernance efficace tout en préservant la sécurité à mesure que GenAI étend l'accès aux données. Ces approches incluent des pratiques de gouvernance de base qui s'appliquent dans une variété de contextes, mais deviennent particulièrement critiques à mesure que GenAI favorise la démocratisation de l'accès aux données.

Contrôles granulaires pour la confidentialité et la conformité

À mesure que l'accès des employés aux données augmente, le risque de violations de données et d'informations personnellement identifiables (PII) accessibles par des utilisateurs non autorisés augmente également. Par conséquent, la mise en œuvre de politiques strictes de contrôle d’accès et l’utilisation de technologies d’anonymisation et d’identification sont essentielles pour garantir la conformité et protéger les données contre tout accès inapproprié.

Dans notre nouveau rapport Data Trends 2024 analysant les tendances de Snowflake Data Cloud, nous avons remarqué une augmentation significative de l'utilisation de fonctionnalités de gouvernance qui fournissent un contrôle granulaire sur les données tout en les mettant de manière appropriée à la disposition d'un plus grand nombre d'utilisateurs pour davantage de cas d'utilisation, par exemple : l'utilisation de masques appliqués ou de politiques d'accès aux lignes a augmenté de 98 % au cours de la période de 12 mois terminée le 31 janvier 2024 par rapport à la même période de l'année dernière, tandis que le nombre de colonnes affectées à des politiques de masquage a augmenté de 97 %.

Cependant, il convient de noter que le nombre total de requêtes exécutées sur des objets protégés par une politique a augmenté de 142 %, un chiffre significatif car il montre qu'une bonne gouvernance des données ne consiste pas à dire « non » et à restreindre l'utilisation des données. Malgré une amélioration de la gouvernance grâce à l'utilisation de politiques d'étiquetage et de blocage, le rapport note que la quantité de travail effectué à l'aide de ces données augmente rapidement.

Dans certains cas, les employés peuvent souhaiter examiner des ensembles de données auxquels ils ne peuvent pas avoir accès directement. Dans de tels cas, la confidentialité différentielle est une technique puissante car elle permet aux utilisateurs de partager et d'explorer des ensembles de données sans révéler les informations personnelles d'un utilisateur individuel. Pour aller plus loin, les salles blanches de données permettent à plusieurs parties de collaborer sur les données sans divulguer les données brutes les unes aux autres. Les salles blanches de données sont généralement utilisées pour partager des données entre différentes entreprises, mais nous constatons que la technologie est utilisée en interne pour répondre à une croissance croissante. En fonction des besoins réglementaires et de confidentialité, cela peut constituer une technique efficace pour explorer les données PII dans le contexte des interfaces GenAI.

Sécurité cohérente et orchestrée

La sécurité doit être intégrée à la structure de la plate-forme de données plutôt que d'essayer de la définir ultérieurement pour des ensembles de données et des utilisateurs individuels. La technologie qui prend en charge les interfaces conversationnelles ne doit pas reproduire les identités et autres autorisations de base sur la plate-forme. data , ce qui entraînera une configuration fragile. Si deux systèmes ou plus suivent qui a accès à quelles données, le risque d'erreurs et d'accès non autorisé augmente considérablement.

Les technologies qui jouent un rôle clé dans la protection des données pour les cas d'utilisation de GenAI comprennent la surveillance et la protection continues des risques, le contrôle d'accès basé sur les rôles (RBAC) et les politiques d'autorisation précises. Les balises basées sur les rôles et les stratégies de masquage basées sur les balises vous permettent de protéger les données au niveau des colonnes en attribuant une stratégie de masquage à une balise, puis en définissant la balise sur un ou plusieurs objets de base de données.

Les silos de données sont l'ennemi de la bonne gouvernance

Le stockage de copies ou de fragments de données dans des systèmes disparates rend extrêmement difficile le suivi de qui a accès à quelles informations et le maintien de la cohérence des politiques d'accès et de contrôle, c'est pourquoi les silos de données sont l'ennemi d’une gouvernance forte.

Les silos de données rendent également difficile la garantie que les employés interrogent les données les plus récentes et les plus précises, ce qui peut entraîner des erreurs coûteuses. Pour obtenir un accès large aux données via GenAI, les entreprises ont besoin d'une source unique de vérité pour garantir que tous les employés consultent les mêmes informations et que les contrôles et les politiques peuvent être appliqués et mis à jour sur toutes les données.

Garantir la qualité des données pour des résultats précis

Même si vous éliminez les silos et disposez des autorisations appropriées, rien ne garantit que les informations auxquelles vos employés accèdent sont correctes. Le cadre de qualité des données est basé sur ce qui peut être appliqué à une colonne spécifique. ou un ensemble de colonnes dans un tableau. Configurez des règles de qualité des données pour faciliter la détection des problèmes de qualité et garantir l'exactitude des informations.

De plus, nous savons tous désormais que GenAI peut parfois halluciner et produire des réponses qui sont en réalité infondées, ce qui est inacceptable pour une utilisation en entreprise. Les entreprises peuvent résoudre ce problème en combinant des modèles de langage étendus (LLM) avec des sources de données auxquelles elles savent pouvoir faire confiance, telles que des bases de données clients internes ou des ensembles de données vérifiés provenant de fournisseurs tiers de confiance.

Ces sources de données fiables peuvent être fusionnées à l'aide de processus qui nécessitent une personnalisation LLM (comme un réglage fin) ou ne nécessitent pas de personnalisation LLM (comme l'ingénierie juste à temps ou la génération augmentée par récupération (RAG)). Quoi qu’il en soit, ces technologies permettent de garantir que les employés reçoivent des résultats précis et de haute qualité tout en respectant les normes de gouvernance intégrées à l’environnement cloud sur site.

La puissance de l'accès aux données et de la recherche universelle

Un aspect important de la gouvernance GenAI est de permettre aux employés de trouver facilement les bons ensembles de données et produits de données pour les aider dans leur analyse. L'une des raisons pour lesquelles l'IA est si puissante est qu'elle permet. Les employés doivent travailler dans différentes situations. L'interaction avec les données se fait via une équipe centrale, mais cela nécessite que ces employés sachent quelles données sont à leur disposition et comment les trouver.

La fonction de recherche fournit cette fonctionnalité, permettant aux utilisateurs de rechercher et d'interroger des ensembles de données et des produits de données. Cette fonction de recherche elle-même peut être optimisée par LLM pour rendre la recherche de données plus intuitive - c'est ce que nous avons développé chez Snowflake dans le cadre de notre recherche universelle. .

La gouvernance est le fondement de la démocratisation des données

Les utilisateurs professionnels sont désireux d'utiliser plus largement les données de leur organisation, et GenAI rend enfin cela possible. Grâce au LLMS et au traitement du langage naturel, les employés de domaines tels que la finance, les ressources humaines, les ventes et les opérations peuvent désormais formuler des questions spécifiques à leur rôle et obtenir les réponses dont ils ont besoin pour prendre des décisions plus éclairées.

Mais pour répondre aux besoins de sécurité et de conformité de l'entreprise, cela ne peut se produire que dans un environnement doté d'une gouvernance forte, plus vos employés peuvent parcourir librement les données sans créer de coûts supplémentaires pour l'entreprise. ouvre la porte à une véritable démocratisation des données, et la bonne gouvernance est le fondement qui rend cela possible.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer