Maison >Périphériques technologiques >IA >Apprentissage automatique responsable – l'approche « boîte de verre »

Apprentissage automatique responsable – l'approche « boîte de verre »

王林
王林avant
2023-04-09 12:21:031354parcourir

​Traducteur | Cui Hao

Réviseur | Sun Shujuan

Ouverture

L'apprentissage automatique n'est pas une technologie profonde. Tout comme les méthodes multiparamétriques et hyperparamétriques dans les réseaux neuronaux profonds complexes ne sont qu'une forme d'informatique cognitive, elles ne semblent pas si profondes.

Apprentissage automatique responsable – l'approche « boîte de verre »

Il existe d'autres types d'apprentissage automatique (certains impliquant des réseaux de neurones profonds), et les résultats du modèle de ce type d'apprentissage automatique, la détermination du modèle et la complexité qui affecte le modèle sont tous très transparents.

Tout cela dépend de la façon dont l'organisation comprend la source de ses données.

En d'autres termes, vous devez tout comprendre, des données de formation du modèle au modèle de données de production. Il fait également partie intégrante de l’interprétation, du raffinement et de l’amélioration de ses résultats. De cette manière, les organisations peuvent augmenter considérablement la valeur commerciale de leurs modèles.

Plus important encore, cela améliore encore l'équité, la responsabilité et la transparence de cette technologie, la rendant plus fiable et plus complète pour l'ensemble de la société.

Le vice-président du marketing de Databricks, Joel Minnick, admet : "C'est pourquoi vous avez besoin d'une compréhension granulaire de vos données en amont et en aval pour pouvoir effectuer un apprentissage automatique de manière responsable." impliquent plusieurs technologies telles que les sources de données, la conversion de données et l’intégration de données. Dans une solution de catalogue de données mature, la capture de données en temps réel peut être réalisée, de sorte que la progression peut être surveillée à tout moment pour comprendre la progression de l'exécution du modèle. "Cela me permet de comprendre clairement le contexte d'utilisation des données dans le modèle. De plus, vous savez, d'où viennent ces données ? Quelles autres données en avons-nous obtenues ? Quand ont-elles été générées ? Pour que je puisse mieux comprendre comment je devrais utiliser ces données", a déclaré le data scientist Minnick.

La « lignée des données » (source de données d'enregistrement, mouvement et traitement) se compose de métadonnées et le répertoire de données est utilisé pour stocker les ensembles de données pertinents. Les catalogues permettent également aux utilisateurs d'inclure des balises et d'autres descripteurs en tant que métadonnées supplémentaires, ce qui peut aider à retracer la provenance des données et à établir la confiance dans les données. La « lignée de données », comme le décrit Minnick, peut générer des « services pilotés par API » qui connectent une gamme de plates-formes (y compris les plates-formes de data scientists, les plates-formes d'ingénieurs de données et les plates-formes d'utilisateurs finaux).

Gouvernance des données : née pour la science des données

La traçabilité améliorée de la formation et des opérations de données affectera les résultats des modèles d'apprentissage automatique, et les résultats des modèles sont étroitement liés à la gouvernance des données dans le domaine de la science des données. La gouvernance des données est donc inextricablement liée à la plateforme de science des données qui crée et déploie les modèles. « Skills gère simultanément des feuilles de calcul et des fichiers, des blocs-notes et des tableaux de bord. C'est la manière moderne de gérer les données de production et de consommation », a commenté Minnick. Cette affirmation est vraie pour les data scientists qui créent des modèles dans leurs notebooks et surveillent les résultats via des tableaux de bord.

Clair et transparent

Néanmoins, la simple connexion à une plate-forme d'outils de science des données via une API pour obtenir un « lignage des données » n'est qu'un aspect de l'exploitation transparente de l'apprentissage automatique. Afin d'atteindre l'objectif d'améliorer les résultats du modèle, celui-ci doit également être calibré avec le contenu déterminé dans le lignage des données. Par exemple, comment modéliser les données de traçabilité afin que les data scientists « puissent comprendre si quelque chose ne va pas avec certaines données, ils peuvent isoler cette partie des données », a noté Minnick.

Logiquement, ces connaissances peuvent être utilisées pour comprendre pourquoi il y a des problèmes avec des types de données spécifiques, les corrigeant ainsi ou améliorant la précision du modèle en les supprimant entièrement. Selon Minnick, de plus en plus d'organisations réalisent les avantages de l'application du « lignage des données » aux résultats du modèle, « en partie à cause de l'essor de l'apprentissage automatique et de l'intelligence artificielle dans divers secteurs aujourd'hui. notre produit AutoML l'année dernière, nous avons utilisé une « boîte de verre » pour représenter la transparence des sources de données

Conséquences réglementaires et plus encore

Certaines organisations exploitent également les capacités des modèles informatiques cognitifs adaptatifs fournis par le « lignage des données ». capacités de conformité réglementaire. Des secteurs tels que la finance et la santé sont très réglementés, ce qui oblige les entreprises à expliquer clairement comment elles prennent des décisions pour leurs clients. La traçabilité des données crée une feuille de route pour créer des modèles d'apprentissage automatique et comprendre les résultats des modèles, ce qui est inestimable pour la conformité réglementaire.

Ces informations sont également utiles dans les audits internes, permettant aux entreprises de comprendre où elles échouent dans les domaines réglementaires afin que les problèmes puissent être corrigés afin d'éviter les violations. « Il est très important de pouvoir présenter aux régulateurs des informations très granulaires sur la traçabilité des données, non seulement à travers des tableaux, mais aussi là où ces données peuvent être utilisées n'importe où dans une vaste organisation », affirme Minnick. Lorsque cet avantage coïncide avec l’idée selon laquelle les sources de données améliorent la précision des modèles, cette approche deviendra probablement une bonne pratique pour le déploiement de cette technologie.

Présentation du traducteur

Cui Hao, rédacteur de la communauté 51CTO, architecte senior, a 18 ans d'expérience en développement de logiciels et en architecture, et 10 ans d'expérience en architecture distribuée. Anciennement expert technique chez HP. Il est prêt à partager et a écrit de nombreux articles techniques populaires avec plus de 600 000 lectures. Auteur de "Principes et pratique de l'architecture distribuée".

Titre original : Une approche « boîte de verre » pour un apprentissage automatique responsable​, auteur : Jelani Harper​

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer