Maison  >  Article  >  Périphériques technologiques  >  L'impact des violations de données sur le développement de modèles d'apprentissage automatique

L'impact des violations de données sur le développement de modèles d'apprentissage automatique

PHPz
PHPzavant
2024-01-22 22:00:221104parcourir

Limpact des violations de données sur le développement de modèles dapprentissage automatique

Qu'est-ce qu'une violation de données ?

Les erreurs techniques sont courantes lors du développement de modèles d'apprentissage automatique. Même des erreurs involontaires peuvent être découvertes grâce à l’inspection. Étant donné que la plupart des erreurs se reflètent directement dans les performances du modèle, leur impact est facilement perceptible. Toutefois, les effets d’une violation de données sont plus insidieux. À moins qu’un modèle ne soit déployé auprès du public, son existence est difficile à détecter. Parce que les situations auxquelles le modèle est confronté dans des scénarios réels sont invisibles.

Les fuites de données peuvent donner aux modélisateurs l'illusion que le modèle a atteint l'état optimal qu'il recherchait grâce à des métriques d'évaluation extrêmement élevées dans les deux ensembles de données. Cependant, une fois le modèle mis en production, non seulement ses performances risquent d’être pires que lors du test, mais il faudra également plus de temps pour vérifier et régler l’algorithme. En tant que modélisateur de machine learning, vous pouvez être confronté à des résultats contradictoires lors des phases de développement et de production.

Causes et effets de la violation de données

L'introduction de ces informations n'est pas intentionnelle et est générée lors du processus de collecte, d'agrégation et de préparation des données. Elle est souvent subtile et indirecte, ce qui la rend difficile à détecter et à éliminer. Pendant la formation, le modèle capture les corrélations ou les relations fortes entre ces informations supplémentaires et les valeurs cibles pour apprendre à faire des prédictions. Cependant, une fois publiées, ces informations supplémentaires ne sont plus disponibles, ce qui entraîne un échec du modèle.

Pendant la phase d'agrégation et de préparation des données, certaines transformations statistiques, telles que l'interpolation et la mise à l'échelle des données, sont parfois appliquées pour exploiter les distributions de données statistiques. Par conséquent, nous ne pouvons pas obtenir les mêmes résultats si nous appliquons ces corrections à l’ensemble de données avant de traiter les ensembles d’entraînement et de test. Dans ce cas, la distribution des données de test affectera la distribution des données d'entraînement.

Par exemple, nous pouvons considérer les données de séries chronologiques comme une séquence de données contenant 100 valeurs d'une caractéristique. Si l’on divise cette séquence en 2 groupes identiques de 50 valeurs, alors les propriétés statistiques telles que la moyenne et l’écart type des deux groupes ne seront pas les mêmes. Dans les tâches de prévision de séries chronologiques, nous pouvons appliquer une validation croisée k fois pour évaluer les performances du modèle. Ce processus peut introduire des instances de données passées dans l'ensemble de validation et des instances futures dans l'ensemble de formation.

De même, dans des environnements de production réels, les modèles d'apprentissage automatique sans fuite de données fonctionnent souvent mieux que les résultats des tests et sont moins affectés par les fuites de données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer