Maison  >  Article  >  Périphériques technologiques  >  Techniques de fractionnement des données et pièges : comment utiliser l'ensemble de formation, l'ensemble de validation et l'ensemble de test

Techniques de fractionnement des données et pièges : comment utiliser l'ensemble de formation, l'ensemble de validation et l'ensemble de test

王林
王林avant
2024-01-22 14:45:28708parcourir

Techniques de fractionnement des données et pièges : comment utiliser lensemble de formation, lensemble de validation et lensemble de test

Afin de créer des modèles d'apprentissage automatique fiables, le fractionnement des ensembles de données est essentiel. Le processus de fractionnement implique de diviser l'ensemble de données en ensembles de formation, de validation et de test. Cet article vise à présenter en détail les concepts de ces trois collections, les techniques de fractionnement des données et les pièges qui peuvent facilement survenir.

Ensemble de formation, ensemble de validation et ensemble de test

Ensemble de formation

Un ensemble de formation est un ensemble de données utilisé pour entraîner et permettre au modèle d'apprendre des fonctionnalités/modèles cachés dans les données.

À chaque époque, les mêmes données d'entraînement sont entrées à plusieurs reprises dans l'architecture du réseau neuronal et le modèle continue d'apprendre les caractéristiques des données.

L'ensemble de formation doit avoir un ensemble diversifié d'entrées afin que le modèle soit formé dans tous les scénarios et puisse prédire d'éventuels échantillons de données futurs.

Ensemble de validation

L'ensemble de validation est un ensemble de données, distinct de l'ensemble d'entraînement, utilisé pour vérifier les performances du modèle pendant l'entraînement.

Ce processus de validation fournit des informations qui permettent d'ajuster les hyperparamètres et la configuration du modèle. Le modèle est formé sur l'ensemble d'entraînement, tandis que le modèle est évalué sur l'ensemble de validation après chaque époque.

L'objectif principal de la division de l'ensemble de données en un ensemble de validation est d'empêcher le modèle de surajuster, c'est-à-dire que le modèle est très efficace pour classer les échantillons dans l'ensemble d'entraînement, mais ne peut pas généraliser et classer avec précision les données invisibles.

Ensemble de tests

L'ensemble de tests est un ensemble distinct de données utilisé pour tester le modèle après avoir terminé la formation. Il fournit une mesure impartiale des performances du modèle final en termes d'exactitude, de précision, etc. En termes simples, l'ensemble de test reflète les performances du modèle.

Comment diviser l'ensemble de données

Créer différents échantillons et divisions dans l'ensemble de données permet de juger des performances du modèle réel. Le taux de division de l'ensemble de données dépend du nombre d'échantillons et de modèles présents dans l'ensemble de données.

Inférences courantes sur le fractionnement des ensembles de données

S'il existe plusieurs hyperparamètres qui doivent être réglés, le modèle d'apprentissage automatique nécessite un ensemble de validation plus large pour optimiser les performances du modèle. De même, si le modèle comporte peu ou pas d’hyperparamètres, il peut être facilement validé à l’aide d’un petit ensemble de données.

Si le cas d'utilisation du modèle conduit à des prédictions erronées qui affecteront sérieusement les performances du modèle, il est préférable de valider le modèle après chaque époque pour laisser le modèle apprendre différents scénarios.

À mesure que les dimensions/caractéristiques des données augmentent, les hyperparamètres de la fonction du réseau neuronal augmentent également, rendant le modèle plus complexe. Dans ces cas, une grande quantité de données doit être conservée dans l’ensemble de formation avec l’ensemble de validation.

Techniques de fractionnement des données

1. Échantillonnage aléatoire

L'échantillonnage aléatoire est la méthode la plus ancienne et la plus populaire de division d'un ensemble de données. Comme son nom l'indique, l'ensemble de données est mélangé et les échantillons sont sélectionnés au hasard et placés dans des ensembles de formation, de validation ou de test en fonction du pourcentage indiqué par l'utilisateur.

Cependant, cette méthode présente un inconvénient évident. L'échantillonnage aléatoire fonctionne mieux sur des ensembles de données équilibrés en classes, c'est-à-dire des ensembles de données comportant approximativement le même nombre d'échantillons dans chaque classe d'ensemble de données. Dans le cas d'ensembles de données déséquilibrés en classes, cette méthode de fractionnement des données peut introduire un biais.

2. Échantillonnage stratifié

L'échantillonnage stratifié atténue le problème d'échantillonnage aléatoire dans les ensembles de données avec des distributions de classes déséquilibrées. La répartition des classes dans chaque ensemble de formation, de validation et de test peut être préservée. L'échantillonnage stratifié est une manière plus équitable de diviser les données.

3. Validation croisée

La validation croisée ou validation croisée K-Fold est une technique de fractionnement de données plus puissante dans laquelle le modèle est entraîné et évalué "K" fois sur différents échantillons.

Exposez des modèles d'apprentissage automatique à différentes distributions de données à l'aide de la validation croisée K-Fold. Dans une certaine mesure, le biais pouvant survenir lors de la sélection des données dans les ensembles de formation et de validation est atténué. Lors de l’utilisation du schéma de validation croisée K-Fold, il est courant de signaler les valeurs moyennes et d’écart type.

Par conséquent, la validation croisée K-Fold présente également le même problème que l'échantillonnage aléatoire, et la distribution des données peut être biaisée. La stratification peut être utilisée pour maintenir l'analogie des données tout en générant des sous-ensembles ou parties « K » des données.

Pièges courants dans le fractionnement des données

1. Utilisation de données d'entraînement de mauvaise qualité

Étant donné que les algorithmes d'apprentissage automatique sont sensibles aux données d'entraînement, même de petits changements/erreurs dans l'ensemble d'entraînement peuvent affecter les performances du modèle. Une erreur s'est produite. Par conséquent, la qualité des données de formation est cruciale pour améliorer les performances du modèle.

2. Surajustement

Le surajustement se produit lorsqu'un modèle d'apprentissage automatique ne peut pas classer des données inconnues. Le bruit ou les fluctuations dans les données d'entraînement sont traités comme des caractéristiques et appris par le modèle. Il en résulte un modèle qui fonctionne bien dans l'ensemble de formation mais peu dans les ensembles de validation et de test.

3. Insistance excessive sur les métriques de validation et d'ensemble de tests

La métrique de l'ensemble de validation est la métrique qui détermine le chemin de formation du modèle. Après chaque époque, le modèle d'apprentissage automatique est évalué sur l'ensemble de validation. Sur la base des indicateurs de l'ensemble de validation, calculez le terme de perte correspondant et modifiez les hyperparamètres. Les mesures doivent être choisies de manière à avoir un impact positif sur la trajectoire globale des performances du modèle.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer