L'environnement d'exploitation de cet article : système Windows 7, ordinateur Dell G3.
Le prétraitement des données fait référence à l'examen, au filtrage, au tri et à tout autre traitement nécessaire avant de classer ou de regrouper les données collectées.
D'une part, le prétraitement des données consiste à améliorer la qualité des données, et d'autre part, c'est aussi à s'adapter au logiciel ou à la méthode d'analyse des données. De manière générale, les étapes de prétraitement des données comprennent : nettoyage des données, intégration des données, transformation des données, réduction des données , et chaque étape majeure comporte quelques petites subdivisions. Bien entendu, ces quatre étapes principales ne sont pas nécessairement effectuées lors du prétraitement des données.
1. Nettoyage des données
Le nettoyage des données, comme son nom l'indique, transforme les données « noires » en données « blanches » et « sales ». données en données « sales ». Pour devenir « propres », les données sales sont sales dans leur forme et leur contenu.
Sale dans la forme, comme les valeurs manquantes et les symboles spéciaux ;
Sale dans le contenu, comme les valeurs aberrantes.
1. Valeurs manquantes
Les valeurs manquantes incluent l'identification des valeurs manquantes et le traitement des valeurs manquantes.
Dans R, la fonction is.na est utilisée pour identifier les valeurs manquantes, et la fonction complete.cases est utilisée pour identifier si les exemples de données sont complets.
Les méthodes courantes pour traiter les valeurs manquantes incluent la suppression, le remplacement et l'interpolation.
-
Méthode de suppression : La méthode de suppression peut être divisée en suppression d'échantillons d'observation et de variables selon différents angles de suppression, suppression d'échantillons d'observation (méthode de suppression de ligne), dans R la fonction na.omit peut supprimer les lignes contenant des valeurs manquantes.
Cela équivaut à réduire la taille de l'échantillon en échange de l'exhaustivité des informations. Cependant, lorsqu'il y a une grande variable manquante et qu'elle a peu d'impact sur les objectifs de la recherche, vous pouvez envisager de supprimer la déclaration mydata[,-. p] dans la variable R. à compléter. mydata représente le nom de l'ensemble de données supprimé, p est le nombre de colonnes de la variable supprimée et - représente la suppression.
Méthode de remplacement : La méthode de remplacement, comme son nom l'indique, remplace les valeurs manquantes. Il existe différentes règles de remplacement selon les différentes variables. La variable où se trouve la valeur manquante est de type numérique. .Utilisez d'autres nombres sous cette variable. Les valeurs manquantes sont remplacées par la moyenne ; lorsque la variable est une variable non numérique, la médiane ou le mode des autres valeurs observées sous la variable est utilisé.
-
Méthode d'interpolation : La méthode d'interpolation est divisée en interpolation de régression et interpolation multiple.
L'interpolation de régression fait référence au traitement de la variable interpolée comme variable dépendante y et d'autres variables comme variables indépendantes, en utilisant le modèle de régression pour l'ajustement et en utilisant la fonction de régression lm dans R pour interpoler les valeurs manquantes ;
L'imputation multiple fait référence à la génération d'un ensemble complet de données à partir d'un ensemble de données contenant des valeurs manquantes. Elle est effectuée plusieurs fois pour générer un échantillon aléatoire de valeurs manquantes. Le package mouse dans R peut effectuer une imputation multiple.
2. Valeurs aberrantes
Les valeurs aberrantes, comme les valeurs manquantes, incluent l'identification et le traitement des valeurs aberrantes.
L'identification des valeurs aberrantes est généralement gérée avec des nuages de points univariés ou des diagrammes en boîtes. Dans R, dotchart est une fonction qui dessine des nuages de points univariés, et la fonction boxplot dessine des diagrammes en boîtes. sur le graphique, les points éloignés de la plage normale sont considérés comme des valeurs aberrantes.
Le traitement des valeurs aberrantes comprend la suppression des observations contenant des valeurs aberrantes (suppression directe, lorsqu'il y a peu d'échantillons, la suppression directe entraînera une taille d'échantillon insuffisante et modifiera la distribution des variables), et les traiter comme valeurs manquantes (utilisez les informations existantes pour remplir les valeurs manquantes), correction moyenne (utilisez la moyenne des deux observations avant et après pour corriger la valeur aberrante) et ne la traitez pas. Lors du traitement des valeurs aberrantes, vous devez d’abord examiner les raisons possibles de leur apparition, puis déterminer si les valeurs aberrantes doivent être ignorées.
2. Intégration des données
La soi-disant intégration de données consiste à fusionner plusieurs sources de données en un seul stockage de données. Bien entendu, si les données analysées se trouvent à l’origine dans un stockage de données, aucune intégration de données n’est nécessaire (tout-en-un).
La mise en œuvre de l'intégration de données consiste à combiner deux trames de données basées sur des mots-clés et à utiliser la fonction de fusion dans R. L'instruction est merge (dataframe1, dataframe2, by="keyword"), et la valeur par défaut est croissante.
Les problèmes suivants peuvent survenir lors de l'intégration des données :
Le même nom est synonyme du nom d'un attribut dans la source de données A et du nom de. un attribut dans la source de données B. Pareil, mais les entités représentées sont différentes et ne peuvent pas être utilisées comme mots-clés
ont des noms et des synonymes différents, c'est-à-dire les noms d'un attribut dans les deux sources de données sont différentes mais les entités qu'elles représentent sont les mêmes. Peut être utilisé comme mots-clés
-
L'intégration des données entraîne souvent une redondance des données. fois, ou il peut s'agir d'une duplication causée par des noms d'attributs incohérents. Pour les attributs en double, effectuez d'abord le travail associé. Analysez et détectez, s'il y en a, supprimez-les.
La transformation des données consiste à les convertir sous une forme appropriée pour répondre aux besoins du logiciel ou de la théorie de l'analyse.
1. Transformation de fonction simple
La transformation de fonction simple est utilisée pour transformer des données sans distribution normale en données avec distribution normale, notamment le carré, la racine carrée et le logarithme. , différence, etc. Par exemple, dans les séries chronologiques, des opérations de logarithme ou de différence sont souvent effectuées sur des données pour convertir des séquences non stationnaires en séquences stationnaires.
2. Normalisation
La normalisation consiste à éliminer l'influence des dimensions variables, comme la comparaison directe de la différence entre la taille et le poids, la différence d'unités et la plage de Les différences font que cela n’est pas directement comparable.
Normalisation minimum-maximum : également appelée normalisation de dispersion, transforme linéairement les données et change sa plage en [0,1]
Zéro- normalisation moyenne : également appelée normalisation de l'écart type, la moyenne des données traitées est égale à 0 et l'écart type est 1
Normalisation de la mise à l'échelle décimale : déplacer les décimales de la valeur de l'attribut , et les valeurs d'attribut sont mappées sur [-1,1]
3 La discrétisation d'attribut continue
convertit les variables d'attribut continues en catégories. attributs, c'est-à-dire la discrétisation des attributs continus, en particulier certains algorithmes de classification exigent que les données soient des attributs catégoriels, comme l'algorithme ID3.
Les méthodes de discrétisation couramment utilisées sont les suivantes :
Méthode d'égalité de largeur : divisez la plage de valeurs de l'attribut en intervalles de même largeur, comme pour créer une fréquence. table de distribution ;
Méthode de fréquence égale : placez les mêmes enregistrements dans chaque intervalle
Regroupement unidimensionnel : deux étapes, mettez d'abord le continu Les valeurs des attributs sont regroupées à l'aide d'un algorithme de clustering, puis les ensembles regroupés sont fusionnés en une valeur continue et marqués de la même étiquette.
4. Réduction des données
La réduction des données fait référence à la compréhension de la tâche d'exploration de données et du contenu des données. lui-même Fondamentalement, trouvez des fonctionnalités utiles des données qui dépendent de la cible de découverte pour réduire la taille des données, minimisant ainsi la quantité de données tout en conservant autant que possible l'apparence d'origine des données.
La réduction des données peut réduire l'impact des données invalides et erronées sur la modélisation, réduire le temps et réduire l'espace de stockage des données.
1. Réduction d'attribut
La réduction d'attribut consiste à trouver le plus petit sous-ensemble d'attribut et à déterminer que la distribution de probabilité du sous-ensemble est proche de la distribution de probabilité des données d'origine.
Fusionner les attributs : fusionner certains anciens attributs dans un nouveau
Sélectionner progressivement vers l'avant : commencer à partir d'un ensemble d'attributs vide, à chaque fois, un attribut optimal actuel est sélectionné dans l'ensemble d'attributs d'origine et ajouté au sous-ensemble actuel, jusqu'à ce que l'attribut optimal ne puisse pas être sélectionné ou qu'une valeur de contrainte soit satisfaite
Sélectionner progressivement : à partir d'un point de départ ; à partir d'un ensemble d'attributs vide, chaque fois que le pire attribut actuel est sélectionné dans l'ensemble d'attributs d'origine et éliminé du sous-ensemble actuel, jusqu'à ce que le pire attribut ne puisse pas être sélectionné ou qu'une valeur de contrainte soit satisfaite
- Prise de décision Induction d'arbre : les attributs qui n'apparaissent pas dans cet arbre de décision sont supprimés de l'ensemble initial pour obtenir un meilleur sous-ensemble d'attributs
- Analyse en composantes principales : utiliser moins de variables pour expliquer la plupart des variables des données originales (convertir les variables hautement corrélées en variables indépendantes ou non corrélées).
2. Réduction numérique
En réduisant la quantité de données, y compris les méthodes paramétriques et non paramétriques, avec des paramètres tels que la régression linéaire et régression multiple, méthodes sans paramètres telles que l'histogramme, l'échantillonnage, etc. Pour plus de connaissances connexes, veuillez visiter la colonneFAQ !