Maison > Article > Périphériques technologiques > Analyser les problèmes univariés, bivariés et multicolinéarités dans l'apprentissage automatique
L'analyse de données univariée est un type d'analyse simple qui fonctionne avec une seule variable qui change. Il se concentre principalement sur la description et la reconnaissance de formes de données, plutôt que sur les causes et les relations. Étant donné que l’information porte sur une seule variable, il s’agit du type d’analyse le plus simple.
L'analyse univariée est utilisée pour analyser une seule variable/caractéristique. L’objectif est de prendre les données, de les décrire et de les résumer tout en examinant les modèles qui peuvent exister. L'analyse univariée étudie chaque variable de l'ensemble de données séparément et peut utiliser à la fois des variables catégorielles et numériques.
Les mesures de tendance centrale (moyenne, médiane et mode) et de dispersion ou distribution des données (plage, minimum, maximum, quartiles, variance et écart type) peuvent nous aider à décrire ce type de mode de données en . De plus, des outils tels que des tableaux de distribution de fréquence, des histogrammes, des diagrammes circulaires, des polygones de fréquence et des graphiques à barres peuvent être utilisés pour illustrer ces modèles.
Les données bivariées impliquent deux variables. L'analyse bivariée se concentre sur les causes et les relations, dans le but de déterminer la relation entre deux variables.
Les comparaisons, corrélations, causes et explications font toutes partie de l'analyse de données bivariées. L'une des variables est indépendante tandis que l'autre est dépendante, et ces variables sont souvent tracées sur les axes X et Y du graphique pour une meilleure compréhension des données.
La multicolinéarité (également connue sous le nom de colinéarité) est un phénomène statistique dans lequel une variable caractéristique dans un modèle de régression a une corrélation linéaire élevée avec une autre variable caractéristique. Lorsque deux variables ou plus sont parfaitement corrélées, on parle de colinéarité.
Lorsque les variables indépendantes sont fortement corrélées, les modifications d'une variable entraîneront des modifications d'autres variables, provoquant de grandes fluctuations des résultats du modèle. Si les données ou le modèle changent légèrement, les résultats du modèle seront instables et fluctueront considérablement. La multicolinéarité peut entraîner les problèmes suivants :
Si le modèle fournit des résultats différents à chaque fois, il devient difficile de déterminer la liste des variables importantes pour le modèle.
Les estimations des coefficients seront instables, ce qui rendra difficile l'interprétation du modèle. En d’autres termes, si un prédicteur change d’une unité, il n’existe aucun moyen de déterminer dans quelle mesure le résultat changera.
En raison de l'instabilité du modèle, un surapprentissage peut survenir. Lorsque le modèle est appliqué à un autre ensemble de données, la précision sera bien inférieure à celle de l'ensemble de données d'entraînement.
Si seulement une colinéarité légère ou modérée se produit, cela peut ne pas poser de problème pour le modèle, selon les circonstances. Toutefois, en cas de problèmes de colinéarité graves, il est recommandé de résoudre le problème.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!