Maison >Périphériques technologiques >IA >Méthodes et étapes de sélection des fonctionnalités Scikit-Learn
Scikit-Learn est une bibliothèque d'apprentissage automatique Python couramment utilisée qui fournit de nombreux outils pour les tâches d'apprentissage automatique telles que le prétraitement des données, la sélection de fonctionnalités, la sélection et l'évaluation de modèles. La sélection des fonctionnalités est l'une des étapes clés de l'apprentissage automatique. Elle peut réduire la complexité du modèle et améliorer la capacité de généralisation du modèle, améliorant ainsi ses performances. La sélection des fonctionnalités est très simple avec Scikit-Learn. Premièrement, nous pouvons utiliser diverses méthodes statistiques (telles que la variance, le coefficient de corrélation, etc.) pour évaluer l'importance des caractéristiques. Deuxièmement, Scikit-Learn fournit une série d'algorithmes de sélection de fonctionnalités, tels que l'élimination récursive de fonctionnalités (RFE), la sélection de fonctionnalités basée sur une arborescence, etc. Ces algorithmes peuvent nous aider à sélectionner automatiquement les fonctionnalités les plus pertinentes. Enfin, nous pouvons entraîner le modèle à l'aide des fonctionnalités sélectionnées et l'évaluer. En utilisant Scikit-Learn pour la sélection des fonctionnalités, nous pouvons obtenir des modèles d'apprentissage automatique plus précis et plus efficaces.
Dans l'apprentissage automatique, la sélection de fonctionnalités consiste à sélectionner certaines des fonctionnalités les plus pertinentes à partir des données d'origine afin de réduire la complexité du modèle et d'améliorer ses performances. L'objectif est de trouver le nombre minimum de fonctionnalités tout en conservant la séparabilité et les performances prédictives de l'ensemble de données. La sélection de fonctionnalités aide à résoudre les problèmes suivants :
1. Augmenter la capacité de généralisation du modèle : la sélection de fonctionnalités peut réduire le bruit et les fonctionnalités redondantes, améliorant ainsi la capacité de généralisation du modèle.
2. Réduisez le temps de formation : la sélection des fonctionnalités peut réduire le temps de formation du modèle car le modèle n'a besoin d'apprendre que les fonctionnalités les plus importantes.
3. Améliorer l'interprétabilité du modèle : la sélection des fonctionnalités peut nous aider à comprendre quelles fonctionnalités sont les plus importantes pour la prédiction du modèle.
Les méthodes de sélection de fonctionnalités peuvent être divisées en trois catégories :
1 Méthodes de filtrage : Ces méthodes utilisent des méthodes statistiques ou de théorie de l'information pour évaluer la pertinence de chaque fonctionnalité et sélectionner les fonctionnalités les plus pertinentes. Les méthodes de filtrage sont souvent rapides mais peuvent ignorer les interactions entre les fonctionnalités.
2. Méthodes d'emballage : ces méthodes utilisent les performances du modèle comme indicateur de sélection de fonctionnalités et tentent de trouver le sous-ensemble de fonctionnalités optimal. Les méthodes de packaging sont généralement plus précises mais prennent plus de temps que les méthodes de filtrage.
3. Méthodes d'intégration : ces méthodes utilisent la sélection de fonctionnalités dans le cadre du modèle et sélectionnent le sous-ensemble de fonctionnalités optimal pendant le processus d'apprentissage. Les méthodes d'intégration sont généralement plus précises que les méthodes de filtrage, mais sont plus coûteuses en termes de calcul.
Dans Scikit-Learn, nous pouvons utiliser diverses méthodes de sélection de fonctionnalités pour sélectionner le sous-ensemble de fonctionnalités optimal.
Scikit-Learn propose de nombreuses méthodes de sélection de fonctionnalités, notamment des méthodes de filtrage, des méthodes d'empaquetage et des méthodes d'intégration. Certaines méthodes de sélection de fonctionnalités couramment utilisées seront présentées ci-dessous.
1. Méthode de sélection de variance
La méthode de sélection de variance est une méthode de filtrage qui évalue la variance de chaque caractéristique et sélectionne les caractéristiques à forte variance. La méthode de sélection de variance fonctionne bien pour les caractéristiques binaires ou numériques, mais pas pour les caractéristiques catégorielles.
Dans Scikit-Learn, nous pouvons utiliser la classe VarianceThreshold pour implémenter la méthode de sélection de variance. Cette classe peut définir un seuil de variance et conserver uniquement les entités dont la variance est supérieure au seuil. Par exemple, le code suivant supprimera les fonctionnalités dont la variance est inférieure à 0,01 :
from sklearn.feature_selection import VarianceThreshold # 创建方差选择器对象 selector = VarianceThreshold(threshold=0.01) # 训练方差选择器并应用于数据 X_train_selected = selector.fit_transform(X_train)
2. Méthode d'information mutuelle
La méthode d'information mutuelle est une méthode de filtrage qui évalue les informations mutuelles entre chaque fonctionnalité et la variable cible et sélectionne celles-ci. avec des caractéristiques d'information mutuelle élevée. La méthode d'information mutuelle convient aux caractéristiques catégorielles ou aux caractéristiques numériques.
Dans Scikit-Learn, nous pouvons utiliser les fonctions mutual_info_classif et mutual_info_regression pour calculer les informations mutuelles des caractéristiques catégorielles et des caractéristiques numériques, par exemple :
from sklearn.feature_selection import mutual_info_classif,mutual_info_regression # 计算数值特征的互信息 mi = mutual_info_regression(X_train, y_train) # 计算分类特征的互信息 mi = mutual_info_classif(X_train, y_train)
Nous pouvons sélectionner des fonctionnalités avec une information mutuelle élevée, par exemple :
from sklearn.feature_selection import SelectKBest # 创建互信息选择器对象 selector = SelectKBest(mutual_info_classif, k=10) # 训练互信息选择器并应用于数据 X_train_selected = selector.fit_transform(X_train, y_train)
Le code ci-dessus Les 10 fonctionnalités avec l'information mutuelle la plus élevée seront sélectionnées.
3. Méthode d'élimination de fonctionnalités récursive
La méthode d'élimination de fonctionnalités récursive est une méthode wrapper qui utilise les performances du modèle comme indicateur de sélection de fonctionnalités et tente de trouver le sous-ensemble de fonctionnalités optimal. L'élimination récursive des fonctionnalités commence par un ensemble initial de fonctionnalités, utilise le modèle pour classer les fonctionnalités et supprime les fonctionnalités les moins importantes jusqu'à ce que le nombre souhaité de fonctionnalités soit atteint.
Dans Scikit-Learn, nous pouvons utiliser la classe RFECV pour implémenter la méthode d'élimination de fonctionnalités récursive. Cette classe peut configurer un modèle et une méthode de validation croisée, et utiliser l'élimination récursive de fonctionnalités pour sélectionner le sous-ensemble de fonctionnalités optimal. Par exemple :
from sklearn.feature_selection import RFECV from sklearn.linear_model import LinearRegression # 创建递归特征消除器对象 estimator = LinearRegression() selector = RFECV(estimator, cv=5) # 训练递归特征消除器并应用于数据 X_train_selected = selector.fit_transform(X_train, y_train)
Le code ci-dessus utilisera un modèle de régression linéaire et une méthode de validation croisée 5 fois pour effectuer l'élimination récursive des fonctionnalités et sélectionner le sous-ensemble de fonctionnalités optimal.
4.Régularisation L1
La régularisation L1 est une méthode d'intégration qui utilise la norme L1 comme terme de régularisation pour pénaliser les paramètres du modèle, réduisant ainsi la complexité du modèle et sélectionnant des fonctionnalités utiles. Dans Scikit-Learn, nous pouvons utiliser le modèle de régression Lasso pour implémenter la régularisation L1 et sélectionner des fonctionnalités avec des coefficients non nuls. Par exemple :
from sklearn.linear_model import Lasso # 创建Lasso回归模型对象 lasso = Lasso(alpha=0.1) # 训练Lasso模型并选择特征 lasso.fit(X_train, y_train) X_train_selected = lasso.transform(X_train)
Le code ci-dessus utilisera le modèle de régression Lasso et le paramètre de régularisation alpha=0,1 pour la sélection des fonctionnalités.
Scikit-Learn propose de nombreuses méthodes de sélection de fonctionnalités, notamment des méthodes de filtrage, des méthodes d'encapsulage et des méthodes d'intégration. Chaque méthode a ses avantages et ses inconvénients, et nous pouvons choisir la méthode appropriée en fonction des caractéristiques de l'ensemble de données et des besoins du problème. En pratique, la sélection de fonctionnalités peut nous aider à réduire la complexité du modèle, à améliorer la capacité de généralisation du modèle, à réduire le temps de formation et à améliorer l'interprétabilité du modèle.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!