Maison >Périphériques technologiques >IA >Problème d'acquisition d'étiquettes dans l'apprentissage non supervisé
Le problème d'acquisition d'étiquettes dans l'apprentissage non supervisé nécessite des exemples de code spécifiques
Avec le développement du big data et de l'apprentissage automatique, l'apprentissage non supervisé est devenu l'une des méthodes importantes pour résoudre divers problèmes dans le monde réel. Contrairement à l'apprentissage supervisé, l'apprentissage non supervisé ne nécessite pas de données d'entraînement pré-étiquetées, mais apprend et prédit en découvrant automatiquement des modèles et des régularités à partir des données. Cependant, dans les applications pratiques, certaines informations sur l’étiquette ou la catégorie sont souvent nécessaires pour analyser et évaluer les données. Par conséquent, comment obtenir des labels dans l’apprentissage non supervisé devient une question clé.
Le problème d'acquisition d'étiquettes dans l'apprentissage non supervisé implique deux aspects : le clustering et la réduction de dimensionnalité. Le clustering est le processus de classification d'échantillons similaires dans la même catégorie ou groupe, ce qui peut nous aider à découvrir des structures cachées dans les données ; la réduction de dimensionnalité mappe les données de grande dimension dans un espace de faible dimension pour mieux visualiser et comprendre les données. Cet article présentera respectivement les problèmes d'acquisition d'étiquettes dans le clustering et la réduction de dimensionnalité, et donnera des exemples de code spécifiques.
1. Problème d'acquisition d'étiquettes en clustering
Le clustering est une méthode d'apprentissage non supervisée qui regroupe des échantillons similaires en différentes catégories ou groupes. En clustering, il est souvent nécessaire de comparer les résultats du clustering avec les étiquettes réelles pour évaluer la qualité et l'efficacité du clustering. Mais dans l’apprentissage non supervisé, il est difficile d’obtenir de véritables informations sur les étiquettes à des fins d’évaluation. Par conséquent, nous avons besoin de quelques techniques et méthodes pour obtenir les étiquettes des clusters.
Une méthode courante consiste à utiliser des indicateurs externes, tels que ARI (Adjusted Rand Index) et NMI (Normalized Mutual Information), pour mesurer la similarité entre les résultats du clustering et les étiquettes réelles. Ces métriques peuvent être calculées via le module de métriques de la bibliothèque sklearn. Voici un exemple d'utilisation de l'algorithme de clustering K-means pour obtenir des étiquettes :
from sklearn.cluster import KMeans from sklearn import metrics # 加载数据 data = load_data() # 初始化聚类器 kmeans = KMeans(n_clusters=3) # 进行聚类 labels = kmeans.fit_predict(data) # 计算外部指标ARI和NMI true_labels = load_true_labels() ari = metrics.adjusted_rand_score(true_labels, labels) nmi = metrics.normalized_mutual_info_score(true_labels, labels) print("ARI: ", ari) print("NMI: ", nmi)
Dans le code ci-dessus, les données sont d'abord chargées via la fonction load_data(), puis l'algorithme KMeans est utilisé pour le clustering et le fit_predict( ) est utilisée pour obtenir les étiquettes des clusters. Enfin, chargez les informations réelles de l'étiquette via la fonction load_true_labels() et utilisez ajusté_rand_score() et normalized_mutual_info_score() pour calculer les indicateurs ARI et NMI.
En plus des métriques externes, nous pouvons également utiliser des métriques internes pour évaluer la qualité du clustering. Les mesures internes sont calculées à partir des données et ne nécessitent pas d'informations réelles sur l'étiquette. Les indicateurs internes couramment utilisés incluent le coefficient Silhouette et l'indice DB (indice Davies-Bouldin). Voici un exemple d'utilisation de coefficients de silhouette pour obtenir des étiquettes :
from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score # 加载数据 data = load_data() # 初始化聚类器 kmeans = KMeans(n_clusters=3) # 进行聚类 labels = kmeans.fit_predict(data) # 计算轮廓系数 silhouette_avg = silhouette_score(data, labels) print("Silhouette Coefficient: ", silhouette_avg)
Dans le code ci-dessus, les données sont d'abord chargées via la fonction load_data(), puis l'algorithme KMeans est utilisé pour le clustering et la méthode fit_predict() est utilisée. pour obtenir les labels des clusters. Enfin, le coefficient silhouette est calculé via silhouette_score().
2. Problème d'acquisition d'étiquettes dans la réduction de dimensionnalité
La réduction de dimensionnalité est une méthode de mappage de données de haute dimension dans un espace de faible dimension, ce qui peut nous aider à mieux comprendre et visualiser les données. Dans la réduction de dimensionnalité, certaines informations d'étiquette ou de catégorie sont également nécessaires pour évaluer l'effet de la réduction de dimensionnalité.
Un algorithme de réduction de dimensionnalité couramment utilisé est l'analyse en composantes principales (ACP), qui mappe les données d'origine à un nouveau système de coordonnées par transformation linéaire. Lors de l'utilisation de PCA pour la réduction de dimensionnalité, nous pouvons utiliser les informations d'étiquette des données originales pour évaluer l'effet de la réduction de dimensionnalité. Voici un exemple d'utilisation de PCA pour obtenir des étiquettes :
from sklearn.decomposition import PCA # 加载数据和标签 data, labels = load_data_and_labels() # 初始化PCA模型 pca = PCA(n_components=2) # 进行降维 reduced_data = pca.fit_transform(data) # 可视化降维结果 plt.scatter(reduced_data[:, 0], reduced_data[:, 1], c=labels) plt.show()
Dans le code ci-dessus, les données et les étiquettes sont d'abord chargées via la fonction load_data_and_labels(), puis l'algorithme PCA est utilisé pour la réduction de dimensionnalité et la méthode fit_transform() est utilisé pour obtenir le résultat de la réduction de dimensionnalité. Enfin, la fonction scatter() est utilisée pour visualiser les résultats de la réduction de dimensionnalité, où les informations de l'étiquette sont représentées par la couleur.
Il est à noter que l'obtention de labels en apprentissage non supervisé est un moyen auxiliaire, différent de l'acquisition de labels en apprentissage supervisé. L'acquisition d'étiquettes dans l'apprentissage non supervisé sert davantage à évaluer et à comprendre l'effet du modèle et n'est pas nécessaire dans les applications pratiques. Par conséquent, lors du choix d’une méthode d’acquisition de balises, vous devez faire un choix flexible en fonction de scénarios d’application spécifiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!