Maison > Article > Périphériques technologiques > Introduction aux 12 algorithmes les plus importants d'apprentissage non supervisé et un résumé de leurs cas d'utilisation
L'apprentissage non supervisé est une autre méthode d'apprentissage automatique traditionnelle opposée à l'apprentissage supervisé. L'apprentissage non supervisé n'a aucune annotation de données, seulement les données elles-mêmes.
Il existe plusieurs types d'algorithmes d'apprentissage non supervisé, voici les 12 plus importants :
Le clustering à k-moyennes est un algorithme de clustering populaire. données en k groupes.
L'analyse en composantes principales (ACP) est un algorithme de réduction de dimensionnalité qui projette les données dans un espace de faible dimension et peut être utilisée pour transformer les données. Réduction de la dimensionnalité à ses caractéristiques les plus importantes.
Des machines vectorielles de support peuvent être utilisées pour la détection des anomalies (exemple). Les algorithmes de détection d'anomalies sont utilisés pour détecter des points anormaux dans des ensembles de données. Il existe de nombreuses méthodes de détection d'anomalies, mais la plupart d'entre elles peuvent être divisées en supervisées et non supervisées. Les méthodes supervisées nécessitent des ensembles de données étiquetés, contrairement aux méthodes non supervisées.
Les algorithmes de détection d'anomalies non supervisés sont généralement basés sur l'estimation de la densité, essayant de trouver des points en dehors des régions denses dans l'espace de données.
Une méthode simple consiste à calculer la distance moyenne de chaque point à ses k voisins les plus proches. Les points très éloignés des points voisins sont susceptibles d’être des valeurs aberrantes.
Il existe également de nombreux algorithmes de détection d'anomalies basés sur la densité, notamment Local Outlier Factor (LOF) et Support Vector Domain Description (SVDD). Ces algorithmes sont plus complexes que les simples méthodes du k-voisin le plus proche et peuvent souvent détecter des anomalies plus subtiles. La plupart des algorithmes de détection d'anomalies nécessitent des réglages, par exemple en spécifiant un paramètre pour contrôler la sensibilité de l'algorithme aux anomalies. Si les paramètres sont trop faibles, l'algorithme peut manquer certaines anomalies. S'il est réglé trop haut, l'algorithme peut produire des faux positifs (identifiant les points normaux comme des points anormaux).
L'algorithme de segmentation peut segmenter l'image en premier plan et en arrière-plan.
Ces algorithmes peuvent segmenter automatiquement des ensembles de données en groupes significatifs sans avoir recours à une supervision humaine. L’un des algorithmes les plus connus dans ce domaine est l’algorithme des k-moyennes. Cet algorithme divise les points de données en k groupes en minimisant la somme des carrés des distances au sein du groupe.
Un autre algorithme de segmentation populaire est l'algorithme de décalage moyen. L'algorithme fonctionne en déplaçant de manière itérative chaque point de données vers le centre de son voisinage local. Le décalage moyen est robuste aux valeurs aberrantes et peut gérer des ensembles de données de densité inégale. Mais l’exécuter sur de grands ensembles de données peut s’avérer coûteux en termes de calcul.
Le modèle de mélange gaussien (GMM) est un modèle probabiliste qui peut être utilisé pour la segmentation. Auparavant, la formation de GMM nécessitait beaucoup de calculs, mais les progrès récents de la recherche l'ont rendu plus rapide. gmm est très flexible et peut être utilisé avec tout type de données. Mais parfois, ils ne produisent pas toujours les meilleurs résultats. Pour les ensembles de données simples, k-means est un bon choix, tandis que gmm convient mieux aux ensembles de données complexes. Le décalage moyen peut être utilisé dans les deux cas, mais peut être coûteux en calcul sur de grands ensembles de données.
La transformation en ondelette peut être utilisée pour le débruitage de l'image. Mais le bruit peut provenir de diverses sources, notamment la corruption des données, les valeurs manquantes et les valeurs aberrantes. Les algorithmes de débruitage améliorent la précision des modèles d'apprentissage non supervisés en réduisant la quantité de bruit dans les données.
Il existe de nombreux algorithmes de débruitage, notamment l'analyse en composantes principales (ACP), l'analyse en composantes indépendantes (ICA) et la factorisation matricielle non négative (NMF).
La prédiction de liens peut être utilisée pour prédire qui deviendra amis dans un réseau social. L'un des algorithmes de prédiction de liens les plus couramment utilisés est l'algorithme de jointure préférentielle, qui prédit que deux nœuds sont plus susceptibles d'être connectés s'ils disposent de nombreuses connexions existantes.
Un autre algorithme de prédiction de lien populaire est l'algorithme de chemin local, qui prédit que deux nœuds sont plus susceptibles d'être associés s'ils partagent un voisin commun. Cet algorithme peut capturer le concept « d'équivalence structurelle » et est donc fréquemment utilisé dans les réseaux biologiques.
Enfin, l'algorithme de marche aléatoire avec redémarrage est également un algorithme de prédiction de lien, qui simule un marcheur aléatoire sur le réseau et redémarre le marcheur sur un nœud aléatoire [17]. La probabilité qu'un marcheur arrive à un nœud spécifique est ensuite utilisée pour mesurer la probabilité qu'une connexion existe entre deux nœuds.
Le Q-learning est un exemple d'algorithme d'apprentissage basé sur les valeurs, il est simple à mettre en œuvre et polyvalent. Mais le Q-learning converge parfois vers des solutions sous-optimales. Un autre exemple est l’apprentissage TD, qui nécessite plus de calculs que le Q-learning, mais conduit souvent à de meilleures solutions.
Les encodeurs automatiques sont des modèles génératifs qui peuvent être utilisés pour créer des images uniques à partir d'ensembles de données d'images. En apprentissage automatique, un modèle génératif est un modèle qui capture les propriétés statistiques d'un ensemble de données. Ces modèles peuvent être utilisés pour générer de nouvelles données, tout comme les données sur lesquelles ils ont été formés.
Les modèles génératifs sont utilisés pour diverses tâches telles que l'apprentissage non supervisé, la compression de données et le débruitage. Il existe de nombreux types de modèles génératifs, tels que les modèles de Markov cachés et les machines de Boltzmann. Chaque modèle a ses avantages et ses inconvénients et convient à différentes tâches.
Les modèles de Markov cachés sont efficaces pour modéliser des données séquentielles, tandis que les machines Boltzmann sont meilleures pour modéliser des données de grande dimension. Les modèles génératifs peuvent être utilisés pour un apprentissage non supervisé en les entraînant sur des données non étiquetées. Une fois le modèle entraîné, il peut être utilisé pour générer de nouvelles données. Ces données générées peuvent ensuite être étiquetées par des humains ou d’autres algorithmes d’apprentissage automatique. Ce processus peut être répété jusqu'à ce que le modèle génératif apprenne à générer des données qui ressemblent au résultat souhaité.
Pour l'apprentissage non supervisé, la forêt aléatoire peut trouver un groupe d'entrées similaires, identifier les valeurs aberrantes et compresser les données.
Il a été prouvé que Random Forest surpasse d'autres algorithmes d'apprentissage automatique populaires (tels que les machines à vecteurs de support) pour les tâches supervisées et non supervisées. Les forêts aléatoires sont un outil puissant pour l’apprentissage non supervisé, car elles peuvent gérer des données de grande dimension dotées de nombreuses fonctionnalités. Ils résistent également au surapprentissage, ce qui signifie qu’ils se généralisent bien aux nouvelles données.
Il est basé sur la densité, c'est-à-dire le nombre de points dans chaque région. DBSCAN pointe les points au sein d'un groupe s'ils sont proches les uns des autres et ignore les points s'ils sont plus éloignés. DBSCAN présente certains avantages par rapport aux autres algorithmes de clustering. Il peut trouver des clusters de différentes tailles et formes et ne nécessite pas que l'utilisateur spécifie le nombre de clusters à l'avance. De plus, DBSCAN est insensible aux valeurs aberrantes, ce qui signifie qu'il peut être utilisé pour rechercher des données qui ne sont pas bien représentées par d'autres ensembles de données. Mais DBSCAN présente également quelques défauts. Par exemple, il peut avoir des difficultés à trouver de bons clusters dans un ensemble de données très bruyantes. L'autre chose est que DBSCAN nécessite un seuil de densité, qui peut ne pas être applicable à tous les ensembles de données.
L'algorithme Apriori est le premier algorithme d'exploration de règles d'association et l'algorithme le plus classique. Cela fonctionne en trouvant d'abord tous les ensembles d'éléments fréquents dans les données, puis en utilisant ces ensembles d'éléments pour générer des règles.
Il existe de nombreuses façons d'implémenter l'algorithme Apriori, qui peuvent être personnalisées pour différents besoins. Par exemple, les seuils de support et de confiance peuvent être contrôlés pour trouver différents types de règles.
L'algorithme Eclat est un algorithme axé sur la profondeur qui utilise la représentation verticale des données et est basé sur le. théorie du réseau de concepts. L'espace de recherche (réseau de concepts) est divisé en sous-espaces plus petits (réseau de sous-concepts) à l'aide de relations d'équivalence basées sur des préfixes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!