Maison >développement back-end >Tutoriel Python >Introduction détaillée à l'algorithme KNN (algorithme k-nearest voisin) en Python (avec exemples)

Introduction détaillée à l'algorithme KNN (algorithme k-nearest voisin) en Python (avec exemples)

不言avant: 2019-01-14 11:24:173608parcourir

Cet article vous apporte une introduction détaillée à l'algorithme KNN (algorithme du k-plus proche voisin) en Python (avec des exemples). Il a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer. . a aidé.

L'algorithme KNN est un algorithme de classification des données. La catégorie des k données du voisin le plus proche de l'échantillon représente la catégorie de l'échantillon, c'est pourquoi on l'appelle également l'algorithme du k-voisin le plus proche. L'algorithme KNN est l'une des méthodes les plus simples d'exploration de données et peut être grossièrement divisé en les étapes suivantes :

Données d'entraînement : données de toutes les catégories de données dans l'ensemble de données d'origine.
Données de test : l'échantillon de données que nous utiliserons pour les tests.
Traitement des données

Les données de test que nous obtenons sont généralement de dimensions différentes de celles des données de formation. À ce stade, nous devons mettre à niveau les données. données de test La dimension est la même que celle des données d'entraînement. Le numpy de Python est livré avec une fonction Tile() qui peut nous aider à augmenter la dimension des données de test.

Vectoriser les données

Une fois la dimensionnalité des données de test augmentée, afin de calculer la distance du point d'échantillonnage, nous avons besoin pour vectoriser les données à ce moment-là, ce qu'on appelle la vectorisation est très simple, c'est-à-dire soustraire deux données de même dimension.

Calculer la distance euclidienne

La distance euclidienne, c'est-à-dire la distance euclidienne, peut être calculée à l'aide du théorème de Pythagore. chaque vecteur du groupe de vecteurs obtenu en soustrayant les données de test et les données d'apprentissage peut être utilisé pour obtenir un groupe de vecteurs composé de distances.

Classer en fonction de la distance

Sélectionnez k données avec la plus petite distance du point d'échantillonnage et comptez quelles catégories de données parmi ces k données Avec la fréquence d'occurrence la plus élevée, la catégorie de données du point d'échantillonnage peut être déterminée.

Implémentation de l'algorithme :

1. Nous devons d'abord introduire numpy et l'opérateur, saisir from numpy import * et import operator.

2. Ensuite, nous devons définir une fonction knn. Dans la fonction knn, nous devons introduire quatre paramètres, à savoir k, les données d'entraînement, les données de test et la catégorie de données.

3. Ensuite, nous devons d'abord effectuer une opération d'amélioration de la dimensionnalité sur les données. Nous devons utiliser la fonction Tile(a,(b,c)) sous numpy, a étant les données à effectuer sur la dimensionnalité. opération d'amélioration, c'est-à-dire les données de test, b sont les données de ligne à mettre à niveau vers les données de test et c sont les données de colonne à mettre à niveau vers les données de test.