Maison  >  Article  >  Périphériques technologiques  >  Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

WBOY
WBOYavant
2023-04-11 23:40:151721parcourir

Cet article est réimprimé du compte public WeChat « Vivre à l'ère de l'information ». L'auteur vit à l'ère de l'information. Pour réimprimer cet article, veuillez contacter le compte public Vivre à l’ère de l’information.

Dans l'apprentissage automatique, un concept de base est de savoir comment juger la différence entre deux échantillons, afin de pouvoir évaluer la similarité et les informations de catégorie entre les deux échantillons. La mesure permettant de juger de cette similarité est la distance entre deux échantillons dans l'espace des caractéristiques.

Il existe de nombreuses méthodes de mesure basées sur différentes caractéristiques des données. De manière générale, pour deux échantillons de données x, y, définissez une fonction d(x, y). Si elle est définie comme la distance entre les deux échantillons, alors d(x, y) doit satisfaire les propriétés de base suivantes :

    .
  • Non-négativité : d(x,y)>=0
  • Identité : d(x,y)=0 ⇔ x=y
  • Symétrie : d(x,y)=d(y, x)
  • Triangle inégalité : d(x, y)

De manière générale, les mesures de distance courantes incluent : la distance des points dans l'espace, la chaîne. Il existe quatre types de distance, la similarité entre ensembles et la distance entre les distributions de variables/concepts.

Aujourd'hui, nous présenterons d'abord la distance des points les plus couramment utilisés dans l'espace.

La distance entre les points dans l'espace comprend les types suivants :

1. Distance euclidienne

Il ne fait aucun doute que la distance euclidienne est la distance la plus familière aux gens. distance entre. Les élèves qui ont étudié les mathématiques au collège savent tous comment calculer la distance entre deux points du système de coordonnées cartésiennes dans l'espace à deux dimensions. La formule de calcul est :

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

étendue à l'espace à N dimensions L'Euclidien. la distance est :

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

2. Manhattan Distance

La distance de Manhattan est aussi appelée distance de taxi Son concept vient de Manhattan, New York, qui compte de nombreux blocs horizontaux et verticaux, dans ce genre de quartier,. si un chauffeur de taxi veut marcher d'un point à un autre, il est inutile de calculer la distance en ligne droite, car le taxi ne peut pas survoler les bâtiments. Par conséquent, cette distance est généralement calculée en soustrayant et en additionnant respectivement les distances est-ouest et nord-sud de deux points. Il s’agit de la distance réelle que le taxi doit parcourir. Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Comme le montre la figure, la ligne rouge et la ligne jaune sont les distances de Manhattan de deux chemins différents. Mathématiquement, la méthode de calcul de la distance de Manhattan dans l'espace bidimensionnel est la suivante :

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

3 Distance de Chebyshev (distance de Chebyshev)

La distance de Chebyshev est définie comme la différence numérique de chaque coordonnée entre deux points. .valeur maximale. Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

L'exemple le plus intuitif est le roi aux échecs, car il peut se déplacer latéralement, en ligne droite et en diagonale, mais il ne peut se déplacer que d'une case à la fois, donc la distance de Chebyshev est lorsqu'il doit se déplacer vers une autre. distance minimale requise pour la grille.


4. Distance Minkowski

La distance Minkowski elle-même n'est pas une distance spéciale, mais une combinaison de plusieurs distances (distance de Manhattan, distance euclidienne, distance de Chebyshev) combinées en une seule formule. Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Elle est définie comme, pour deux variables à n dimensions, la distance Min est :

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Quand p=1, vous pouvez voir que

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

est la distance de Manhattan à ce moment.

Quand p=2, vous pouvez voir que

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

est la distance euclidienne à ce moment.

Quand p=∞, vous pouvez voir que

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

est la distance de Chebyshev.

5. Distance euclidienne standardisée

La distance euclidienne peut mesurer la distance en ligne droite entre deux points, mais dans certains cas, elle peut être affectée par différentes unités. Par exemple, s’il y a en même temps une différence de hauteur de 5 mm et une différence de poids de 5 kg, la perception peut être complètement différente. Si l'on souhaite regrouper trois modèles, leurs attributs respectifs sont les suivants :

A : 65000000 mg (soit 65 kg), 1,74 m

B : 60000000 mg (soit 60 kg), 1,70 m

C : 65000000 mg ( soit 65 kg), 1,40 mètres

Selon notre compréhension normale, A et B sont des modèles avec de meilleures silhouettes et devraient être classés dans la même catégorie. Cependant, lors du calcul dans les unités ci-dessus, on constate que la différence entre A et B est supérieure à la différence entre A et C. La raison en est que les différentes unités de mesure des attributs conduisent à des différences numériques excessives. Si les mêmes données sont modifiées dans une autre unité.

A : 65 kg, 174 cm

B : 60 kg, 170 cm

C : 65 kg, 140 cm

Nous obtiendrons ensuite le résultat auquel nous pensions, en classant A et B dans la même catégorie. Par conséquent, afin d’éviter de telles différences dues à des unités de mesure différentes, nous devons introduire une distance euclidienne standardisée. Dans ce calcul de distance, chaque composante est normalisée sur un intervalle de moyenne et de variance égales.

Supposons que la moyenne (moyenne) de l'ensemble d'échantillons X est m et que l'écart type (écart type) est s, alors la "variable standardisée" de La valeur de - la moyenne du composant) / l'écart type du composant. Après une simple dérivation, nous pouvons obtenir la formule de distance euclidienne standardisée entre deux vecteurs à n dimensions :

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Si l'inverse de la variance est considérée comme un poids, cette formule peut être considérée comme une distance euclidienne pondérée (pondérée distance euclidienne). Grâce à cette opération, nous éliminons efficacement les différences entre les différentes unités de poids.

6. Distance de Lance et Williams Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

La distance de Lance est également appelée distance de Canberra,

C'est un indicateur sans dimension qui surmonte les différences entre la distance de Min et divers indicateurs. est insensible aux grandes valeurs singulières, ce qui le rend particulièrement adapté aux données présentant un biais de planification. Mais cette distance ne prend pas non plus en compte la corrélation entre les variables. Par conséquent, si vous devez considérer la corrélation entre les variables, vous avez toujours besoin de la distance de Mahalanobis.

7. Distance MahalanobisDistance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Après avoir normalisé les valeurs, n'y aura-t-il aucun problème ? Pas nécessairement. Par exemple, dans un exemple unidimensionnel, s’il existe deux classes, une classe a une moyenne de 0 et une variance de 0,1, et l’autre classe a une moyenne de 5 et une variance de 5. Alors si un point d’une valeur de 2 doit appartenir à quelle catégorie ? Nous pensons intuitivement qu’il doit s’agir de la deuxième catégorie, car il est évidemment peu probable que la première catégorie atteigne numériquement 2. Mais en fait, s’il est calculé à partir de la distance, le chiffre 2 doit appartenir à la première catégorie.

Ainsi, dans une dimension avec une faible variance, une petite différence peut devenir une valeur aberrante. Par exemple, dans la figure ci-dessous, A et B sont à la même distance de l'origine, mais comme l'échantillon entier est distribué le long de l'axe horizontal, le point B est plus susceptible d'être un point de l'échantillon, tandis que le point A est plus probablement une valeur aberrante.

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Des problèmes surviendront également lorsque les dimensions ne sont pas indépendantes et distribuées de manière identique. Par exemple, dans la figure ci-dessous, le point A et le point B sont égaux à la distance de l'origine, mais la distribution principale est similaire à. f(x) =x, donc A ressemble plus à une valeur aberrante.

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Donc, nous pouvons voir que dans ce cas, la distance euclidienne standardisée aura également des problèmes, nous devons donc introduire la distance de Mahalanobis.

La distance de Mahalanobis fait pivoter les variables en fonction des composantes principales pour rendre les dimensions indépendantes les unes des autres, puis les standardise pour que les dimensions soient également réparties. La composante principale est la direction du vecteur propre, il vous suffit donc de faire pivoter selon la direction du vecteur propre, puis de mettre à l'échelle les temps de valeur propre. Par exemple, une fois l'image ci-dessus transformée, le résultat suivant sera obtenu :

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

On peut voir que les valeurs aberrantes ont été séparées avec succès.

La distance de Mahalanobis a été proposée par le mathématicien indien Mahalanobis et représente la distance de covariance des données. C'est une méthode efficace pour calculer la similarité de deux ensembles d'échantillons inconnus.

Pour un vecteur multivarié

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

avec moyenne

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

et matrice de covariance Σ, sa distance de Mahalanobis (la distance de Mahalanobis d'un seul point de données) est :

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Pour le degré de différence entre deux variables aléatoires X et Y qui obéissent à la même distribution et dont la matrice de covariance est Σ, la distance de Mahalanobis entre les points de données x, y est :

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

Si la matrice de covariance est l'identité matrice, alors la distance de Mahalanobis est simplifiée en distance euclidienne. Si la matrice de covariance est une matrice diagonale, alors la distance de Mahalanobis devient la distance euclidienne standardisée.

8. Distance cosinus

Comme son nom l'indique, la distance cosinus vient du cosinus de l'angle en géométrie. Elle peut être utilisée pour mesurer la différence dans la direction de deux vecteurs, plutôt que la distance ou la longueur. Lorsque la valeur du cosinus est 0, les deux vecteurs sont orthogonaux et l'angle inclus est de 90 degrés. Plus l'angle est petit, plus la valeur du cosinus est proche de 1 et la direction est plus cohérente.

Dans l'espace à N dimensions, la distance cosinus est :


Il convient de souligner que la distance cosinus ne satisfait pas l'inégalité triangulaire.

9. Distance géodésique

La distance géodésique fait à l'origine référence à la distance la plus courte entre les surfaces des sphères. Lorsque l’espace caractéristique est un plan, la distance géodésique est la distance euclidienne. En géométrie non euclidienne, la ligne la plus courte entre deux points de la sphère est le grand arc reliant les deux points. Les côtés des triangles et des polygones de la sphère sont également composés de ces grands arcs.

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

10. Distance Bray Curtis

La distance Bray Curtis est principalement utilisée en botanique, en écologie et en sciences de l'environnement, et elle peut être utilisée pour calculer les différences entre les échantillons. La formule est :

Distance numérique basée sur l'apprentissage automatique : la distance entre les points dans l'espace

La valeur est comprise entre [0, 1]. Si les deux coordonnées vectorielles sont 0, alors la valeur n'a aucun sens.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer