Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Zum Zusammenhang zwischen Ähnlichkeitsmaßen und Distanzmaßen

Zum Zusammenhang zwischen Ähnlichkeitsmaßen und Distanzmaßen

WBOY
WBOYnach vorne
2024-01-22 18:21:141054Durchsuche

Zum Zusammenhang zwischen Ähnlichkeitsmaßen und Distanzmaßen

In Anwendungen des maschinellen Lernens ist das Ähnlichkeitsmaß ein Indikator, der zur Bewertung der Ähnlichkeit zweier Beispielobjekte verwendet wird. In der Regel mithilfe von Distanzmaßen dargestellt, können effektive Distanzmaße die Leistung von Modellen für maschinelles Lernen verbessern.

Vom numerischen Verhältnis her sind das Ähnlichkeitsmaß und das Distanzmaß jedoch genau das Gegenteil.

Das Ähnlichkeitsmaß wird normalerweise als numerischer Wert ausgedrückt. Je höher der Wert, desto ähnlicher sind die Datenproben. Im Allgemeinen wird für die Konvertierung eine Zahl zwischen 0 und 1 verwendet, wobei 0 eine geringe Ähnlichkeit anzeigt, d. h. die Datenobjekte sind nicht ähnlich, und 1 eine hohe Ähnlichkeit angibt, was darauf hinweist, dass die Datenobjekte sehr ähnlich sind.

Die Distanzmetrik gibt an, dass die Ähnlichkeit von Datenobjekten umgekehrt proportional zum Distanzwert ist.

Häufig verwendete Distanzmetrik

Euklidische Distanz

ist die euklidische Metrik, die den Mindestabstand zwischen zwei Punkten darstellt. Die meisten maschinellen Lernalgorithmen verwenden diese Distanzmetrik, um die Ähnlichkeit von Beobachtungen zu messen.

Manhattan-Entfernung

Die Manhattan-Entfernung ist die Gesamtdifferenz zwischen zwei Orten in allen Dimensionen. Da es nahezu unmöglich ist, sich in der Stadt geradlinig fortzubewegen, werden Gebäude in einem Raster gruppiert, das gerade Wege versperrt. Der Begriff „Manhattan-Distanz“ wird oft verwendet, um die Entfernung zwischen zwei Stadtblöcken zu bezeichnen.

Minkowski-Distanz (Minkowski-Distanz)

ist eine verallgemeinerte Form der euklidischen Distanz und Manhattan-Distanz und definiert die Distanz zwischen zwei Beobachtungen im nD-Raum.

Hamming-Distanz

Hamming-Distanz misst die Ähnlichkeit zweier Saiten gleicher Länge. Die Hamming-Distanz ist die Anzahl der Punkte, um die sich entsprechende Zeichen zwischen zwei Zeichenfolgen gleicher Länge unterscheiden.

Kosinusabstand (Kosinusähnlichkeit)

Diese Metrik wird häufig in Text-Mining-, Natural-Language-Processing- und Information-Retrieval-Systemen verwendet, um die Ähnlichkeit zwischen zwei gegebenen Dokumenten zu messen.

Tschebyscheff-Abstand

Der Tschebyscheff-Abstand zwischen zwei nD-Beobachtungen oder Vektoren ist gleich dem maximalen Absolutwert der Änderung zwischen den Datenprobenkoordinaten. In der zweidimensionalen Welt kann der Tschebyscheff-Abstand zwischen Datenpunkten als Summe der absoluten Unterschiede ihrer zweidimensionalen Koordinaten bestimmt werden.

Mahalanobis-Distanz

wird hauptsächlich für multivariate statistische Tests verwendet, um den Abstand zwischen Datenpunkten und der Verteilung zu messen.

Chi-Quadrat-Abstand

Chi-Quadrat-Abstand wird häufig in der Bildverarbeitung zusammen mit der Texturanalyse verwendet, um Ähnlichkeiten zwischen normalisierten Histogrammen zu finden, was als „Histogramm-Matching“ bezeichnet wird.

Pearson-Korrelation

Der Pearson-Korrelationskoeffizient quantifiziert die Stärke der linearen monotonen Beziehung zwischen zwei Attributen und misst, ob die beiden Datensätze auf einer Linie liegen.

Spearman-Korrelation

Der Spearman-Korrelationskoeffizient ist ein nichtparametrischer Indikator, der die Abhängigkeit zweier Variablen misst. Er verwendet eine monotone Gleichung, um die Korrelation zweier statistischer Variablen zu bewerten. Der Spearman-Korrelationskoeffizient wird häufig zum Testen von Hypothesen verwendet.

Das obige ist der detaillierte Inhalt vonZum Zusammenhang zwischen Ähnlichkeitsmaßen und Distanzmaßen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:163.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen