>  기사  >  기술 주변기기  >  바서스타인 거리

바서스타인 거리

王林
王林앞으로
2024-01-22 23:03:041298검색

바서스타인 거리

Earth Mover's Distance라고도 알려진 Wasserstein 거리는 두 확률 분포 사이의 거리를 측정하는 데 사용되는 수학적 방법입니다. 유클리드 거리와 같은 전통적인 거리 측정 방법과 비교하여 Wasserstein 거리는 분포 간의 유사성과 기하학적 거리 간의 관계를 보다 포괄적으로 고려하므로 고차원 데이터 세트의 유사성을 설명하는 데 더 적합합니다. Wasserstein 거리는 한 분포를 다른 분포로 변환하는 데 필요한 최소 총 비용으로 계산됩니다. 이 비용은 배포판의 질량을 한 위치에서 다른 위치로 이동하는 데 필요한 노력으로 해석될 수 있습니다. 따라서 Wasserstein 거리는 두 분포 간의 물질 이동 비용으로 볼 수 있습니다. 이로 인해 Wasserstein distance는 이미지 처리, 자연어 처리, 경제학 등 다양한 분야에서 널리 사용됩니다. 분포 간의 유사성과 기하학적 거리를 고려하여

Wasserstein 거리의 정의는 하나의 분포를 다른 분포로 변환하는 데 필요한 비용을 최소화하는 데 기반을 둡니다. 이 비용은 임의적일 수 있지만 일반적으로 분포의 한 위치에서 다른 위치로 질량을 이동하는 비용을 의미하며, 이는 두 위치 사이의 거리와 질량의 곱으로 표현될 수 있습니다. Wasserstein 거리의 값은 가능한 모든 변환 솔루션 비용의 최소값과 같습니다.

수학적으로 Wasserstein 거리는 다음과 같이 정의할 수 있습니다.

W_p(mu,nu)=left(inf_{gammainGamma(mu,nu)}int_{mathbb{R}^d 곱하기 mathbb{R}^ d} |x-y|^p dgamma(x,y)right)^{1/p}

그 중 mu와 nu는 두 가지 확률 분포이고, Gamma(mu,nu)는 모두 mu를 변환하는 요소입니다. to nu 확률 분포 집합 gamma(x,y)는 (x,y)에 해당하는 변환 확률을 나타냅니다. Wasserstein 거리에서 pgeq 1은 상수이며 일반적으로 p=1 또는 p=2입니다. p=1인 경우 Wasserstein 거리는 한 분포를 다른 분포로 이동하는 데 필요한 최소 작업 수의 척도로 볼 수 있기 때문에 Earth Mover's Distance라고도 합니다.

Wasserstein 거리의 개념을 더 잘 이해하기 위해 간단한 예를 생각해 볼 수 있습니다. 각각 [0,1] 및 [0.5,1.5] 간격에 있는 두 개의 1차원 확률 분포 P와 Q가 있다고 가정합니다. 상단에 고르게 분포됩니다. Python 및 Scipy 라이브러리를 사용하여 이들 사이의 Wasserstein 거리를 계산할 수 있습니다.

import numpy as np
from scipy.stats import wasserstein_distance

# 定义两个概率分布 P 和 Q
P = np.ones(100) / 100
Q = np.ones(100) / 100
Q[50:] = 0

# 计算它们之间的바서스타인 거리
w_dist = wasserstein_distance(P, Q)
print("Wasserstein distance:", w_dist)

이 예에서는 numpy 라이브러리를 사용하여 두 개의 100개 요소 확률 분포를 생성했습니다. 둘 다 균일하게 분포됩니다. 그런 다음 두 번째 분포 Q의 마지막 50개 요소를 0으로 설정하여 구간 [0.5,1]에서의 분포를 시뮬레이션합니다. 마지막으로 Scipy 라이브러리의 wasserstein_distance 함수를 사용하여 이들 사이의 Wasserstein 거리를 계산합니다. 코드를 실행하면 다음과 같은 출력을 얻을 수 있습니다.

Wasserstein distance: 0.5

이는 분포 P를 분포 Q로 변환하는 데 필요한 최소 비용이 0.5라는 의미입니다. 이 예에서는 길이가 0.5인 흙더미를 길이가 0.5인 구덩이로 이동하는 데 필요한 최소 거리로 해석할 수 있습니다.

간단히 말하면, Wasserstein 거리는 두 확률 분포 사이의 거리를 측정하는 방법으로, 분포 간의 유사성과 기하학적 거리 사이의 관계를 고려합니다. GAN(Generative Adversarial Network)의 손실 함수 및 이미지 검색의 유사성 측정과 같은 다양한 응용 분야가 있습니다.

위 내용은 바서스타인 거리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제