기계 학습 애플리케이션에서 유사성 측정은 두 샘플 개체의 유사성을 평가하는 데 사용되는 지표입니다. 일반적으로 거리 측정값을 사용하여 표현되는 효과적인 거리 측정값은 기계 학습 모델의 성능을 향상시킬 수 있습니다.
그러나 수치적 관계로 보면 유사성 척도와 거리 척도는 정반대입니다.
유사성 측정은 일반적으로 숫자 값으로 표현됩니다. 값이 높을수록 데이터 샘플이 더 유사합니다. 일반적으로 변환에는 0과 1 사이의 숫자가 사용됩니다. 여기서 0은 유사성이 낮음을 나타냅니다. 즉, 데이터 객체가 유사하지 않음을 나타내고 1은 유사성이 높음을 나타내며 데이터 객체가 매우 유사함을 나타냅니다.
거리 측정법은 데이터 객체의 유사성이 거리 값에 반비례한다는 것을 나타냅니다.
유클리드 거리
는 유클리드 측정법으로, 대부분의 기계 학습 알고리즘은 관찰의 유사성을 측정하기 위해 이 거리 측정법을 사용합니다.
Manhattan Distance
Manhattan 거리는 모든 차원에서 두 장소의 총 차이입니다. 도시에서는 직선으로 이동하는 것이 거의 불가능하기 때문에 건물들은 직선 경로를 차단하는 그리드로 그룹화됩니다. "맨해튼 거리"라는 용어는 종종 두 도시 블록 사이의 거리를 나타내는 데 사용됩니다.
Minkowski Distance
는 유클리드 거리와 맨해튼 거리의 일반화된 형태로, nD 공간에서 두 관측치 사이의 거리를 정의합니다.
Hamming Distance
Hamming distance는 길이가 같은 두 문자열의 유사성을 측정합니다. 해밍 거리는 같은 길이의 두 문자열 사이에서 해당 문자가 달라지는 지점의 수입니다.
코사인 거리(코사인 유사성)
이 측정항목은 텍스트 마이닝, 자연어 처리 및 정보 검색 시스템에서 주어진 두 문서 간의 유사성을 측정하는 데 널리 사용됩니다.
Chebyshev 거리
두 nD 관측값 또는 벡터 사이의 Chebyshev 거리는 데이터 샘플 좌표 간 변경의 최대 절대값과 같습니다. 2차원 세계에서 데이터 포인트 사이의 체비쇼프 거리는 2차원 좌표의 절대 차이의 합으로 결정될 수 있습니다.
Mahalanobis Distance
는 주로 데이터 포인트와 분포 사이의 거리를 측정하기 위한 다변량 통계 테스트에 사용됩니다.
Chi-square Distance
Chi-square distance는 "히스토그램 매칭"이라고 불리는 정규화된 히스토그램 사이의 유사점을 찾기 위한 텍스처 분석과 함께 컴퓨터 비전에서 자주 사용됩니다.
Pearson 상관 관계
Pearson 상관 계수는 두 속성 간의 선형 단조 관계의 강도를 수량화하고 두 데이터 세트가 직선에 있는지 여부를 측정합니다.
Spearman Correlation
Spearman 상관 계수는 두 변수의 종속성을 측정하는 비모수적 지표로, 두 통계 변수의 상관 관계를 평가하기 위해 단조 방정식을 사용합니다. Spearman 상관 계수는 가설 검정에 자주 사용됩니다.
위 내용은 유사성 척도와 거리 척도의 관계의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!