T-분산 확률론적 이웃 임베딩(t-SNE)은 비선형 차원 축소 기술을 사용하여 데이터 포인트와 특징의 유사성을 기반으로 고차원 합을 최소화하려는 시각화용 비지도 기계 학습 알고리즘입니다. 저차원 공간의 데이터 포인트를 완벽하게 표현하기 위해 저차원 공간에서 이러한 조건부 확률(또는 유사성) 사이를 연결합니다.
따라서 t-SNE는 시각화를 위해 2차원 또는 3차원의 저차원 공간에 고차원 데이터를 삽입하는 데 능숙합니다. t-SNE는 가우스 분포 대신 저차원 공간에서 두 점 사이의 유사성을 계산하기 위해 두꺼운 꼬리 분포를 사용하므로 크라우딩 및 최적화 문제를 해결하는 데 도움이 됩니다. 그리고 이상값은 t-SNE에 영향을 미치지 않습니다.
1. 고차원 공간에서 인접한 점 간의 쌍별 유사성을 찾습니다.
2. 고차원 공간의 점들의 쌍별 유사성을 기반으로 고차원 공간의 각 점을 저차원 지도에 매핑합니다.
3. Kullback-Leibler 발산(KL 발산)을 기반으로 하는 경사하강법을 사용하여 조건부 확률 분포 간의 불일치를 최소화하는 저차원 데이터 표현을 찾습니다.
4. Student-t 분포를 사용하여 저차원 공간에서 두 점 간의 유사성을 계산합니다.
가져오기 모듈
# Importing Necessary Modules. import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.manifold import TSNE from sklearn.preprocessing import StandardScaler
데이터 읽기
# Reading the data using pandas df = pd.read_csv('mnist_train.csv') # print first five rows of df print(df.head(4)) # save the labels into a variable l. l = df['label'] # Drop the label feature and store the pixel data in d. d = df.drop("label", axis = 1)
데이터 전처리
# Data-preprocessing: Standardizing the data from sklearn.preprocessing import StandardScaler standardized_data = StandardScaler().fit_transform(data) print(standardized_data.shape)
출력
# TSNE # Picking the top 1000 points as TSNE # takes a lot of time for 15K points data_1000 = standardized_data[0:1000, :] labels_1000 = labels[0:1000] model = TSNE(n_components = 2, random_state = 0) # configuring the parameters # the number of components = 2 # default perplexity = 30 # default learning rate = 200 # default Maximum number of iterations # for the optimization = 1000 tsne_data = model.fit_transform(data_1000) # creating a new data frame which # help us in plotting the result data tsne_data = np.vstack((tsne_data.T, labels_1000)).T tsne_df = pd.DataFrame(data = tsne_data, columns =("Dim_1", "Dim_2", "label")) # Plotting the result of tsne sn.FacetGrid(tsne_df, hue ="label", size = 6).map( plt.scatter, 'Dim_1', 'Dim_2').add_legend() plt.show()
위 내용은 t-SNE 알고리즘의 원리와 Python 코드 구현에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!