>  기사  >  백엔드 개발  >  t-SNE 알고리즘의 원리와 Python 코드 구현에 대한 자세한 설명

t-SNE 알고리즘의 원리와 Python 코드 구현에 대한 자세한 설명

WBOY
WBOY앞으로
2024-01-22 23:48:051458검색

t-SNE 알고리즘의 원리와 Python 코드 구현에 대한 자세한 설명

T-분산 확률론적 이웃 임베딩(t-SNE)은 비선형 차원 축소 기술을 사용하여 데이터 포인트와 특징의 유사성을 기반으로 고차원 합을 최소화하려는 시각화용 비지도 기계 학습 알고리즘입니다. 저차원 공간의 데이터 포인트를 완벽하게 표현하기 위해 저차원 공간에서 이러한 조건부 확률(또는 유사성) 사이를 연결합니다.

따라서 t-SNE는 시각화를 위해 2차원 또는 3차원의 저차원 공간에 고차원 데이터를 삽입하는 데 능숙합니다. t-SNE는 가우스 분포 대신 저차원 공간에서 두 점 사이의 유사성을 계산하기 위해 두꺼운 꼬리 분포를 사용하므로 크라우딩 및 최적화 문제를 해결하는 데 도움이 됩니다. 그리고 이상값은 t-SNE에 영향을 미치지 않습니다.

t-SNE 알고리즘 단계

1. 고차원 공간에서 인접한 점 간의 쌍별 유사성을 찾습니다.

2. 고차원 공간의 점들의 쌍별 유사성을 기반으로 고차원 공간의 각 점을 저차원 지도에 매핑합니다.

3. Kullback-Leibler 발산(KL 발산)을 기반으로 하는 경사하강법을 사용하여 조건부 확률 분포 간의 불일치를 최소화하는 저차원 데이터 표현을 찾습니다.

4. Student-t 분포를 사용하여 저차원 공간에서 두 점 간의 유사성을 계산합니다.

MNIST 데이터세트에서 t-SNE를 구현하는 Python 코드

가져오기 모듈

# Importing Necessary Modules.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler

데이터 읽기

# Reading the data using pandas
df = pd.read_csv('mnist_train.csv')

# print first five rows of df
print(df.head(4))

# save the labels into a variable l.
l = df['label']

# Drop the label feature and store the pixel data in d.
d = df.drop("label", axis = 1)

데이터 전처리

# Data-preprocessing: Standardizing the data
from sklearn.preprocessing import StandardScaler

standardized_data = StandardScaler().fit_transform(data)
print(standardized_data.shape)

출력

# TSNE
# Picking the top 1000 points as TSNE
# takes a lot of time for 15K points
data_1000 = standardized_data[0:1000, :]
labels_1000 = labels[0:1000]

model = TSNE(n_components = 2, random_state = 0)
# configuring the parameters
# the number of components = 2
# default perplexity = 30
# default learning rate = 200
# default Maximum number of iterations
# for the optimization = 1000

tsne_data = model.fit_transform(data_1000)

# creating a new data frame which
# help us in plotting the result data
tsne_data = np.vstack((tsne_data.T, labels_1000)).T
tsne_df = pd.DataFrame(data = tsne_data,
columns =("Dim_1", "Dim_2", "label"))

# Plotting the result of tsne
sn.FacetGrid(tsne_df, hue ="label", size = 6).map(
plt.scatter, 'Dim_1', 'Dim_2').add_legend()

plt.show()

위 내용은 t-SNE 알고리즘의 원리와 Python 코드 구현에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제