ホームページ  >  記事  >  バックエンド開発  >  t-SNEアルゴリズムの原理とPythonコード実装の詳細な説明

t-SNEアルゴリズムの原理とPythonコード実装の詳細な説明

WBOY
WBOY転載
2024-01-22 23:48:051455ブラウズ

t-SNEアルゴリズムの原理とPythonコード実装の詳細な説明

T 分布確率的近傍埋め込み (t-SNE) は、視覚化のための教師なし機械学習アルゴリズムであり、非線形次元削減テクノロジを使用し、データ ポイントと特徴間の関係に基づいています。は、高次元空間と低次元空間におけるこれらの条件付き確率 (または類似性) の差を最小限に抑えて、低次元空間のデータ ポイントを完全に表現しようとします。

したがって、t-SNE は、2 次元または 3 次元の低次元空間に高次元データを埋め込んで可視化することが得意です。 t-SNE は、ガウス分布の代わりにヘビーテール分布を使用して低次元空間内の 2 点間の類似性を計算することに注意してください。これは、混雑と最適化の問題の解決に役立ちます。また、外れ値は t-SNE には影響しません。

t-SNE アルゴリズムのステップ

1. 高次元空間内の隣接する点間のペアごとの類似性を見つけます。

2. 高次元空間内の点のペアごとの類似性に基づいて、高次元空間内の各点を低次元マップにマッピングします。

3. カルバック・ライブラー発散 (KL 発散) に基づく勾配降下法を使用して、条件付き確率分布間の不一致を最小限に抑える低次元のデータ表現を見つけます。

4. Student-t 分布を使用して、低次元空間内の 2 点間の類似性を計算します。

MNIST データ セットに t-SNE を実装するための Python コード

インポート モジュール

# Importing Necessary Modules.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler

データの読み取り

# Reading the data using pandas
df = pd.read_csv('mnist_train.csv')

# print first five rows of df
print(df.head(4))

# save the labels into a variable l.
l = df['label']

# Drop the label feature and store the pixel data in d.
d = df.drop("label", axis = 1)

データ プレ- 処理

# Data-preprocessing: Standardizing the data
from sklearn.preprocessing import StandardScaler

standardized_data = StandardScaler().fit_transform(data)
print(standardized_data.shape)

出力

# TSNE
# Picking the top 1000 points as TSNE
# takes a lot of time for 15K points
data_1000 = standardized_data[0:1000, :]
labels_1000 = labels[0:1000]

model = TSNE(n_components = 2, random_state = 0)
# configuring the parameters
# the number of components = 2
# default perplexity = 30
# default learning rate = 200
# default Maximum number of iterations
# for the optimization = 1000

tsne_data = model.fit_transform(data_1000)

# creating a new data frame which
# help us in plotting the result data
tsne_data = np.vstack((tsne_data.T, labels_1000)).T
tsne_df = pd.DataFrame(data = tsne_data,
columns =("Dim_1", "Dim_2", "label"))

# Plotting the result of tsne
sn.FacetGrid(tsne_df, hue ="label", size = 6).map(
plt.scatter, 'Dim_1', 'Dim_2').add_legend()

plt.show()

以上がt-SNEアルゴリズムの原理とPythonコード実装の詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は163.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。