Python의 주성분 분석 예
주성분 분석(PCA)은 데이터 차원 축소에 일반적으로 사용되는 방법으로 고차원 데이터의 차원을 낮은 차원으로 줄이고 데이터 변형 정보를 최대한 많이 유지할 수 있습니다. Python은 PCA 구현을 위한 많은 라이브러리와 도구를 제공합니다. 이 기사에서는 예제를 사용하여 Python에서 sklearn 라이브러리를 사용하여 PCA를 구현하는 방법을 소개합니다.
먼저 데이터 세트를 준비해야 합니다. 이 기사에서는 150개의 샘플 데이터가 포함된 Iris 데이터 세트를 사용합니다. 각 샘플에는 4개의 특징 값(꽃받침의 길이와 너비, 꽃잎의 길이와 너비)과 레이블(꽃받침의 유형)이 있습니다. 아이리스 꽃). 우리의 목표는 이 네 가지 기능의 차원을 줄이고 가장 중요한 주요 구성 요소를 찾는 것입니다.
먼저 필요한 라이브러리와 데이터 세트를 가져와야 합니다.
from sklearn.datasets import load_iris from sklearn.decomposition import PCA import matplotlib.pyplot as plt iris = load_iris() X = iris.data y = iris.target
이제 PCA 객체를 생성하고 적용할 수 있습니다.
pca = PCA(n_components=2) X_pca = pca.fit_transform(X)
여기서 PCA 개체는 n_comComponents=2로 설정합니다. 이는 처리된 데이터만 2차원 평면에 표시하려고 함을 의미합니다. 원본 데이터 X에 fit_transform을 적용하고 처리된 데이터 세트 X_pca를 얻습니다.
이제 결과를 플롯할 수 있습니다.
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y) plt.xlabel('Component 1') plt.ylabel('Component 2') plt.show()
이 그림에서는 축소된 2차원 공간에서 Iris 데이터세트의 분포를 볼 수 있습니다. 각 점은 붓꽃의 표본을 나타내며, 색상은 붓꽃의 종류를 나타냅니다.
이제 주요 구성 요소가 무엇인지 살펴보겠습니다.
print(pca.components_)
이렇게 하면 "Component 1"과 "Component 2"라는 두 개의 벡터가 출력됩니다.
[[ 0.36158968 -0.08226889 0.85657211 0.35884393]
[-0.65653988 -0.72971237 0.1757674 0.07470647]]
각 요소는 원본의 기능을 나타냅니다. 데이터 가중치. 즉, 주성분을 원래 특징을 선형적으로 결합하는 데 사용되는 벡터로 생각할 수 있습니다. 결과의 각 벡터는 단위 벡터입니다.
각 구성 요소별로 설명되는 데이터의 변동량도 확인할 수 있습니다.
print(pca.explained_variance_ratio_)
이 출력은 각 구성요소가 설명하는 데이터의 분산량 비율을 표시합니다.
[0.92461621 0.05301557]
이 두 구성 요소가 데이터 분산의 총 94%를 설명하는 것을 볼 수 있습니다. 이는 데이터의 특성을 매우 정확하게 포착할 수 있음을 의미합니다.
한 가지 주의할 점은 PCA가 원본 데이터에서 모든 기능을 제거한다는 것입니다. 따라서 특정 기능을 유지해야 하는 경우 PCA를 적용하기 전에 수동으로 제거해야 합니다.
Python에서 sklearn 라이브러리를 사용하여 PCA를 구현하는 방법의 예입니다. PCA는 모든 유형의 데이터에 적용할 수 있으며 고차원 데이터에서 가장 중요한 구성 요소를 찾는 데 도움이 됩니다. 이 기사의 코드를 이해할 수 있다면 자신의 데이터 세트에 PCA를 적용할 수도 있습니다.
위 내용은 Python의 주성분 분석 예의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!