머신러닝 알고리즘의 특징 선별 문제
머신러닝 분야에서 특징 선별은 수많은 특징 중에서 예측 작업에 가장 유용한 특징을 선택하는 것이 매우 중요한 문제입니다. 특징 스크리닝은 차원을 줄이고, 계산 복잡성을 줄이며, 모델 정확도와 해석성을 향상시킬 수 있습니다.
특징 선별 방법에는 여러 가지가 있습니다. 아래에서는 일반적으로 사용되는 세 가지 특징 선별 방법을 소개하고 해당 코드 예제를 제공합니다.
Variance Threshold는 특성의 분산을 계산하여 대상 변수에 대한 특성의 중요도를 평가하는 간단하고 직관적인 특성 선택 방법입니다. 분산이 작을수록 해당 기능이 대상 변수에 미치는 영향이 작아지며 제거를 고려할 수 있습니다.
from sklearn.feature_selection import VarianceThreshold # 创建特征矩阵 X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3], [1, 2, 3, 5]] # 创建方差筛选器 selector = VarianceThreshold(threshold=0.8) # 应用筛选器 X_new = selector.fit_transform(X) print(X_new)
위 코드 예제에서는 먼저 4x4 특성 행렬 X를 만든 다음 분산 필터를 만들었습니다. 임계값 매개변수를 0.8로 설정하면 분산이 0.8보다 큰 특성만 유지됩니다. 마지막으로 필터를 적용하고 필터링된 특징 행렬 X_new를 인쇄합니다.
상관 계수 선별 방법은 특징과 대상 변수 간의 상관 관계를 기반으로 하는 특징 선택 방법입니다. Pearson 상관 계수를 사용하여 특징과 대상 변수 간의 선형 상관 관계를 측정합니다. 상관계수의 절대값이 클수록 특징과 목표변수 사이의 상관관계가 강해지며 유지를 고려할 수 있다.
import pandas as pd from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import f_regression # 创建特征矩阵和目标变量 X = pd.DataFrame([[1, -1, 2], [2, 0, 0], [0, 1, -1], [0, 2, 3]]) y = pd.Series([1, 2, 3, 4]) # 创建相关系数筛选器 selector = SelectKBest(score_func=f_regression, k=2) # 应用筛选器 X_new = selector.fit_transform(X, y) print(X_new)
위의 코드 예에서는 먼저 3x3 기능 행렬 X와 4개의 값을 포함하는 대상 변수 y를 만들었습니다. 그런 다음 상관 계수 필터가 생성되었습니다. Score_func 매개변수를 f_regression으로 설정하면 f_regression 함수를 사용하여 특성과 대상 변수 간의 상관 계수를 계산한다는 의미입니다. 마지막으로 필터를 적용하고 필터링된 특징 행렬 X_new를 인쇄합니다.
모델 기반 선별 방법은 지도 학습 모델을 훈련하여 특징의 중요도를 평가하고 대상 변수에 가장 유용한 특징을 선택합니다. 일반적으로 사용되는 모델에는 의사결정 트리, 랜덤 포레스트 및 지원 벡터 머신이 포함됩니다.
from sklearn.ensemble import RandomForestClassifier from sklearn.feature_selection import SelectFromModel # 创建特征矩阵和目标变量 X = [[0.87, -0.15, 0.67, 1.52], [0.50, -0.12, -0.23, 0.31], [0.14, 1.03, -2.08, -0.06], [-0.68, -0.64, 1.62, -0.36]] y = [0, 1, 0, 1] # 创建随机森林分类器 clf = RandomForestClassifier() # 创建基于模型的筛选器 selector = SelectFromModel(clf) # 应用筛选器 X_new = selector.fit_transform(X, y) print(X_new)
위의 코드 예에서는 먼저 4x4 기능 행렬 X와 4개의 분류 레이블이 포함된 대상 변수 y를 만들었습니다. 그런 다음 랜덤 포레스트 분류기가 생성되고 모델 기반 필터가 생성되었습니다. 마지막으로 필터를 적용하고 필터링된 특징 행렬 X_new를 인쇄합니다.
특징 선별은 머신러닝 알고리즘에서 중요한 문제입니다. 특징을 합리적으로 선택하고 선별함으로써 모델의 정확성과 해석성을 향상시킬 수 있습니다. 위의 코드 예제는 일반적으로 사용되는 세 가지 특징 선별 방법인 분산 선별 방법, 상관 계수 선별 방법 및 모델 기반 선별 방법에 대한 코드 예제를 제공하여 독자가 특징 선별을 이해하고 적용할 수 있는 참고 자료를 제공하고자 합니다.
위 내용은 기계 학습 알고리즘의 기능 선별 문제의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!