Scikit-Learn의 여러 열에 걸친 레이블 인코딩
DataFrame에서 범주형 데이터의 여러 열을 처리할 때 지루하고 지루할 수 있습니다. 각 열에 대해 개별 LabelEncoder 개체를 만드는 것은 비효율적입니다. 이 문제는 문자열 기반 범주형 데이터의 수많은 열이 포함된 데이터 세트로 작업할 때 일반적으로 발생합니다.
문제 설명:
단일 LabelEncoder 개체를 전체 DataFrame에 적용하려고 시도합니다. 제공된 코드 조각에 표시된 대로 오류가 발생합니다. 오류 메시지 "잘못된 입력 모양(6, 3)"은 LabelEncoder가 여러 열이 있는 DataFrame이 아닌 1D 값 배열을 예상함을 나타냅니다.
해결책:
이 문제를 극복하려면 Pandas의 apply() 메서드를 활용하는 것이 좋습니다. 이 우아한 솔루션에는 LabelEncoder의 fit_transform() 메서드를 적용하는 것이 포함됩니다. 방법은 다음과 같습니다.
df.apply(LabelEncoder().fit_transform)
이 접근 방식은 각 열을 반복하고 LabelEncoder 변환을 적용한 다음 인코딩된 값이 포함된 새 DataFrame을 반환합니다.
추가 고려 사항:
권장 대안:
Scikit-Learn 버전 0.20 이상에서는 OneHotEncoder가 보다 효율적인 대안으로 권장됩니다. 문자열 데이터의 경우 LabelEncoder에 연결합니다. 이는 기계 학습 모델에서 범주형 데이터에 대해 선호되는 표현인 원-핫 인코딩을 직접 지원합니다.
OneHotEncoder().fit_transform(df)
이러한 기술을 활용하여 실무자는 문자열 기반 범주형 데이터의 여러 열에 대한 레이블 인코딩을 효율적으로 처리할 수 있습니다. 머신러닝 분석을 위한 데이터 세트 준비를 촉진합니다.
위 내용은 Pandas DataFrame에서 여러 열을 효율적으로 레이블 인코딩하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!