집 >백엔드 개발 >파이썬 튜토리얼 >Pandas DataFrame에서 여러 열을 효율적으로 레이블 인코딩하는 방법은 무엇입니까?

Pandas DataFrame에서 여러 열을 효율적으로 레이블 인코딩하는 방법은 무엇입니까?

Mary-Kate Olsen원래의: 2024-11-21 22:52:131080검색

How to Efficiently Label Encode Multiple Columns in a Pandas DataFrame?

Scikit-Learn의 여러 열에 걸친 레이블 인코딩

DataFrame에서 범주형 데이터의 여러 열을 처리할 때 지루하고 지루할 수 있습니다. 각 열에 대해 개별 LabelEncoder 개체를 만드는 것은 비효율적입니다. 이 문제는 문자열 기반 범주형 데이터의 수많은 열이 포함된 데이터 세트로 작업할 때 일반적으로 발생합니다.

문제 설명:

단일 LabelEncoder 개체를 전체 DataFrame에 적용하려고 시도합니다. 제공된 코드 조각에 표시된 대로 오류가 발생합니다. 오류 메시지 "잘못된 입력 모양(6, 3)"은 LabelEncoder가 여러 열이 있는 DataFrame이 아닌 1D 값 배열을 예상함을 나타냅니다.

해결책:

이 문제를 극복하려면 Pandas의 apply() 메서드를 활용하는 것이 좋습니다. 이 우아한 솔루션에는 LabelEncoder의 fit_transform() 메서드를 적용하는 것이 포함됩니다. 방법은 다음과 같습니다.

df.apply(LabelEncoder().fit_transform)

이 접근 방식은 각 열을 반복하고 LabelEncoder 변환을 적용한 다음 인코딩된 값이 포함된 새 DataFrame을 반환합니다.

추가 고려 사항:

역 변환: 인코딩된 값을 다시 원래 범주로 디코딩하려면 인코딩된 DataFrame에서 inverse_transform() 메서드를 사용합니다.
다중 인코더: 서로 다른 LabelEncoder 매개변수가 필요한 경우 열의 경우 확장 답변에 표시된 대로 사전을 사용하여 인코더를 저장하는 것이 좋습니다.
열 선택: 모든 열에 레이블 인코딩이 필요하지 않은 시나리오의 경우 열 하위 집합의 사양을 변환할 수 있는 ColumnTransformer를 사용합니다.

권장 대안:

Scikit-Learn 버전 0.20 이상에서는 OneHotEncoder가 보다 효율적인 대안으로 권장됩니다. 문자열 데이터의 경우 LabelEncoder에 연결합니다. 이는 기계 학습 모델에서 범주형 데이터에 대해 선호되는 표현인 원-핫 인코딩을 직접 지원합니다.

OneHotEncoder().fit_transform(df)

이러한 기술을 활용하여 실무자는 문자열 기반 범주형 데이터의 여러 열에 대한 레이블 인코딩을 효율적으로 처리할 수 있습니다. 머신러닝 분석을 위한 데이터 세트 준비를 촉진합니다.

위 내용은 Pandas DataFrame에서 여러 열을 효율적으로 레이블 인코딩하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

pandas String Array Object if for require Error using this column input issue

성명：

이전 기사：Python의 날짜에서 하루를 어떻게 뺄 수 있나요?다음 기사：Python의 날짜에서 하루를 어떻게 뺄 수 있나요?