>백엔드 개발 >파이썬 튜토리얼 >Pandas DataFrame에서 여러 열을 효율적으로 레이블 인코딩하는 방법은 무엇입니까?

Pandas DataFrame에서 여러 열을 효율적으로 레이블 인코딩하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-11-21 22:52:131043검색

How to Efficiently Label Encode Multiple Columns in a Pandas DataFrame?

Scikit-Learn의 여러 열에 걸친 레이블 인코딩

DataFrame에서 범주형 데이터의 여러 열을 처리할 때 지루하고 지루할 수 있습니다. 각 열에 대해 개별 LabelEncoder 개체를 만드는 것은 비효율적입니다. 이 문제는 문자열 기반 범주형 데이터의 수많은 열이 포함된 데이터 세트로 작업할 때 일반적으로 발생합니다.

문제 설명:

단일 LabelEncoder 개체를 전체 DataFrame에 적용하려고 시도합니다. 제공된 코드 조각에 표시된 대로 오류가 발생합니다. 오류 메시지 "잘못된 입력 모양(6, 3)"은 LabelEncoder가 여러 열이 있는 DataFrame이 아닌 1D 값 배열을 예상함을 나타냅니다.

해결책:

이 문제를 극복하려면 Pandas의 apply() 메서드를 활용하는 것이 좋습니다. 이 우아한 솔루션에는 LabelEncoder의 fit_transform() 메서드를 적용하는 것이 포함됩니다. 방법은 다음과 같습니다.

df.apply(LabelEncoder().fit_transform)

이 접근 방식은 각 열을 반복하고 LabelEncoder 변환을 적용한 다음 인코딩된 값이 포함된 새 DataFrame을 반환합니다.

추가 고려 사항:

  • 역 변환: 인코딩된 값을 다시 원래 범주로 디코딩하려면 인코딩된 DataFrame에서 inverse_transform() 메서드를 사용합니다.
  • 다중 인코더: 서로 다른 LabelEncoder 매개변수가 필요한 경우 열의 경우 확장 답변에 표시된 대로 사전을 사용하여 인코더를 저장하는 것이 좋습니다.
  • 열 선택: 모든 열에 레이블 인코딩이 필요하지 않은 시나리오의 경우 열 하위 집합의 사양을 변환할 수 있는 ColumnTransformer를 사용합니다.

권장 대안:

Scikit-Learn 버전 0.20 이상에서는 OneHotEncoder가 보다 효율적인 대안으로 권장됩니다. 문자열 데이터의 경우 LabelEncoder에 연결합니다. 이는 기계 학습 모델에서 범주형 데이터에 대해 선호되는 표현인 원-핫 인코딩을 직접 지원합니다.

OneHotEncoder().fit_transform(df)

이러한 기술을 활용하여 실무자는 문자열 기반 범주형 데이터의 여러 열에 대한 레이블 인코딩을 효율적으로 처리할 수 있습니다. 머신러닝 분석을 위한 데이터 세트 준비를 촉진합니다.

위 내용은 Pandas DataFrame에서 여러 열을 효율적으로 레이블 인코딩하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.