찾다
기술 주변기기일체 포함불균형 데이터 처리를 위한 상위 10개 Python 라이브러리

불균형 데이터 처리를 위한 상위 10개 Python 라이브러리

Sep 30, 2023 pm 07:53 PM
python기계 학습데이터 불균형

데이터 불균형은 기계 학습에서 흔히 발생하는 문제입니다. 한 클래스의 수가 다른 클래스보다 훨씬 많아 편향된 모델과 잘못된 일반화로 이어질 수 있습니다. 불균형 데이터를 효율적으로 처리하는 데 도움이 되는 다양한 Python 라이브러리가 있습니다. 이 기사에서는 기계 학습에서 불균형 데이터를 처리하기 위한 상위 10개 Python 라이브러리를 소개하고 각 라이브러리에 대한 코드 조각과 설명을 제공합니다.

불균형 데이터 처리를 위한 상위 10개 Python 라이브러리

1. imbalanced-learn

imbalanced-learn은 다양한 데이터 세트 재조정 기술을 제공하도록 설계된 scikit-learn의 확장 라이브러리입니다. 라이브러리는 오버샘플링, 언더샘플링 및 결합 방법

 from imblearn.over_sampling import RandomOverSampler  ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)

2과 같은 다양한 옵션을 제공하며, SMOTE

SMOTE는 데이터 세트의 균형을 맞추기 위해 합성 샘플을 생성합니다.

from imblearn.over_sampling import SMOTE  smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)

3, ADASYN

ADASYN은 몇 가지 샘플의 밀도를 기반으로 합성 샘플을 적응적으로 생성합니다.

from imblearn.over_sampling import ADASYN  adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)

4. RandomUnderSampler

RandomUnderSampler는 다수 클래스에서 샘플을 무작위로 제거합니다.

from imblearn.under_sampling import RandomUnderSampler  rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)

5. Tomek 링크

Tomek 링크는 다양한 카테고리의 최근접 이웃 쌍을 제거하고 여러 샘플 수를 줄일 수 있습니다.

 from imblearn.under_sampling import TomekLinks  tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)

6. SMOTEENN(SMOTE +Edited Nearest Neighbors)

SMOTEENN은 SMOTE와 Edited Nearest Neighbors를 결합합니다.

 from imblearn.combine import SMOTEENN  smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)

7. SMOTETomek(SMOTE + Tomek 링크)

SMOTEENN은 오버샘플링과 언더샘플링을 위해 SMOTE와 Tomek 링크를 결합합니다.

 from imblearn.combine import SMOTETomek  smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)

8. EasyEnsemble

EasyEnsemble은 대부분의 클래스의 균형 잡힌 하위 집합을 생성할 수 있는 앙상블 방법입니다.

 from imblearn.ensemble import EasyEnsembleClassifier  ee = EasyEnsembleClassifier() ee.fit(X, y)

9. BalancedRandomForestClassifier

BalancedRandomForestClassifier는 랜덤 포레스트와 균형 잡힌 하위 샘플을 결합하는 앙상블 방법입니다.

 from imblearn.ensemble import BalancedRandomForestClassifier  brf = BalancedRandomForestClassifier() brf.fit(X, y)

10. RUSBoostClassifier

RUSBoostClassifier는 무작위 언더샘플링과 향상을 결합한 앙상블 방법입니다.

from imblearn.ensemble import RUSBoostClassifier  rusboost = RUSBoostClassifier() rusboost.fit(X, y)

요약

불균형 데이터를 처리하는 것은 정확한 기계 학습 모델을 구축하는 데 중요합니다. 이러한 Python 라이브러리는 이 문제를 해결하기 위한 다양한 기술을 제공합니다. 데이터 세트와 문제에 따라 가장 적절한 방법을 선택하여 데이터 균형을 효과적으로 맞출 수 있습니다.

위 내용은 불균형 데이터 처리를 위한 상위 10개 Python 라이브러리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
SPC 차트는 무엇입니까? - 분석 VidhyaSPC 차트는 무엇입니까? - 분석 VidhyaApr 18, 2025 am 09:24 AM

소개 통계 프로세스 제어 (SPC) 차트는 품질 관리의 필수 도구로 조직이 프로세스를 모니터링, 제어 및 개선 할 수 있도록합니다. 통계적 방법을 적용하여 SPC 차트는 시각적으로 데이터 변형을 나타냅니다.

상위 30 개의 MySQL 인터뷰 질문 - 분석 Vidhya상위 30 개의 MySQL 인터뷰 질문 - 분석 VidhyaApr 18, 2025 am 09:23 AM

이 안내서는 초보자, 중급 및 고급 레벨에 걸친 30 개의 질문을 다루어 MySQL 인터뷰에 적합합니다. 데이터 관리 및 분석의 중요한 도구 인 MySQL은 이론적 개념과 실제 쿼리 예를 통해 탐색됩니다.

비 관계형 데이터베이스 및 관계형 데이터베이스비 관계형 데이터베이스 및 관계형 데이터베이스Apr 18, 2025 am 09:22 AM

올바른 데이터베이스 선택 : 관계형 대 비 관계형 번화 한 카페를 관리한다고 상상해보십시오. 수많은 주문, 주식 수준 변동 및 고객이 고객을 요구한다고 상상해보십시오. 효율적인 도구는 성공에 중요합니다. 마찬가지로 큰 데이터 세트를 처리하려면 c가 필요합니다. c

2025 년 상위 6 개 휴머노이드 로봇 - 분석 Vidhya2025 년 상위 6 개 휴머노이드 로봇 - 분석 VidhyaApr 18, 2025 am 09:16 AM

휴머노이드 로봇 : 미래를 엿볼 수 있습니다 수세기 동안 복잡한 시계 메커니즘에서 정교한 AI 구동 창조물에 이르기까지 휴머노이드 로봇의 개념은 우리의 상상력을 사로 잡았습니다. Jacques de Vaucanson의 기계공과 같은 초기 사례

SQL의 COCAT는 무엇입니까? - 분석 VidhyaSQL의 COCAT는 무엇입니까? - 분석 VidhyaApr 18, 2025 am 09:10 AM

SQL의 Concat 기능 : 문자열 연결에 대한 포괄적 인 안내서 구조화 된 쿼리 언어 (SQL) Concat 함수는 둘 이상의 문자열을 단일 통합 문자열로 결합하기위한 도구입니다. 이것은 데이터 형식 및 MA에 매우 중요합니다

2025 년에 13 명의 인도 제나이 지도자가 이어졌습니다2025 년에 13 명의 인도 제나이 지도자가 이어졌습니다Apr 18, 2025 am 09:09 AM

인도의 상위 13 개 생성 AI 리더 : AI의 미래 형성 인도의 급성장한 생성 AI (Genai) 부문은 정부의 지원과 수많은 기업과 신생 기업의 기여로 인해 폭발적인 성장을 겪고 있습니다. 이 기사 sp

Gemma Scope : AI의 사고 과정으로 들여다 보는 Google의 현미경Gemma Scope : AI의 사고 과정으로 들여다 보는 Google의 현미경Apr 17, 2025 am 11:55 AM

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 인텔리전스 분석가는 누구이며 하나가되는 방법은 무엇입니까?비즈니스 인텔리전스 분석가는 누구이며 하나가되는 방법은 무엇입니까?Apr 17, 2025 am 11:44 AM

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경