데이터 불균형은 기계 학습에서 흔히 발생하는 문제입니다. 한 클래스의 수가 다른 클래스보다 훨씬 많아 편향된 모델과 잘못된 일반화로 이어질 수 있습니다. 불균형 데이터를 효율적으로 처리하는 데 도움이 되는 다양한 Python 라이브러리가 있습니다. 이 기사에서는 기계 학습에서 불균형 데이터를 처리하기 위한 상위 10개 Python 라이브러리를 소개하고 각 라이브러리에 대한 코드 조각과 설명을 제공합니다.
1. imbalanced-learn
imbalanced-learn은 다양한 데이터 세트 재조정 기술을 제공하도록 설계된 scikit-learn의 확장 라이브러리입니다. 라이브러리는 오버샘플링, 언더샘플링 및 결합 방법
from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)
2과 같은 다양한 옵션을 제공하며, SMOTE
SMOTE는 데이터 세트의 균형을 맞추기 위해 합성 샘플을 생성합니다.
from imblearn.over_sampling import SMOTE smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)
3, ADASYN
ADASYN은 몇 가지 샘플의 밀도를 기반으로 합성 샘플을 적응적으로 생성합니다.
from imblearn.over_sampling import ADASYN adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)
4. RandomUnderSampler
RandomUnderSampler는 다수 클래스에서 샘플을 무작위로 제거합니다.
from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)
5. Tomek 링크
Tomek 링크는 다양한 카테고리의 최근접 이웃 쌍을 제거하고 여러 샘플 수를 줄일 수 있습니다.
from imblearn.under_sampling import TomekLinks tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)
6. SMOTEENN(SMOTE +Edited Nearest Neighbors)
SMOTEENN은 SMOTE와 Edited Nearest Neighbors를 결합합니다.
from imblearn.combine import SMOTEENN smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)
7. SMOTETomek(SMOTE + Tomek 링크)
SMOTEENN은 오버샘플링과 언더샘플링을 위해 SMOTE와 Tomek 링크를 결합합니다.
from imblearn.combine import SMOTETomek smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)
8. EasyEnsemble
EasyEnsemble은 대부분의 클래스의 균형 잡힌 하위 집합을 생성할 수 있는 앙상블 방법입니다.
from imblearn.ensemble import EasyEnsembleClassifier ee = EasyEnsembleClassifier() ee.fit(X, y)
9. BalancedRandomForestClassifier
BalancedRandomForestClassifier는 랜덤 포레스트와 균형 잡힌 하위 샘플을 결합하는 앙상블 방법입니다.
from imblearn.ensemble import BalancedRandomForestClassifier brf = BalancedRandomForestClassifier() brf.fit(X, y)
10. RUSBoostClassifier
RUSBoostClassifier는 무작위 언더샘플링과 향상을 결합한 앙상블 방법입니다.
from imblearn.ensemble import RUSBoostClassifier rusboost = RUSBoostClassifier() rusboost.fit(X, y)
요약
불균형 데이터를 처리하는 것은 정확한 기계 학습 모델을 구축하는 데 중요합니다. 이러한 Python 라이브러리는 이 문제를 해결하기 위한 다양한 기술을 제공합니다. 데이터 세트와 문제에 따라 가장 적절한 방법을 선택하여 데이터 균형을 효과적으로 맞출 수 있습니다.
위 내용은 불균형 데이터 처리를 위한 상위 10개 Python 라이브러리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 통계 프로세스 제어 (SPC) 차트는 품질 관리의 필수 도구로 조직이 프로세스를 모니터링, 제어 및 개선 할 수 있도록합니다. 통계적 방법을 적용하여 SPC 차트는 시각적으로 데이터 변형을 나타냅니다.

이 안내서는 초보자, 중급 및 고급 레벨에 걸친 30 개의 질문을 다루어 MySQL 인터뷰에 적합합니다. 데이터 관리 및 분석의 중요한 도구 인 MySQL은 이론적 개념과 실제 쿼리 예를 통해 탐색됩니다.

올바른 데이터베이스 선택 : 관계형 대 비 관계형 번화 한 카페를 관리한다고 상상해보십시오. 수많은 주문, 주식 수준 변동 및 고객이 고객을 요구한다고 상상해보십시오. 효율적인 도구는 성공에 중요합니다. 마찬가지로 큰 데이터 세트를 처리하려면 c가 필요합니다. c

휴머노이드 로봇 : 미래를 엿볼 수 있습니다 수세기 동안 복잡한 시계 메커니즘에서 정교한 AI 구동 창조물에 이르기까지 휴머노이드 로봇의 개념은 우리의 상상력을 사로 잡았습니다. Jacques de Vaucanson의 기계공과 같은 초기 사례

SQL의 Concat 기능 : 문자열 연결에 대한 포괄적 인 안내서 구조화 된 쿼리 언어 (SQL) Concat 함수는 둘 이상의 문자열을 단일 통합 문자열로 결합하기위한 도구입니다. 이것은 데이터 형식 및 MA에 매우 중요합니다

인도의 상위 13 개 생성 AI 리더 : AI의 미래 형성 인도의 급성장한 생성 AI (Genai) 부문은 정부의 지원과 수많은 기업과 신생 기업의 기여로 인해 폭발적인 성장을 겪고 있습니다. 이 기사 sp

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

드림위버 CS6
시각적 웹 개발 도구

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경
