不均衡なデータを処理するための Python ライブラリのトップ 10-AI-php.cn

ホームページ

テクノロジー周辺機器

不均衡なデータを処理するための Python ライブラリのトップ 10

王林

Sep 30, 2023 pm 07:53 PM

python機械学習データの不均衡

データの不均衡は機械学習における一般的な課題であり、あるクラスの数が他のクラスを大幅に上回っており、偏ったモデルや不十分な一般化につながる可能性があります。不均衡なデータを効率的に処理するために役立つさまざまな Python ライブラリがあります。この記事では、機械学習で不均衡なデータを処理するための Python ライブラリのトップ 10 を紹介し、各ライブラリのコードスニペットと説明を提供します。

不均衡なデータを処理するための Python ライブラリのトップ 10

1.implanced-learn

imbalanced-learn は、scikit-learn の拡張ライブラリであり、さまざまなデータセットのリバランス手法を提供するように設計されています。このライブラリには、オーバーサンプリング、アンダーサンプリング、組み合わせメソッドなどの複数のオプションが用意されています。

 from imblearn.over_sampling import RandomOverSampler  ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)

2、SMOTE

SMOTE は、データセットのバランスをとるために合成サンプルを生成します。

from imblearn.over_sampling import SMOTE  smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)

3. ADASYN

ADASYN は、いくつかのサンプルの密度に基づいて合成サンプルを適応的に生成します。

from imblearn.over_sampling import ADASYN  adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)

4. RandomUnderSampler

RandomUnderSampler は、多数派クラスからサンプルをランダムに削除します。

from imblearn.under_sampling import RandomUnderSampler  rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)

5、Tomek Links

Tomek Links は、さまざまなタイプの最近傍のペアを削除して、複数のサンプルの数を減らすことができます

 from imblearn.under_sampling import TomekLinks  tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)

6、SMOTEENN (SMOTE 編集最近傍)

SMOTEENN は、SMOTE と編集最近傍を組み合わせたものです。

 from imblearn.combine import SMOTEENN  smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)

7. SMOTETomek (SMOTE Tomek Links)

SMOTEENN は、SMOTE と Tomek Links を組み合わせて、オーバーサンプリングとアンダーサンプリングを実行します。

 from imblearn.combine import SMOTETomek  smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)

8、EasyEnsemble

EasyEnsemble は、ほとんどのクラスのバランスのとれたサブセットを作成できる統合メソッドです。

 from imblearn.ensemble import EasyEnsembleClassifier  ee = EasyEnsembleClassifier() ee.fit(X, y)

9. BalancedRandomForestClassifier

BalancedRandomForestClassifier は、ランダムフォレストとバランスの取れたサブサンプルを組み合わせるアンサンブル手法です。

 from imblearn.ensemble import BalancedRandomForestClassifier  brf = BalancedRandomForestClassifier() brf.fit(X, y)

10. RUSBoostClassifier

RUSBoostClassifier は、ランダムアンダーサンプリングとエンハンスメントを組み合わせたアンサンブルメソッドです。

from imblearn.ensemble import RUSBoostClassifier  rusboost = RUSBoostClassifier() rusboost.fit(X, y)

概要

不均衡なデータを処理することは、正確な機械学習モデルを構築するために重要です。これらの Python ライブラリは、この問題に対処するためのさまざまな手法を提供します。データセットと問題に応じて、データのバランスを効果的に行うための最も適切な方法を選択できます。

以上が不均衡なデータを処理するための Python ライブラリのトップ 10の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

LLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル（LLM）は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか？ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力：勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。それについて話しましょう。革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか？Apr 14, 2025 am 11:19 AM

グラフデータベース：関係を通じてデータ管理に革命をもたらすデータが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング：戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル（LLM）ルーティング：インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。