データの不均衡は機械学習における一般的な課題であり、あるクラスの数が他のクラスを大幅に上回っており、偏ったモデルや不十分な一般化につながる可能性があります。不均衡なデータを効率的に処理するために役立つさまざまな Python ライブラリがあります。この記事では、機械学習で不均衡なデータを処理するための Python ライブラリのトップ 10 を紹介し、各ライブラリのコード スニペットと説明を提供します。
1.implanced-learn
imbalanced-learn は、scikit-learn の拡張ライブラリであり、さまざまなデータセットのリバランス手法を提供するように設計されています。このライブラリには、オーバーサンプリング、アンダーサンプリング、組み合わせメソッドなどの複数のオプションが用意されています。
from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)
2、SMOTE
SMOTE は、データ セットのバランスをとるために合成サンプルを生成します。
from imblearn.over_sampling import SMOTE smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)
3. ADASYN
ADASYN は、いくつかのサンプルの密度に基づいて合成サンプルを適応的に生成します。
from imblearn.over_sampling import ADASYN adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)
4. RandomUnderSampler
RandomUnderSampler は、多数派クラスからサンプルをランダムに削除します。
from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)
5、Tomek Links
Tomek Links は、さまざまなタイプの最近傍のペアを削除して、複数のサンプルの数を減らすことができます
from imblearn.under_sampling import TomekLinks tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)
6、SMOTEENN (SMOTE 編集最近傍)
SMOTEENN は、SMOTE と編集最近傍を組み合わせたものです。
from imblearn.combine import SMOTEENN smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)
7. SMOTETomek (SMOTE Tomek Links)
SMOTEENN は、SMOTE と Tomek Links を組み合わせて、オーバーサンプリングとアンダーサンプリングを実行します。
from imblearn.combine import SMOTETomek smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)
8、EasyEnsemble
EasyEnsemble は、ほとんどのクラスのバランスのとれたサブセットを作成できる統合メソッドです。
from imblearn.ensemble import EasyEnsembleClassifier ee = EasyEnsembleClassifier() ee.fit(X, y)
9. BalancedRandomForestClassifier
BalancedRandomForestClassifier は、ランダム フォレストとバランスの取れたサブサンプルを組み合わせるアンサンブル手法です。
from imblearn.ensemble import BalancedRandomForestClassifier brf = BalancedRandomForestClassifier() brf.fit(X, y)
10. RUSBoostClassifier
RUSBoostClassifier は、ランダム アンダーサンプリングとエンハンスメントを組み合わせたアンサンブル メソッドです。
from imblearn.ensemble import RUSBoostClassifier rusboost = RUSBoostClassifier() rusboost.fit(X, y)
概要
不均衡なデータを処理することは、正確な機械学習モデルを構築するために重要です。これらの Python ライブラリは、この問題に対処するためのさまざまな手法を提供します。データセットと問題に応じて、データのバランスを効果的に行うための最も適切な方法を選択できます。
以上が不均衡なデータを処理するための Python ライブラリのトップ 10の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

大規模な言語モデル(LLM)は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。 これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか? ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベース:関係を通じてデータ管理に革命をもたらす データが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

大規模な言語モデル(LLM)ルーティング:インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。 創造的なコンテンツGenに優れている人もいます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 中国語版
中国語版、とても使いやすい

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Dreamweaver Mac版
ビジュアル Web 開発ツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール
