Python チュートリアル

Python での単純ベイズアルゴリズムの例

王林

Jun 10, 2023 am 08:23 AM

pythonアルゴリズムナイーブ・ベイズ

Naive Bayes アルゴリズムは古典的な機械学習アルゴリズムの 1 つで、特にテキスト分類やスパムフィルタリングなどの分野で広く使用されており、高い精度と効率を備えています。この記事では、Python での Naive Bayes アルゴリズムの実装を紹介し、その応用例を例を挙げて説明します。

1. ナイーブベイズアルゴリズムの概要
ナイーブベイズアルゴリズムは、ベイズの定理と特徴の独立性の仮定に基づいた分類アルゴリズムです。基本的な考え方は、既知のカテゴリデータの条件付き確率を通じて新しいデータの分類を推測することです。具体的には、分類の前にモデルをトレーニングする必要があります。つまり、各カテゴリの各特徴の条件付き確率が計算されます。そして、分類する際には、ベイズの定理に従って新規データが各カテゴリに属する確率を計算し、その確率が最大となるカテゴリを予測結果として選択する。特徴が独立していると仮定されているため、このアルゴリズムは「Naive Bayes」と名付けられています。

2. Python での Naive Bayes の実装
Python には、scikit-learn、nltk、gensim など、Naive Bayes アルゴリズムの実装に使用できる複数のライブラリまたはモジュールがあります。この記事では、scikit-learn ライブラリを使用して単純ベイズアルゴリズムを実装する方法を紹介します。

1. データセットを準備する
まず、分類器をトレーニングおよびテストするためのデータセットを準備する必要があります。この例では、UCI Machine Learning リポジトリの「スパムベースデータセット」を選択します。このデータセットには 4601 件の電子メールが含まれており、そのうち 1813 件がスパムメール、2788 件が通常のメールです。このデータセットは、CSV 形式でダウンロードして保存できます。

2. データをインポートし、トレーニングセットとテストセットに分割します
pandas ライブラリの read_csv 関数を使用して、CSV ファイルを DataFrame 形式に読み込み、トレーニングセットとテストセットに分割します。コードは次のとおりです。

import pandas as pd
from sklearn.model_selection import train_test_split

Import data

df = pd.read_csv('spambase.csv' )

トレーニングセットとテストセットを分割します

XX = df.iloc[:, :-1]
y = df.iloc[:, -1]
X_train , X_test, y_train, y_test = train_test_split (X, y, test_size=0.3, random_state=42)

3. トレーニングモデル
sklearn ライブラリの MultinomialNB クラスを使用して、単純ベイズ分類モデルを初期化し、モデルのトレーニングにトレーニングデータを使用し、次のようにコーディングします。

from sklearn.naive_bayes import MultinomialNB

トレーニングモデル

clf = MultinomialNB()
clf.fit( X_train, y_train)

4. テストモデル
テストセットを使用して分類器をテストし、分類精度を計算します。コードは次のとおりです:

from sklearn.metrics import activity_score

テストモデル

y_pred = clf.predict(X_test)
acc = precision_score(y_test, y_pred)
print('精度: {:.2f}%'.format( acc*100))

#5. モデルの適用

トレーニング済みモデルを使用して新しいデータを分類し、予測結果を出力します。コードは次のとおりです:

モデルの適用

new_data = [[0.05, 0.08, 0.00, 0.00, 0.04, 0.00, 0.00, 0.14, 0.03, 0.10, 0.05, 0.00, 0.02, 0.04, 0.00, 0.10, 0.05, 0.01, 0.04, 0. 67、2.16、10.00、 136.00, 0.00, 0.96, 0.00, 0.00, 0.00, 0.32, 0.01]]

prediction = clf.predict(new_data)
print('Prediction:',予測)

3. 分析例

この例では分類問題を使用しており、その特徴は電子メール内の単語の頻度であり、電子メールをスパム電子メールと通常の電子メールに分類することを目的としています。トレーニング後、単純ベイズアルゴリズムが分類に使用され、90.78% の精度が得られました。この結果から、特定のアプリケーション状況では、Naive Bayes が優れた分類結果をもたらすことがわかります。

4. 結論

Naive Bayes アルゴリズムはシンプルで効果的な分類方法であり、テキスト分類やスパムフィルタリングなどの分野で広く使用されています。 Python の scikit-learn ライブラリは、モデルのトレーニング、テスト、およびアプリケーションを適切にサポートできる単純ベイズ分類器の便利な実装を提供します。

以上がPython での単純ベイズアルゴリズムの例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python vs. C：曲線と使いやすさの学習Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Python vs. C：メモリ管理とコントロールApr 19, 2025 am 12:17 AM

PythonとCは、メモリ管理と制御に大きな違いがあります。 1。Pythonは、参照カウントとガベージコレクションに基づいて自動メモリ管理を使用し、プログラマーの作業を簡素化します。 2.Cには、メモリの手動管理が必要であり、より多くの制御を提供しますが、複雑さとエラーのリスクが増加します。どの言語を選択するかは、プロジェクトの要件とチームテクノロジースタックに基づいている必要があります。

科学コンピューティングのためのPython：詳細な外観Apr 19, 2025 am 12:15 AM

科学コンピューティングにおけるPythonのアプリケーションには、データ分析、機械学習、数値シミュレーション、視覚化が含まれます。 1.numpyは、効率的な多次元配列と数学的関数を提供します。 2。ScipyはNumpy機能を拡張し、最適化と線形代数ツールを提供します。 3. Pandasは、データ処理と分析に使用されます。 4.matplotlibは、さまざまなグラフと視覚的な結果を生成するために使用されます。

PythonとC：適切なツールを見つけるApr 19, 2025 am 12:04 AM

PythonまたはCを選択するかどうかは、プロジェクトの要件に依存するかどうかは次のとおりです。1）Pythonは、簡潔な構文とリッチライブラリのため、迅速な発展、データサイエンス、スクリプトに適しています。 2）Cは、コンピレーションと手動メモリ管理のため、システムプログラミングやゲーム開発など、高性能および基礎となる制御を必要とするシナリオに適しています。

データサイエンスと機械学習のためのPythonApr 19, 2025 am 12:02 AM

Pythonは、データサイエンスと機械学習で広く使用されており、主にそのシンプルさと強力なライブラリエコシステムに依存しています。 1）Pandasはデータ処理と分析に使用され、2）Numpyが効率的な数値計算を提供し、3）SCIKIT-LEARNは機械学習モデルの構築と最適化に使用されます。これらのライブラリは、Pythonをデータサイエンスと機械学習に理想的なツールにします。

Pythonの学習：2時間の毎日の研究で十分ですか？Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Web開発用のPython：主要なアプリケーションApr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

Python vs. C：パフォーマンスと効率の探索Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。