搜尋
首頁後端開發Python教學Python中的樸素貝葉斯實例

Python中的樸素貝葉斯實例

Jun 09, 2023 pm 11:36 PM
Python直式程式設計樸素貝葉斯實例演示

Python是一種簡單易學的程式語言,擁有豐富的科學計算庫和資料處理工具。其中,樸素貝葉斯(Naive Bayes)演算法作為一種經典的機器學習方法,在Python語言中也擁有廣泛的應用。本文將結合實例,介紹Python中樸素貝葉斯的使用方法與步驟。

  1. 樸素貝葉斯介紹

樸素貝葉斯演算法是一種基於貝葉斯定理的分類演算法,它的核心思想是透過已知訓練數據集的特徵,來推論新資料的分類結果。在實際應用中,樸素貝葉斯演算法常用於文字分類、垃圾郵件過濾、情緒分析等場景。

樸素貝葉斯演算法的特徵在於它假設各個特徵之間是互相獨立的,這種假設在實際情況中往往不成立,因此樸素貝葉斯演算法有「樸素」之稱。儘管有這種假設,樸素貝葉斯在短文本分類等問題上的表現仍然很好。

  1. 使用樸素貝葉斯分類器

在Python中,使用樸素貝葉斯分類器的步驟可以歸納為以下幾個:

2.1 準備資料

首先需要準備待分類的訓練資料和測試資料。這些數據可以是文字、圖片、音訊等形式,但需要將其轉換為能夠被電腦理解的形式。在文字分類問題中,通常需要將文字轉換為向量表示。

2.2 訓練模型

接下來,需要使用訓練資料集來建立樸素貝葉斯分類器。 Python中常用的樸素貝葉斯分類器有三種:

  • GaussianNB:適用於連續資料的分類。
  • BernoulliNB:適用於二元資料的分類。
  • MultinomialNB:適用於多元資料的分類。

以文字分類為例,可以使用sklearn函式庫提供的TfidfVectorizer類別將文字轉換為向量表示,並使用MultinomialNB分類器進行訓練。

2.3 測試模型

訓練完成後,需要使用測試資料集來評估模型的效能。通常情況下,測試資料集和訓練資料集是獨立的。要注意的是,在測試過程中不能使用訓練資料集中的資料。可以使用sklearn函式庫提供的accuracy_score函數來計算模型的準確率。

  1. 範例:基於樸素貝葉斯的文本分類

為了示範樸素貝葉斯分類器的實際應用,本文以基於樸素貝葉斯的文本分類為例。

3.1 準備資料

首先,從網路上找到兩個文字資料集,分別為“體育新聞”和“科技新聞”,每個資料集包含1000個文字。將兩個資料集放到不同的資料夾中,並將這些文字分別標註為「體育」和「科技」。

3.2 使用sklearn函式庫進行分類

接下來,使用sklearn函式庫提供的樸素貝葉斯分類器進行分類。

(1)導入相關函式庫

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
import os

(2)讀取文字資料及其標註

def read_files(path):
    text_list = []
    label_list = []
    for root, dirs, files in os.walk(path):
        for file in files:
            file_path = os.path.join(root, file)
            with open(file_path, 'r', encoding='utf-8') as f:
                text = ''.join(f.readlines())
                text_list.append(text)
                if '体育' in file_path:
                    label_list.append('体育')
                elif '科技' in file_path:
                    label_list.append('科技')
    return text_list, label_list

(3)將文字轉換為向量表示

def text_vectorizer(text_list):
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(text_list)
    return X, vectorizer

(4)訓練模型並返回準確率

def train(text_list, label_list):
    X, vectorizer = text_vectorizer(text_list)
    y = label_list
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    clf = MultinomialNB()
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    return clf, vectorizer, acc

(5)測試模型

def predict(clf, vectorizer, text):
    X = vectorizer.transform(text)
    y_pred = clf.predict(X)
    return y_pred[0]

3.3 結果分析

運行上述程式碼,可以得到分類器的準確率為0.955。在進行實際分類時,只需要將待分類文字輸入predict函數,即可傳回其所屬類別。例如,輸入一則文字「iPhone 12終於發布了!」即可回到「科技」類別。

  1. 總結

樸素貝葉斯演算法作為一種簡單而有效的分類演算法,在Python中也有著廣泛的應用。本文介紹了樸素貝葉斯分類器的使用方法和步驟,並以基於樸素貝葉斯的文本分類為例,示範了分類器的實際應用。在實際應用過程中,還需要對資料進行預處理、特徵選擇等操作,以提高分類器的準確率。

以上是Python中的樸素貝葉斯實例的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Python vs.C:申請和用例Python vs.C:申請和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务,而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称,C 则以高性能和底层控制能力闻名。

2小時的Python計劃:一種現實的方法2小時的Python計劃:一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型,2.掌握控制流(條件語句和循環),3.理解函數的定義和使用,4.通過簡單示例和代碼片段快速上手Python編程。

Python:探索其主要應用程序Python:探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中,Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域,NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面,Python適用於自動化測試和系統管理等任務。

您可以在2小時內學到多少python?您可以在2小時內學到多少python?Apr 09, 2025 pm 04:33 PM

兩小時內可以學到Python的基礎知識。 1.學習變量和數據類型,2.掌握控制結構如if語句和循環,3.了解函數的定義和使用。這些將幫助你開始編寫簡單的Python程序。

如何在10小時內通過項目和問題驅動的方式教計算機小白編程基礎?如何在10小時內通過項目和問題驅動的方式教計算機小白編程基礎?Apr 02, 2025 am 07:18 AM

如何在10小時內教計算機小白編程基礎?如果你只有10個小時來教計算機小白一些編程知識,你會選擇教些什麼�...

如何在使用 Fiddler Everywhere 進行中間人讀取時避免被瀏覽器檢測到?如何在使用 Fiddler Everywhere 進行中間人讀取時避免被瀏覽器檢測到?Apr 02, 2025 am 07:15 AM

使用FiddlerEverywhere進行中間人讀取時如何避免被檢測到當你使用FiddlerEverywhere...

Python 3.6加載Pickle文件報錯"__builtin__"模塊未找到怎麼辦?Python 3.6加載Pickle文件報錯"__builtin__"模塊未找到怎麼辦?Apr 02, 2025 am 07:12 AM

Python3.6環境下加載Pickle文件報錯:ModuleNotFoundError:Nomodulenamed...

如何提高jieba分詞在景區評論分析中的準確性?如何提高jieba分詞在景區評論分析中的準確性?Apr 02, 2025 am 07:09 AM

如何解決jieba分詞在景區評論分析中的問題?當我們在進行景區評論分析時,往往會使用jieba分詞工具來處理文�...

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器