Python 中使用 NLTK 進行單字替換和更正-Python教學-PHP中文網

首頁

後端開發

Python教學

Python 中使用 NLTK 進行單字替換和更正

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 02, 2024 am 05:23 AM

Substituição e Correção de Palavras com NLTK em Python

當我們談論自然語言處理（NLP）時，最重要的任務之一就是替換和糾正單字。這涉及詞幹提取、詞形還原、拼寫糾正以及基於同義詞和反義詞的單字替換等技術。使用這些技術可以大大提高文字分析的質量，無論是搜尋引擎、聊天機器人還是情緒分析。讓我們來探索一下 Python 中的 NLTK 函式庫如何幫助完成這些任務。

詞幹擷取：切割後綴

詞幹擷取是一種從單字中刪除後綴，只留下字根的技術。例如，單字「running」的字根為「corr」。這對於減少搜尋引擎需要索引的單字量很有用。

在NLTK中，我們可以使用PorterStemmer進行詞幹擷取。讓我們看看它是如何運作的：

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem("correndo"))  # Saída: corr
print(stemmer.stem("correção"))  # Saída: correc

在這裡，我們看到詞幹切掉了後綴，只留下了字根。這可以幫助您專注於單字的主要含義，而不必擔心它們的變化。

詞形還原：回歸基本形式

詞形還原與詞幹提取類似，但它不是刪除後綴，而是將單字轉換為其基本形式或詞元。例如，「跑步」變成「跑步」。這比詞幹提取更聰明，因為它考慮了單字的上下文。

為了在 NLTK 中進行詞形還原，我們使用 WordNetLemmatizer：

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("correndo", pos='v'))  # Saída: correr
print(lemmatizer.lemmatize("correções"))  # Saída: correção

在此範例中，我們使用 lemmatize 函數，對於動詞，我們將詞性 (pos) 指定為「v」。這有助於 NLTK 更好地理解單字的上下文。

用於替換的正規表示式

有時，我們想要替換文字中的特定單字或模式。為此，正則表達式（regex）非常有用。例如，我們可以使用正規表示式來擴充縮寫，例如“no”到“no”。

以下是我們如何使用 NLTK 來做到這一點：

import re

texto = "Eu não posso ir à festa. Você não vai?"
expansoes = [("não", "não")]

def expandir_contracoes(texto, expansoes):
    for (contraido, expandido) in expansoes:
        texto = re.sub(r'\b' + contraido + r'\b', expandido, texto)
    return texto

print(expandir_contracoes(texto, expansoes))  # Saída: Eu não posso ir à festa. Você não vai?

在此範例中，expand_contracoes 函數使用正規表示式來尋找和取代文字中的收縮單字。

使用附魔進行拼字檢查

另一個重要的任務是拼字修正。有時文字存在打字或拼字錯誤，糾正這些錯誤對於文字分析至關重要。 pyenchant 函式庫對此非常有用。

首先，我們需要安裝 pyenchant 函式庫：

pip install pyenchant

之後，我們可以用附魔來修正單字：

import enchant

d = enchant.Dict("pt_BR")
palavra = "corrigindo"
if d.check(palavra):
    print(f"{palavra} está correta")
else:
    print(f"{palavra} está incorreta, sugestões: {d.suggest(palavra)}")

如果單字不正確，Enchant 會建議更正。

同義詞替換

用同義詞替換單字可以豐富文本，避免重複並改進風格。有了WordNet，我們可以輕鬆找到同義詞。

我們可以這樣做：

from nltk.corpus import wordnet

def substituir_sinonimos(palavra):
    sinonimos = []
    for syn in wordnet.synsets(palavra, lang='por'):
        for lemma in syn.lemmas():
            sinonimos.append(lemma.name())
    return set(sinonimos)

print(substituir_sinonimos("bom"))  # Saída: {'bom', 'legal', 'ótimo', 'excelente'}

在此範例中，replace_synonyms 函數傳回給定單字的同義詞清單。

替換反義詞

與同義詞一樣，反義詞也很有用，尤其是對於情緒分析等任務。我們可以使用WordNet來找出反義詞：

def substituir_antonimos(palavra):
    antonimos = []
    for syn in wordnet.synsets(palavra, lang='por'):
        for lemma in syn.lemmas():
            if lemma.antonyms():
                antonimos.append(lemma.antonyms()[0].name())
    return set(antonimos)

print(substituir_antonimos("bom"))  # Saída: {'mau', 'ruim'}

此函數找出給定單字的反義詞。

實際應用

讓我們來看看這些技術的一些實際應用。

情緒分析

情緒分析涉及確定文本的極性（正面、負面或中性）。單字替換可以改進此分析。

texto = "Eu adorei o filme, mas a comida estava ruim."
palavras = word_tokenize(texto, language='portuguese')
polaridade = 0

for palavra in palavras:
    sinsets = wordnet.synsets(palavra, lang='por')
    if sinsets:
        for syn in sinsets:
            polaridade += syn.pos_score() - syn.neg_score()

print("Polaridade do texto:", polaridade)  # Saída: Polaridade do texto: 0.25 (por exemplo)

文字規範化

文字規範化涉及將文字轉換為一致的形式。這可能包括糾正拼字、刪除停用詞和替換同義詞。

stopwords = set(stopwords.words('portuguese'))
texto = "A análise de textos é uma área fascinante do PLN."
palavras = word_tokenize(texto, language='portuguese')
palavras_filtradas = [w for w in palavras se não w in stopwords]

texto_normalizado = " ".join(palavras_filtradas)
print(texto_normalizado)  # Saída: "análise textos área fascinante PLN"

改進的文本搜索

在搜尋引擎中，取代同義詞可以透過尋找使用搜尋關鍵字的同義詞的文件來改善搜尋結果。

consulta = "bom filme"
consulta_expandidas = []

for palavra em consulta.split():
    sinonimos = substituir_sinonimos(palavra)
    consulta_expandidas.extend(sinonimos)

print("Consulta expandida:", " ".join(consulta_expandidas))  # Saída: "bom legal ótimo excelente filme"

結論

在本文中，我們使用 Python 中的 NLTK 庫來探索各種單字替換和修正技術。我們了解如何進行詞幹擷取、詞形還原、使用正規表示式取代單字、使用 Enchant 進行拼字修正，以及如何使用 WordNet 取代同義詞和反義字。我們也討論了這些技術在情緒分析、文字規範化和搜尋引擎中的實際應用。

使用這些技術可以顯著提高文字分析的質量，使結果更加準確和相關。 NLTK 為自然語言處理人員提供了一系列強大的工具，以了解如何使用這些工具對於任何 NLP 專案至關重要。

以上是Python 中使用 NLTK 進行單字替換和更正的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

如何使用Python查找文本文件的ZIPF分佈Mar 05, 2025 am 09:58 AM

本教程演示如何使用Python處理Zipf定律這一統計概念，並展示Python在處理該定律時讀取和排序大型文本文件的效率。您可能想知道Zipf分佈這個術語是什麼意思。要理解這個術語，我們首先需要定義Zipf定律。別擔心，我會盡量簡化說明。 Zipf定律 Zipf定律簡單來說就是：在一個大型自然語言語料庫中，最頻繁出現的詞的出現頻率大約是第二頻繁詞的兩倍，是第三頻繁詞的三倍，是第四頻繁詞的四倍，以此類推。讓我們來看一個例子。如果您查看美國英語的Brown語料庫，您會注意到最頻繁出現的詞是“th

我如何使用美麗的湯來解析HTML？Mar 10, 2025 pm 06:54 PM

本文解釋瞭如何使用美麗的湯庫來解析html。它詳細介紹了常見方法，例如find（），find_all（），select（）和get_text（），以用於數據提取，處理不同的HTML結構和錯誤以及替代方案（SEL）

如何在Python中下載文件Mar 01, 2025 am 10:03 AM

Python 提供多種從互聯網下載文件的方法，可以使用 urllib 包或 requests 庫通過 HTTP 進行下載。本教程將介紹如何使用這些庫通過 Python 從 URL 下載文件。 requests 庫 requests 是 Python 中最流行的庫之一。它允許發送 HTTP/1.1 請求，無需手動將查詢字符串添加到 URL 或對 POST 數據進行表單編碼。 requests 庫可以執行許多功能，包括：添加表單數據添加多部分文件訪問 Python 的響應數據發出請求首

python中的圖像過濾Mar 03, 2025 am 09:44 AM

處理嘈雜的圖像是一個常見的問題，尤其是手機或低分辨率攝像頭照片。本教程使用OpenCV探索Python中的圖像過濾技術來解決此問題。圖像過濾：功能強大的工具圖像過濾器

如何使用Python使用PDF文檔Mar 02, 2025 am 09:54 AM

PDF 文件因其跨平台兼容性而廣受歡迎，內容和佈局在不同操作系統、閱讀設備和軟件上保持一致。然而，與 Python 處理純文本文件不同，PDF 文件是二進製文件，結構更複雜，包含字體、顏色和圖像等元素。幸運的是，借助 Python 的外部模塊，處理 PDF 文件並非難事。本文將使用 PyPDF2 模塊演示如何打開 PDF 文件、打印頁面和提取文本。關於 PDF 文件的創建和編輯，請參考我的另一篇教程。準備工作核心在於使用外部模塊 PyPDF2。首先，使用 pip 安裝它： pip 是 P