首頁 >後端開發 >Python教學 >引入自然語言工具包(NLTK)

引入自然語言工具包(NLTK)

William Shakespeare
William Shakespeare原創
2025-03-01 10:05:09195瀏覽

>自然語言處理(NLP)是人類語言的自動或半自動處理。 NLP與語言學密切相關,並與認知科學,心理學,生理學和數學的研究有聯繫。特別是在計算機科學領域中,NLP與編譯器技術,形式語言理論,人類計算機互動,機器學習和定理證明有關。這個Quora問題顯示了NLP。

的不同優點,在本教程中,我將帶您瀏覽一個有趣的NLP平台,稱為自然語言工具包(NLTK)。在我們查看如何使用此平台之前,讓我首先告訴您NLTK是什麼。

nltk是什麼?該平台最初是由史蒂文·伯德(Steven Bird)和愛德華·洛珀(Edward Loper)與2001年在賓夕法尼亞大學的計算語言學課程一起發布的。有一本隨附的書,用於使用Python的自然語言處理。

>

現在安裝NLTK

"Python is a very high-level programming language. Python is interpreted."<br>

word_tokenize()

from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))

['Python', 'is', 'a', 'very', 'high-level', 'programming', 'language', '.', 'Python', 'is', 'interpreted', '.']<br>

方法中。
from nltk.corpus import stopwords<br>print(set(stopwords.words('English')))<br>
>請考慮以下文本。

引入自然語言工具包(NLTK)

>讓我們使用word_tokenize()
from nltk.corpus import stopwords<br>print(set(stopwords.words('german')))<br>
方法來tokenize。輸出:

from nltk.corpus import stopwords<br>from nltk.tokenize import word_tokenize<br><br>text = 'In this tutorial, I\'m learning NLTK. It is an interesting platform.'<br>stop_words = set(stopwords.words('english'))<br>words = word_tokenize(text)<br><br>new_sentence = []<br><br>for word in words:<br>    if word not in stop_words:<br>		new_sentence.append(word)<br><br>print(new_sentence)<br>
您可以從輸出中看到,標點符號也被認為是單詞。它們。以下內容:

引入自然語言工具包(NLTK)>如何從我們自己的文本中刪除停止單詞?下面的示例顯示了我們如何執行此任務:

word_tokenize()

>上面腳本的輸出是: word_tokenize()函數是:<code> word_tokenize()<blockquote>將字符串引用以拆分標點符號,而不是</blockquote> <h3>>搜索</h3> <p>假設我們有以下文本文件(從dropbox下載文本文件)。我們想查找(搜索)單詞<code>language。我們可以簡單地使用NLTK平台進行以下操作:

"Python is a very high-level programming language. Python is interpreted."<br>

在這種情況下,您將獲得以下輸出:

引入自然語言工具包(NLTK)

請注意,除了某些上下文中,concordance() language還返回單詞nltk.Text的每一次出現。在此之前,如上面的腳本所示,我們將讀取文件歸為

>對象。

我只想注意到,我第一次運行程序時,我收到了以下錯誤,我似乎與編碼的控制台使用了:
from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))
>

chcp 65001

如Wikipedia中所述: Gutenberg compus

['Python', 'is', 'a', 'very', 'high-level', 'programming', 'language', '.', 'Python', 'is', 'interpreted', '.']<br>

Project Gutenberg(PG)是一項志願者,是為了數字化和歸檔文化作品而努力,以“鼓勵電子書的創建和分佈”。它是由邁克爾·哈特(Michael S. Hart)於1971年成立的,是最古老的數字圖書館。其集合中的大多數項目都是公共領域書籍的全文。該項目試圖以持久的開放格式使它們盡可能免費,幾乎可以在任何計算機上使用。截至2015年10月3日,Gutenberg項目在其收藏中達到了50,000件物品。 nltk包含來自Gutenberg項目的少量文本。要查看Gutenberg項目中隨附的文件,我們執行以下操作:

引入自然語言工具包(NLTK)

>上面腳本的輸出將如下:bryant-stories.txt

from nltk.corpus import stopwords<br>print(set(stopwords.words('English')))<br>
如果我們想找到文本文件的單詞數

正如我們在本教程中所看到的那樣,55563。我只在本教程中劃過表面。如果您想更深入地將NLTK用於不同的NLP任務,則可以參考NLTK的隨附書:使用Python的自然語言處理。

>>

> >該帖子已通過Esther Vaati的貢獻進行了更新。 Esther是Envato Tuts的軟件開發人員和作者。

以上是引入自然語言工具包(NLTK)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn