用Python进行一些简单的自然语言处理的教程-Python教學-PHP中文網

首頁

後端開發

Python教學

用Python进行一些简单的自然语言处理的教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 am 11:22 AM

python自然語言

本月的每月挑战会主题是NLP，我们会在本文帮你开启一种可能：使用pandas和python的自然语言工具包分析你Gmail邮箱中的内容。

NLP-风格的项目充满无限可能：

情感分析是对诸如在线评论、社交媒体等情感内容的测度。举例来说，关于某个话题的tweets趋向于正面还是负面的意见？一个新闻网站涵盖的主题，是使用了更正面/负面的词语，还是经常与某些情绪相关的词语？这个“正面”的Yelp点评不是很讽刺么？（祝最后去的那位好运！）
分析语言在文学中的使用，进而衡量词汇或者写作风格随时间/地区/作者的变化趋势.
通过识别所使用的语言的关键特征，标记是否为垃圾内容。
基于评论所覆盖的主题，使用主题抽取进行相似类别的划分。
通过NLTK's的语料库，应用Elastisearch和WordNet的组合来衡量Twitter流API上的词语相似度，进而创建一个更好的实时Twitter搜索。
加入NaNoGenMo项目，用代码生成自己的小说，你可以从这里大量的创意和资源入手。

将Gmail收件箱加载到pandas

让我们从项目实例开始！首先我们需要一些数据。准备你的Gmail的数据存档（包括你最近的垃圾邮件和垃圾文件夹）。

https://www.google.com/settings/takeout

现在去散步吧，对于5.1G大小的信箱，我2.8G的存档需要发送一个多小时。

当你得到数据并为工程配置好本地环境之后好，使用下面的脚本将数据读入到pandas（强烈建议使用IPython进行数据分析）

from mailbox import mbox
import pandas as pd
 
def store_content(message, body=None):
 if not body:
  body = message.get_payload(decode=True)
 if len(message):
  contents = {
   "subject": message['subject'] or "",
   "body": body,
   "from": message['from'],
   "to": message['to'],
   "date": message['date'],
   "labels": message['X-Gmail-Labels'],
   "epilogue": message.epilogue,
  }
  return df.append(contents, ignore_index=True)
 
# Create an empty DataFrame with the relevant columns
df = pd.DataFrame(
 columns=("subject", "body", "from", "to", "date", "labels", "epilogue"))
 
# Import your downloaded mbox file
box = mbox('All mail Including Spam and Trash.mbox')
 
fails = []
for message in box:
 try:
  if message.get_content_type() == 'text/plain':
   df = store_content(message)
  elif message.is_multipart():
   # Grab any plaintext from multipart messages
   for part in message.get_payload():
    if part.get_content_type() == 'text/plain':
     df = store_content(message, part.get_payload(decode=True))
     break
 except:
  fails.append(message)

上面使用Python的mailbox模块读取并解析mbox格式的邮件。当然还可以使用更加优雅的方法来完成（比如，邮件中包含大量冗余、重复的数据，像回复中嵌入的“>>>”符号）。另外一个问题是无法处理一些特殊的字符，简单起见，我们进行丢弃处理；确认你在这一步没有忽略信箱中重要的部分。

需要注意的是，除了主题行，我们实际上并不打算利用其它内容。但是你可以对时间戳、邮件正文进行各种各样有趣的分析，通过标签进行分类等等。鉴于这只是帮助你入门的文章（碰巧会显示来自我自己信箱中的结果），我不想去考虑太多细节。

查找常用词语

现在我们已经得到了一些数据，那么来找出所有标题行中最常用的10个词语：

# Top 10 most common subject words
from collections import Counter
 
subject_word_bag = df.subject.apply(lambda t: t.lower() + " ").sum()
 
Counter(subject_word_bag.split()).most_common()[:10]
 
[('re:', 8508), ('-', 1188), ('the', 819), ('fwd:', 666), ('to', 572), ('new', 530), ('your', 528), ('for', 498), ('a', 463), ('course', 452)]

嗯，那些太常见了，下面尝试对常用词语做些限制：

from nltk.corpus import stopwords
stops = [unicode(word) for word in stopwords.words('english')] + ['re:', 'fwd:', '-']
subject_words = [word for word in subject_word_bag.split() if word.lower() not in stops]
Counter(subject_words).most_common()[:10]
 
[('new', 530), ('course', 452), ('trackmaven', 334), ('question', 334), ('post', 286), ('content', 245), ('payment', 244), ('blog', 241), ('forum', 236), ('update', 220)]

除了人工移除几个最没价值的词语，我们也使用了NLTK的停用词语料库，使用前需要进行傻瓜式安装。现在可以看到我收件箱中的一些典型词语，但通常来讲在英文文本中并不一定同样是典型的。

二元词组和搭配词

NLTK可以进行另外一个有趣的测量是搭配原则。首先，我们来看下常用的“二元词组”，即经常一起成对出现的两个单词的集合：

from nltk import collocations
bigram_measures = collocations.BigramAssocMeasures()
bigram_finder = collocations.BigramCollocationFinder.from_words(subject_words)
 
# Filter to top 20 results; otherwise this will take a LONG time to analyze
bigram_finder.apply_freq_filter(20)
for bigram in bigram_finder.score_ngrams(bigram_measures.raw_freq)[:10]:
 print bigram
 
(('forum', 'content'), 0.005839453284373725)
(('new', 'forum'), 0.005839453284373725)
(('blog', 'post'), 0.00538045695634435)
(('domain', 'names'), 0.004870461036311709)
(('alpha', 'release'), 0.0028304773561811506)
(('default', 'widget.'), 0.0026519787841697267)
(('purechat:', 'question'), 0.0026519787841697267)
(('using', 'default'), 0.0026519787841697267)
(('release', 'third'), 0.002575479396164831)
(('trackmaven', 'application'), 0.002524479804161567)

我们可以对三元词组（或n元词组）重复相同的步骤来查找更长的短语。这个例子中，“new forum content”是出现次数最多的三元词组，但是在上面例子的列表中，它却被分割成两部分并位居二元词组列表的前列。

另外一个稍微不同类型的搭配词的度量是基于点间互信息（pointwise mutual information）的。本质上，它所度量的是给定一个我们在指定文本中看到的单词，相对于他们通常在全部文档中单独出现的频率，另外一个单词出现的可能性。举例来说，通常，如果我的邮件主题使用单词“blog”与/或“post”很多，那么二元组“blog post”并不是一个有趣的信号，因为一个单词仍然可能不和另一个单词同时出现。根据这条准则，我们得到一个不同的二元组的集合。

for bigram in bigram_finder.nbest(bigram_measures.pmi, 5):
 print bigram
 
('4:30pm', '5pm')
('motley', 'fool')
('60,', '900,')
('population', 'cap')
('simple', 'goods')

因此，我没有收到很多提到单词“motley”或者“fool”的邮件主题，但是当我看到其中任意一个，那么“Motley Fool”可能是相关联的。

情感分析

最后，让我们尝试一些情感分析。为了快速入门，我们可以使用以NLTK为基础的TextBlob库，它提供了对于大量的常用NLP任务的简单访问。我们可以使用它内建的情感分析（基于模式）来计算主题的“极性（polarity）”。从,表示高度负面情绪的-1到表示正面情绪的1，其中0为中性（缺乏一个明确的信号）

接下来：分析一段时间内的你的收件箱；看看是否能够通过邮件分类，确定正文的发送者/标签/垃圾这些基本属性。使用潜在语义索引去揭示所涵盖的最常用的常规主题。将你的发件文件夹输入到马尔科夫模型（Markov model）中，结合词性标注生成看起来连贯的自动回复

请让我们知道你是否使用NLP尝试了有趣的项目分支，包含一份开源库将作为加分点。你可以在challenge.hackpad.com看下前面的展示，以找到更多的灵感！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python的執行模型：編譯，解釋還是兩者？May 10, 2025 am 12:04 AM

pythonisbothCompileDIntered。

Python是按線執行的嗎？May 10, 2025 am 12:03 AM

Python不是嚴格的逐行執行，而是基於解釋器的機制進行優化和條件執行。解釋器將代碼轉換為字節碼，由PVM執行，可能會預編譯常量表達式或優化循環。理解這些機制有助於優化代碼和提高效率。

python中兩個列表的串聯替代方案是什麼？May 09, 2025 am 12:16 AM

可以使用多種方法在Python中連接兩個列表：1.使用操作符，簡單但在大列表中效率低；2.使用extend方法，效率高但會修改原列表；3.使用 =操作符，兼具效率和可讀性；4.使用itertools.chain函數，內存效率高但需額外導入；5.使用列表解析，優雅但可能過於復雜。選擇方法應根據代碼上下文和需求。

Python：合併兩個列表的有效方法May 09, 2025 am 12:15 AM

有多種方法可以合併Python列表：1.使用操作符，簡單但對大列表不內存高效；2.使用extend方法，內存高效但會修改原列表；3.使用itertools.chain，適用於大數據集；4.使用*操作符，一行代碼合併小到中型列表；5.使用numpy.concatenate，適用於大數據集和性能要求高的場景；6.使用append方法，適用於小列表但效率低。選擇方法時需考慮列表大小和應用場景。

編譯的與解釋的語言：優點和缺點May 09, 2025 am 12:06 AM

CompiledLanguagesOffersPeedAndSecurity，而interneterpretledlanguages provideeaseafuseanDoctability.1）commiledlanguageslikec arefasterandSecureButhOnderDevevelmendeclementCyclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesandentency.2）cransportedeplatectentysenty

Python：對於循環，最完整的指南May 09, 2025 am 12:05 AM

Python中，for循環用於遍歷可迭代對象，while循環用於條件滿足時重複執行操作。 1）for循環示例：遍歷列表並打印元素。 2）while循環示例：猜數字遊戲，直到猜對為止。掌握循環原理和優化技巧可提高代碼效率和可靠性。

python concatenate列表到一個字符串中May 09, 2025 am 12:02 AM

要將列表連接成字符串，Python中使用join()方法是最佳選擇。 1)使用join()方法將列表元素連接成字符串，如''.join(my_list)。 2)對於包含數字的列表，先用map(str,numbers)轉換為字符串再連接。 3)可以使用生成器表達式進行複雜格式化，如','.join(f'({fruit})'forfruitinfruits)。 4)處理混合數據類型時，使用map(str,mixed_list)確保所有元素可轉換為字符串。 5)對於大型列表，使用''.join(large_li

Python的混合方法：編譯和解釋合併May 08, 2025 am 12:16 AM

pythonuseshybridapprace，ComminingCompilationTobyTecoDeAndInterpretation.1）codeiscompiledtoplatform-Indepententbybytecode.2）bytecodeisisterpretedbybythepbybythepythonvirtualmachine，增強效率和通用性。

See all articles