Python中怎么使用Jieba进行词频统计与关键词提取-Python教程-PHP中文网

首页

后端开发

Python教程

Python中怎么使用Jieba进行词频统计与关键词提取

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 02, 2023 pm 07:46 PM

pythonjieba

1 词频统计

1.1 简单词频统计

1.导入jieba库并定义文本

import jieba
text = "Python是一种高级编程语言，广泛应用于人工智能、数据分析、Web开发等领域。"

2.对文本进行分词

words = jieba.cut(text)

这一步会将文本分成若干个词语，并返回一个生成器对象words，可以使用for循环遍历所有的词语。

3. 统计词频

word_count = {}
for word in words:
    if len(word) > 1:
        word_count[word] = word_count.get(word, 0) + 1

这一步通过遍历所有的词语，统计每个词语出现的次数，并保存到一个字典word_count中。在统计词频时，可以通过去除停用词等方式进行优化，这里只是简单地过滤了长度小于2的词语。

4. 结果输出

for word, count in word_count.items():
    print(word, count)

Python中怎么使用Jieba进行词频统计与关键词提取

1.2 加入停用词

为了更准确地统计词频，我们可以在词频统计中加入停用词，以去除一些常见但无实际意义的词语。具体步骤如下：

定义停用词列表

import jieba

# 停用词列表
stopwords = [&#39;是&#39;, &#39;一种&#39;, &#39;等&#39;]

对文本进行分词，并过滤停用词

text = "Python是一种高级编程语言，广泛应用于人工智能、数据分析、Web开发等领域。"
words = jieba.cut(text)
words_filtered = [word for word in words if word not in stopwords and len(word) > 1]

统计词频并输出结果

word_count = {}
for word in words_filtered:
    word_count[word] = word_count.get(word, 0) + 1
for word, count in word_count.items():
    print(word, count)

加入停用词后，输出的结果是：

Python中怎么使用Jieba进行词频统计与关键词提取

可以看到，被停用的一种这个词并没有显示出来。

2 关键词提取

2.1 关键词提取原理

与对词语进行单纯计数的词频统计不同，jieba提取关键字的原理是基于TF-IDF（Term Frequency-Inverse Document Frequency）算法。TF-IDF算法是一种常用的文本特征提取方法，可以衡量一个词语在文本中的重要程度。

具体来说，TF-IDF算法包含两个部分：

Term Frequency（词频）：指一个词在文本中出现的次数，通常用一个简单的统计值表示，例如词频、二元词频等。词频反映了一个词在文本中的重要程度，但是忽略了这个词在整个语料库中的普遍程度。
Inverse Document Frequency（逆文档频率）：指一个词在所有文档中出现的频率的倒数，用于衡量一个词的普遍程度。逆文档频率越大，表示一个词越普遍，重要程度越低；逆文档频率越小，表示一个词越独特，重要程度越高。

TF-IDF算法通过综合考虑词频和逆文档频率，计算出每个词在文本中的重要程度，从而提取关键字。在jieba中，关键字提取的具体实现包括以下步骤：

对文本进行分词，得到分词结果。
统计每个词在文本中出现的次数，计算出词频。
统计每个词在所有文档中出现的次数，计算出逆文档频率。
综合考虑词频和逆文档频率，计算出每个词在文本中的TF-IDF值。
对TF-IDF值进行排序，选取得分最高的若干个词作为关键字。

举个例子：
F（Term Frequency）指的是某个单词在一篇文档中出现的频率。计算公式如下：
T F = ( 单词在文档中出现的次数 ) / ( 文档中的总单词数 )
例如，在一篇包含100个单词的文档中，某个单词出现了10次，则该单词的TF为
10 / 100 = 0.1
IDF（Inverse Document Frequency）指的是在文档集合中出现某个单词的文档数的倒数。计算公式如下：
I D F = l o g ( 文档集合中的文档总数 / 包含该单词的文档数 )
例如，在一个包含1000篇文档的文档集合中，某个单词在100篇文档中出现过，则该单词的IDF为 l o g ( 1000 / 100 ) = 1.0
TFIDF是将TF和IDF相乘得到的结果，计算公式如下：
T F I D F = T F ∗ I D F

需要注意的是，TF-IDF算法只考虑了词语在文本中的出现情况，而忽略了词语之间的关联性。因此，在一些特定的应用场景中，需要使用其他的文本特征提取方法，例如词向量、主题模型等。

2.2 关键词提取代码

import jieba.analyse

# 待提取关键字的文本
text = "Python是一种高级编程语言，广泛应用于人工智能、数据分析、Web开发等领域。"

# 使用jieba提取关键字
keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True)

# 输出关键字和对应的权重
for keyword, weight in keywords:
    print(keyword, weight)

在这个示例中，我们首先导入了jieba.analyse模块，然后定义了一个待提取关键字的文本text。接着，我们使用jieba.analyse.extract_tags()函数提取关键字，其中topK参数表示需要提取的关键字个数，withWeight参数表示是否返回关键字的权重值。最后，我们遍历关键字列表，输出每个关键字和对应的权重值。
这段函数的输出结果为：

Python中怎么使用Jieba进行词频统计与关键词提取

可以看到，jieba根据TF-IDF算法提取出了输入文本中的若干个关键字，并返回了每个关键字的权重值。

以上是Python中怎么使用Jieba进行词频统计与关键词提取的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：亿速云。如有侵权，请联系admin@php.cn删除

Python和时间：充分利用您的学习时间Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率，可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python：游戏，Guis等Apr 13, 2025 am 12:14 AM

Python在游戏和GUI开发中表现出色。1)游戏开发使用Pygame，提供绘图、音频等功能，适合创建2D游戏。2)GUI开发可选择Tkinter或PyQt，Tkinter简单易用，PyQt功能丰富，适合专业开发。

Python vs.C：申请和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。 Python以简洁和强大的生态系统着称，C 则以高性能和底层控制能力闻名。

2小时的Python计划：一种现实的方法Apr 11, 2025 am 12:04 AM

2小时内可以学会Python的基本编程概念和技能。1.学习变量和数据类型，2.掌握控制流（条件语句和循环），3.理解函数的定义和使用，4.通过简单示例和代码片段快速上手Python编程。

Python：探索其主要应用程序Apr 10, 2025 am 09:41 AM

Python在web开发、数据科学、机器学习、自动化和脚本编写等领域有广泛应用。1)在web开发中，Django和Flask框架简化了开发过程。2)数据科学和机器学习领域，NumPy、Pandas、Scikit-learn和TensorFlow库提供了强大支持。3)自动化和脚本编写方面，Python适用于自动化测试和系统管理等任务。