使用Python计数文件中的单词频率-Python教程-PHP中文网

首页

后端开发

Python教程

使用Python计数文件中的单词频率

Jennifer Aniston

Mar 06, 2025 am 11:59 AM

本教程向您展示了如何通过使用Python分析单词频率快速确定文档的主要主题。手动计数单词的发生是乏味的。这种自动化方法简化了过程。

>我们将使用一个示例文本文件test.txt（下载它，但不要窥视！）来说明。目的是根据单词频率猜测教程的主题。

了解正则表达式

这个过程使用正则表达式（REGEX）。如果不熟悉，则正则是一个字符序列，定义搜索模式的字符串匹配模式（例如“查找和替换”）。要深入研究，请参阅专用的正则教程。

构建程序

>读取文件：该程序首先将文本文件读取到字符串：

开始

document_text = open('test.txt', 'r')
text_string = document_text.read().lower()

正则表达式：一个正则表达式过滤单词3至15个字符：
```
match_pattern = re.findall(r'\b[a-z]{3,15}\b', text_string)
```

单词频率：词典跟踪单词频率：

frequency = {}
for word in match_pattern:
    count = frequency.get(word, 0)
    frequency[word] = count + 1

然后

frequency_list = frequency.keys()
for word in frequency_list:
    print(word, frequency[word])

完成程序

这是合并的python代码：

>运行此功能将输出一个单词频率列表。最常见的单词暗示了原始教程的主题。

import re

frequency = {}
document_text = open('test.txt', 'r')
text_string = document_text.read().lower()
match_pattern = re.findall(r'\b[a-z]{3,15}\b', text_string)

for word in match_pattern:
    count = frequency.get(word, 0)
    frequency[word] = count + 1

frequency_list = frequency.keys()
for word in frequency_list:
    print(word, frequency[word])

>处理较大的文本文件 Counting Word Frequency in a File Using Python

对于较大的文件，对频率字典进行排序简化了查找最常见的单词：

这将输出一个排序的列表，最常见的单词首先出现。

import re

frequency = {}
document_text = open('dracula.txt', 'r')  # Example: dracula.txt
text_string = document_text.read().lower()
match_pattern = re.findall(r'\b[a-z]{3,15}\b', text_string)

for word in match_pattern:
    count = frequency.get(word, 0)
    frequency[word] = count + 1

most_frequent = dict(sorted(frequency.items(), key=lambda elem: elem[1], reverse=True))
most_frequent_count = most_frequent.keys()

for word in most_frequent_count:
    print(word, most_frequent[word])

不包括常用词 Counting Word Frequency in a File Using Python

使用黑名单：这提供了更为专注的分析。

import re

frequency = {}
document_text = open('dracula.txt', 'r')
text_string = document_text.read().lower()
match_pattern = re.findall(r'\b[a-z]{3,15}\b', text_string)

blacklisted = ['the', 'and', 'for', 'that', 'which']

for word in match_pattern:
    if word not in blacklisted:
        count = frequency.get(word, 0)
        frequency[word] = count + 1

most_frequent = dict(sorted(frequency.items(), key=lambda elem: elem[1], reverse=True))
most_frequent_count = most_frequent.keys()

for word in most_frequent_count:
    print(word, most_frequent[word])

这个增强的Python脚本提供了一种可靠的方法，用于分析文本并根据单词频率识别关键主题。请记住适应黑名单和单词长度标准以满足您的特定需求。

以上是使用Python计数文件中的单词频率的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

说明列表和数组之间元素操作的性能差异。May 06, 2025 am 12:15 AM

ArraySareBetterForlement-WiseOperationsDuetofasterAccessCessCessCessCessCessAndOptimizedImplementations.1）ArrayshaveContiguucuulmemoryfordirectAccesscess.2）列出sareflexible butslible dueTopotentEnallymideNamicizing.3）forlarargedAtaTasetsetsetsetsetsetsetsetsetsetsetlib

如何有效地对整个Numpy阵列进行数学操作？May 06, 2025 am 12:15 AM

在NumPy中进行整个数组的数学运算可以通过向量化操作高效实现。 1)使用简单运算符如加法（arr 2）可对数组进行运算。 2)NumPy使用C语言底层库，提升了运算速度。 3)可以进行乘法、除法、指数等复杂运算。 4)需注意广播操作，确保数组形状兼容。 5)使用NumPy函数如np.sum()能显着提高性能。

您如何将元素插入python数组中？May 06, 2025 am 12:14 AM

在Python中，向列表插入元素有两种主要方法：1)使用insert(index,value)方法，可以在指定索引处插入元素，但在大列表开头插入效率低；2)使用append(value)方法，在列表末尾添加元素，效率高。对于大列表，建议使用append()或考虑使用deque或NumPy数组来优化性能。

如何使Unix和Windows上的Python脚本可执行？May 06, 2025 am 12:13 AM

tomakeapythonscriptexecutableonbothunixandwindows：1）Addashebangline（＃！/usr/usr/bin/envpython3）Andusechmod Xtomakeitexecutableonix.2）onWindows，确保pytythonisinsinstalledandassociatedwithedandassociatedwith.pyuunwith.pyun.pyfiles，oruseabatchfile（runuseabatchfile（rugitter）。

试图运行脚本时，应该检查一下是否会发现'找不到命令”错误？May 06, 2025 am 12:03 AM

当遇到“commandnotfound”错误时，应检查以下几点：1.确认脚本存在且路径正确；2.检查文件权限，必要时使用chmod添加执行权限；3.确保脚本解释器已安装并在PATH中；4.验证脚本开头的shebang行是否正确。这样做可以有效解决脚本运行问题，确保编码过程顺利进行。

为什么数组通常比存储数值数据列表更高？May 05, 2025 am 12:15 AM

ArraySareAryallyMoremory-Moremory-forigationDataDatueTotheIrfixed-SizenatureAntatureAntatureAndirectMemoryAccess.1）arraysStorelelementsInAcontiguxufulock，ReducingOveringOverheadHeadefromenterSormetormetAdata.2）列表，通常

如何将Python列表转换为Python阵列？May 05, 2025 am 12:10 AM

ToconvertaPythonlisttoanarray,usethearraymodule:1)Importthearraymodule,2)Createalist,3)Usearray(typecode,list)toconvertit,specifyingthetypecodelike'i'forintegers.Thisconversionoptimizesmemoryusageforhomogeneousdata,enhancingperformanceinnumericalcomp