搜索
首页后端开发Python教程用于高效文本处理和分析的先进 Python 技术

dvanced Python Techniques for Efficient Text Processing and Analysis

作为一位多产的作家,我邀请您在亚马逊上探索我的书籍。 请记得在 Medium 上关注我,以获得持续的支持和更新。感谢您的宝贵支持!

多年专注于文本处理和分析的 Python 开发教会了我高效技术的重要性。 本文重点介绍了我经常用来提高 NLP 项目性能的六种高级 Python 方法。

正则表达式(重新模块)

正则表达式对于模式匹配和文本操作是不可或缺的。 Python 的 re 模块提供了一个强大的工具包。掌握正则表达式可以简化复杂的文本处理。

例如,提取电子邮件地址:

import re

text = "Contact us at info@example.com or support@example.com"
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
emails = re.findall(email_pattern, text)
print(emails)

输出:['info@example.com', 'support@example.com']

正则表达式也擅长文本替换。 将美元金额转换为欧元:

text = "The price is .99"
new_text = re.sub(r'$(\d+\.\d{2})', lambda m: f"€{float(m.group(1))*0.85:.2f}", text)
print(new_text)

输出:"The price is €9.34"

字符串模块实用程序

Python 的 string 模块虽然不如 re 突出,但为文本处理提供了有用的常量和函数,例如创建翻译表或处理字符串常量。

删除标点符号:

import string

text = "Hello, World! How are you?"
translator = str.maketrans("", "", string.punctuation)
cleaned_text = text.translate(translator)
print(cleaned_text)

输出:"Hello World How are you"

用于序列比较的difflib

比较字符串或识别相似之处很常见。 difflib 提供序列比较工具,非常适合此目的。

查找相似词:

from difflib import get_close_matches

words = ["python", "programming", "code", "developer"]
similar = get_close_matches("pythonic", words, n=1, cutoff=0.6)
print(similar)

输出:['python']

SequenceMatcher 处理更复杂的比较:

from difflib import SequenceMatcher

def similarity(a, b):
    return SequenceMatcher(None, a, b).ratio()

print(similarity("python", "pyhton"))

输出:(大约)0.83

模糊匹配的编辑距离

Levenshtein 距离算法(通常使用 python-Levenshtein 库)对于拼写检查和模糊匹配至关重要。

拼写检查:

import Levenshtein

def spell_check(word, dictionary):
    return min(dictionary, key=lambda x: Levenshtein.distance(word, x))

dictionary = ["python", "programming", "code", "developer"]
print(spell_check("progamming", dictionary))

输出:"programming"

查找相似字符串:

def find_similar(word, words, max_distance=2):
    return [w for w in words if Levenshtein.distance(word, w) <= max_distance]

print(find_similar("code", ["code", "coder", "python"]))

输出:['code', 'coder']

ftfy 用于文本编码修复

ftfy 库解决编码问题,自动检测和纠正 mojibake 等常见问题。

修复 mojibake:

import ftfy

text = "The Mona Lisa doesn’t have eyebrows."
fixed_text = ftfy.fix_text(text)
print(fixed_text)

输出:"The Mona Lisa doesn't have eyebrows."

标准化 Unicode:

weird_text = "This is Fullwidth text"
normal_text = ftfy.fix_text(weird_text)
print(normal_text)

输出:"This is Fullwidth text"

使用 spaCy 和 NLTK 进行高效标记化

标记化是 NLP 的基础。 spaCyNLTK 提供了超越简单 split() 的高级标记化功能。

使用 spaCy 进行标记化:

import re

text = "Contact us at info@example.com or support@example.com"
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
emails = re.findall(email_pattern, text)
print(emails)

输出:['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']

NLTK 的 word_tokenize

text = "The price is .99"
new_text = re.sub(r'$(\d+\.\d{2})', lambda m: f"€{float(m.group(1))*0.85:.2f}", text)
print(new_text)

输出:(类似于spaCy)

实际应用和最佳实践

这些技术适用于文本分类、情感分析和信息检索。 对于大型数据集,优先考虑内存效率(生成器),利用多处理来处理 CPU 密集型任务,使用适当的数据结构(用于成员测试的集),编译正则表达式以供重复使用,并利用 pandas 等库进行 CSV 处理。

通过实施这些技术和最佳实践,您可以显着提高文本处理工作流程的效率和有效性。请记住,持续的练习和实验是掌握这些宝贵技能的关键。


101本书

101 Books 是一家由 Aarav Joshi 共同创立的人工智能出版社,借助先进的人工智能技术提供价格实惠、高质量的书籍。 查看亚马逊上的 Golang 干净代码。 搜索“Aarav Joshi”了解更多书籍和特别折扣!

我们的创作

投资者中心、投资者中心(西班牙语/德语)、智能生活、时代与回声、令人费解的奥秘、印度教、精英开发、JS 学校


我们在 Medium

Tech Koala Insights、Epochs & Echoes World、Investor Central Medium、Puzzling Mysteries Medium、Science & Epochs Medium、Modern Hindutva

以上是用于高效文本处理和分析的先进 Python 技术的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
您如何切成python阵列?您如何切成python阵列?May 01, 2025 am 12:18 AM

Python列表切片的基本语法是list[start:stop:step]。1.start是包含的第一个元素索引,2.stop是排除的第一个元素索引,3.step决定元素之间的步长。切片不仅用于提取数据,还可以修改和反转列表。

在什么情况下,列表的表现比数组表现更好?在什么情况下,列表的表现比数组表现更好?May 01, 2025 am 12:06 AM

ListSoutPerformarRaysin:1)DynamicsizicsizingandFrequentInsertions/删除,2)储存的二聚体和3)MemoryFeliceFiceForceforseforsparsedata,butmayhaveslightperformancecostsinclentoperations。

如何将Python数组转换为Python列表?如何将Python数组转换为Python列表?May 01, 2025 am 12:05 AM

toConvertapythonarraytoalist,usEthelist()constructororageneratorexpression.1)intimpthearraymoduleandcreateanArray.2)USELIST(ARR)或[XFORXINARR] to ConconverTittoalist,请考虑performorefformanceandmemoryfformanceandmemoryfformienceforlargedAtasetset。

当Python中存在列表时,使用数组的目的是什么?当Python中存在列表时,使用数组的目的是什么?May 01, 2025 am 12:04 AM

choosearraysoverlistsinpythonforbetterperformanceandmemoryfliceSpecificScenarios.1)largenumericaldatasets:arraysreducememoryusage.2)绩效 - 临界杂货:arraysoffersoffersOffersOffersOffersPoostSfoostSforsssfortasssfortaskslikeappensearch orearch.3)testessenforcety:arraysenforce:arraysenforc

说明如何通过列表和数组的元素迭代。说明如何通过列表和数组的元素迭代。May 01, 2025 am 12:01 AM

在Python中,可以使用for循环、enumerate和列表推导式遍历列表;在Java中,可以使用传统for循环和增强for循环遍历数组。1.Python列表遍历方法包括:for循环、enumerate和列表推导式。2.Java数组遍历方法包括:传统for循环和增强for循环。

什么是Python Switch语句?什么是Python Switch语句?Apr 30, 2025 pm 02:08 PM

本文讨论了Python版本3.10中介绍的新“匹配”语句,该语句与其他语言相同。它增强了代码的可读性,并为传统的if-elif-el提供了性能优势

Python中有什么例外组?Python中有什么例外组?Apr 30, 2025 pm 02:07 PM

Python 3.11中的异常组允许同时处理多个异常,从而改善了并发场景和复杂操作中的错误管理。

Python中的功能注释是什么?Python中的功能注释是什么?Apr 30, 2025 pm 02:06 PM

Python中的功能注释将元数据添加到函数中,以进行类型检查,文档和IDE支持。它们增强了代码的可读性,维护,并且在API开发,数据科学和图书馆创建中至关重要。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)