web文本数据清洗流程及实例（实例代码）-html教程-PHP中文网

首页

web前端

html教程

web文本数据清洗流程及实例（实例代码）

云罗郡主

Oct 17, 2018 pm 02:41 PM

本篇文章给大家带来的内容是关于web文本数据清洗流程及实例（实例代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。

今天，超过80%的数据是非结构化的。文本数据预处理是数据分析前的必经之路。大多数可用的文本数据本质上是高度非结构化和嘈杂的，需要更好的见解或建立更好的算法来处理数据。

我们知道，社交媒体数据是高度非结构化的，因其非正式的交流，存在包括拼写错误、语法不好、俚语的使用、诸如URL、停用词、表达式等不必要内容。

一个典型的商业问题，假设你感兴趣的是：这是iPhone在粉丝中更受欢迎的特点。下面你已经提取了与iPhone相关的消费者意见的一条推特：

下面对这条推特做文本预处理：

1、去掉HTML 字符:

从Web获得的数据通常包含许多HTML实体，如lt；& gt；& &；它嵌入到原始数据中。因此，必须摆脱这些实体。一种方法是通过使用特定的正则表达式直接删除它们。另一种方法是使用适当的包和模块（例如Python的HTMLPARSER），它可以将这些实体转换成标准的HTML标记。例如：& lt；转换为“<”，转换为“&”。

2、解码数据：

这是将信息从复杂符号转换为简单易懂字符的过程。文本数据可能会受到不同形式的解码，如“拉丁语”、“UTF8”等。因此，为了更好地分析，有必要保持完整的数据以标准的编码格式。UTF-8编码被广泛接受并推荐使用。

3、撇号查找：为了避免文本中的任何词义消歧，建议在文章中保持适当的结构，并遵守上下文无关文法的规则。当使用撇号时，消歧的机会增加。

For example “it’s is a contraction for it is or it has”.

所有撇号都应该转换成标准词典。可以使用所有可能的关键字的查找表来消除歧义。

4、停用词的去除：当数据分析需要在字级上进行数据驱动时，应删除通常出现的单词（停用词）。通过创建的一个长长的停止词列表，或者可以使用预定义的语言特定的库。

5、删除标点符号：所有的标点符号应根据优先级来处理。例如：“，”，“，”，“？”“重要标点应该保留，而其他标点需要删除。

6、删除表达式：文本数据（通常是语音转录）可能包含人类的表达，如[笑]，[哭]，[观众暂停]。这些表达式通常与语音内容无关，因此需要删除。在这种情况下，简单正则表达式可能是有用的。

7、分裂的附加词：人在社交论坛中的生成文本数据，本质上是完全非正式的。大多数推文伴随着多个附加词，例如RayyDay. PrimeCythOrth.等，这些实体可以用简单的规则和正则表达式分裂成它们的正常形式.

8、俚语查找：同样，社交媒体包括大多数俚语词汇。这些词应该转换成标准词来制作自由文本。像LUV这样的词将被转换成爱，Helo到Hello。撇号查找的类似方法可以用来将俚语转换成标准词。网上有大量的信息源，它提供了所有可能的俚语的列表，可以用它们作为查找字典来进行转换。

9、规范词：有时词的格式不正确。例如：“I looooveee you” 应为 “I love you”。简单的规则和正则表达式可以帮助解决这些情况。

10、删除URL：应删除文本数据中的URL和超链接，如评论、评论和推文。

以上就是对web文本数据清洗流程及实例（实例代码）的全部介绍，如果您想了解更多有关HTML视频教程，请关注PHP中文网。

以上是web文本数据清洗流程及实例（实例代码）的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：csdn。如有侵权，请联系admin@php.cn删除

了解HTML，CSS和JavaScript：初学者指南Apr 12, 2025 am 12:02 AM

WebDevelovermentReliesonHtml，CSS和JavaScript：1）HTMLStructuresContent，2）CSSStyleSIT和3）JavaScriptAddSstractivity，形成thebasisofmodernWebemodernWebExexperiences。

HTML的角色：构建Web内容Apr 11, 2025 am 12:12 AM

HTML的作用是通过标签和属性定义网页的结构和内容。1.HTML通过到、等标签组织内容，使其易于阅读和理解。2.使用语义化标签如、等增强可访问性和SEO。3.优化HTML代码可以提高网页加载速度和用户体验。

HTML和代码：仔细观察术语Apr 10, 2025 am 09:28 AM

htmlisaspecifictypefodyfocusedonstructuringwebcontent，而“代码” badlyLyCludEslanguagesLikeLikejavascriptandPytyPythonForFunctionality.1）htmldefineswebpagertuctureduseTags.2）“代码”代码“ code” code code code codeSpassSesseseseseseseseAwiderRangeLangeLangeforLageforLogageforLogicIctInterract

HTML，CSS和JavaScript：Web开发人员的基本工具Apr 09, 2025 am 12:12 AM

HTML、CSS和JavaScript是Web开发的三大支柱。1.HTML定义网页结构，使用标签如、等。2.CSS控制网页样式，使用选择器和属性如color、font-size等。3.JavaScript实现动态效果和交互，通过事件监听和DOM操作。

HTML，CSS和JavaScript的角色：核心职责Apr 08, 2025 pm 07:05 PM

HTML定义网页结构，CSS负责样式和布局，JavaScript赋予动态交互。三者在网页开发中各司其职，共同构建丰富多彩的网站。

HTML容易为初学者学习吗？Apr 07, 2025 am 12:11 AM

HTML适合初学者学习，因为它简单易学且能快速看到成果。1)HTML的学习曲线平缓，易于上手。2)只需掌握基本标签即可开始创建网页。3)灵活性高，可与CSS和JavaScript结合使用。4)丰富的学习资源和现代工具支持学习过程。

HTML中起始标签的示例是什么？Apr 06, 2025 am 12:04 AM

AnexampleOfAstartingTaginHtmlis，beginSaparagraph.startingTagSareEssentialInhtmlastheyInitiateEllements，defiteTheeTheErtypes，andarecrucialforsstructuringwebpages wepages webpages andConstructingthedom。