搜索
首页web前端html教程web文本数据清洗流程及实例 (实例代码)

本篇文章给大家带来的内容是关于web文本数据清洗流程及实例 (实例代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

今天,超过80%的数据是非结构化的。文本数据预处理是数据分析前的必经之路。大多数可用的文本数据本质上是高度非结构化和嘈杂的,需要更好的见解或建立更好的算法来处理数据。 

我们知道,社交媒体数据是高度非结构化的,因其非正式的交流,存在包括拼写错误、语法不好、俚语的使用、诸如URL、停用词、表达式等不必要内容。

一个典型的商业问题,假设你感兴趣的是:这是iPhone在粉丝中更受欢迎的特点。下面你已经提取了与iPhone相关的消费者意见的一条推特:

下面对这条推特做文本预处理:

1、去掉HTML 字符:    

从Web获得的数据通常包含许多HTML实体,如lt;& gt;& &;它嵌入到原始数据中。因此,必须摆脱这些实体。一种方法是通过使用特定的正则表达式直接删除它们。另一种方法是使用适当的包和模块(例如Python的HTMLPARSER),它可以将这些实体转换成标准的HTML标记。例如:& lt;转换为“<”,转换为“&”。

         1.png

2、解码数据:

这是将信息从复杂符号转换为简单易懂字符的过程。文本数据可能会受到不同形式的解码,如“拉丁语”、“UTF8”等。因此,为了更好地分析,有必要保持完整的数据以标准的编码格式。UTF-8编码被广泛接受并推荐使用。

       2.png

3、撇号查找:为了避免文本中的任何词义消歧,建议在文章中保持适当的结构,并遵守上下文无关文法的规则。当使用撇号时,消歧的机会增加。

For example “it’s is a contraction for it is or it has”.

所有撇号都应该转换成标准词典。可以使用所有可能的关键字的查找表来消除歧义。

       3.png

4、停用词的去除:当数据分析需要在字级上进行数据驱动时,应删除通常出现的单词(停用词)。通过创建的一个长长的停止词列表,或者可以使用预定义的语言特定的库。

5、删除标点符号:所有的标点符号应根据优先级来处理。例如:“,”,“,”,“?”“重要标点应该保留,而其他标点需要删除。

6、删除表达式:文本数据(通常是语音转录)可能包含人类的表达,如[笑],[哭],[观众暂停]。这些表达式通常与语音内容无关,因此需要删除。在这种情况下,简单正则表达式可能是有用的。

7、分裂的附加词:人在社交论坛中的生成文本数据,本质上是完全非正式的。大多数推文伴随着多个附加词,例如RayyDay. PrimeCythOrth.等,这些实体可以用简单的规则和正则表达式分裂成它们的正常形式.

8、俚语查找:同样,社交媒体包括大多数俚语词汇。这些词应该转换成标准词来制作自由文本。像LUV这样的词将被转换成爱,Helo到Hello。撇号查找的类似方法可以用来将俚语转换成标准词。网上有大量的信息源,它提供了所有可能的俚语的列表,可以用它们作为查找字典来进行转换。

9、规范词:有时词的格式不正确。例如:“I looooveee you” 应为 “I love you”。简单的规则和正则表达式可以帮助解决这些情况。

10、删除URL:应删除文本数据中的URL和超链接,如评论、评论和推文。

以上就是对web文本数据清洗流程及实例 (实例代码)的全部介绍,如果您想了解更多有关HTML视频教程,请关注PHP中文网。

 

以上是web文本数据清洗流程及实例 (实例代码)的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:csdn。如有侵权,请联系admin@php.cn删除
了解HTML,CSS和JavaScript:初学者指南了解HTML,CSS和JavaScript:初学者指南Apr 12, 2025 am 12:02 AM

WebDevelovermentReliesonHtml,CSS和JavaScript:1)HTMLStructuresContent,2)CSSStyleSIT和3)JavaScriptAddSstractivity,形成thebasisofmodernWebemodernWebExexperiences。

HTML的角色:构建Web内容HTML的角色:构建Web内容Apr 11, 2025 am 12:12 AM

HTML的作用是通过标签和属性定义网页的结构和内容。1.HTML通过到、等标签组织内容,使其易于阅读和理解。2.使用语义化标签如、等增强可访问性和SEO。3.优化HTML代码可以提高网页加载速度和用户体验。

HTML和代码:仔细观察术语HTML和代码:仔细观察术语Apr 10, 2025 am 09:28 AM

htmlisaspecifictypefodyfocusedonstructuringwebcontent,而“代码” badlyLyCludEslanguagesLikeLikejavascriptandPytyPythonForFunctionality.1)htmldefineswebpagertuctureduseTags.2)“代码”代码“ code” code code code codeSpassSesseseseseseseseAwiderRangeLangeLangeforLageforLogageforLogicIctInterract

HTML,CSS和JavaScript:Web开发人员的基本工具HTML,CSS和JavaScript:Web开发人员的基本工具Apr 09, 2025 am 12:12 AM

HTML、CSS和JavaScript是Web开发的三大支柱。1.HTML定义网页结构,使用标签如、等。2.CSS控制网页样式,使用选择器和属性如color、font-size等。3.JavaScript实现动态效果和交互,通过事件监听和DOM操作。

HTML,CSS和JavaScript的角色:核心职责HTML,CSS和JavaScript的角色:核心职责Apr 08, 2025 pm 07:05 PM

HTML定义网页结构,CSS负责样式和布局,JavaScript赋予动态交互。三者在网页开发中各司其职,共同构建丰富多彩的网站。

HTML容易为初学者学习吗?HTML容易为初学者学习吗?Apr 07, 2025 am 12:11 AM

HTML适合初学者学习,因为它简单易学且能快速看到成果。1)HTML的学习曲线平缓,易于上手。2)只需掌握基本标签即可开始创建网页。3)灵活性高,可与CSS和JavaScript结合使用。4)丰富的学习资源和现代工具支持学习过程。

HTML中起始标签的示例是什么?HTML中起始标签的示例是什么?Apr 06, 2025 am 12:04 AM

AnexampleOfAstartingTaginHtmlis,beginSaparagraph.startingTagSareEssentialInhtmlastheyInitiateEllements,defiteTheeTheErtypes,andarecrucialforsstructuringwebpages wepages webpages andConstructingthedom。

如何利用CSS的Flexbox布局实现菜单中虚线分割效果的居中对齐?如何利用CSS的Flexbox布局实现菜单中虚线分割效果的居中对齐?Apr 05, 2025 pm 01:24 PM

如何设计菜单中的虚线分割效果?在设计菜单时,菜名和价格的左右对齐通常不难实现,但中间的虚线或点如何...

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版