搜索
首页后端开发php教程Python 实现类似PHP的strip_tags函数功能,并且可以自定义设置保留标签

最近在研究 Python ,发现用的还是很不习惯,很多PHP里面很简单的功能在Python 里面都得找半天,而且很多功能都得自己实现。

今天做个采集,需要过滤内容中的标签,搞了一下午,貌似终于搞出来了,测试了下达到了预想的效果,废话不多说贴上代码吧

from html.parser import HTMLParserdef strip_tags(html, save=None):    result = []    start = []    data = []    def starttag(tag, attrs):        if tag not in save:            return        start.append(tag)        if attrs:            j = 0            for attr in attrs:                attrs[j] = attr[0] + '="' + attr[1] + '"'                j += 1            attrs = ' ' + (' '.join(attrs))        else:            attrs = ''        result.append('')    def endtag(tag):        if start and tag == start[len(start) - 1]:            result.append('' + tag + '>')    parser = HTMLParser()    parser.handle_data = result.append    if save:        parser.handle_starttag = starttag        parser.handle_endtag = endtag    parser.feed(html)    parser.close()    for i in range(0, len(result)):        tmp = result[i].rstrip('\n')        tmp = tmp.lstrip('\n')        if tmp:            data.append(tmp)    return ''.join(data)

使用方法:

    result = strip_tags("""发生的杀毒<a target="_blank" title="足球比分直播" href="http://live.500.com/">足球比分直播</a><a target="_blank" title="竞彩足球" href="http://zx.500.com/jczq/">竞彩足球</a><a target="_blank" title="篮球竞彩" href="http://zx.500.com/jclq/">篮球竞彩</a>				<img src="/static/imghwm/default1.png" data-src="dd" class="lazy" alt=">">						<p>  打蛇打七寸,北单7串1。由于<a target="_blank" title="北京单场" href="http://zx.500.com/zqdc/">北京单场</a>SP值计算规则与竞彩不同,4串1及以下投注购买竞彩更划算,而7串1以上的投注很可能交税,反而不划算。根据计算,北京单场4串1到7串1之间的投注最划算。</p>""", ['p', 'img'])    print(result)

输出结果:

发生的杀毒足球比分直播竞彩足球篮球竞彩				<img src="/static/imghwm/default1.png" data-src="dd" class="lazy" alt=">">						<p>  打蛇打七寸,北单7串1。由于北京单场SP值计算规则与竞彩不同,4串1及以下投注购买竞彩更划算,而7串1以上的投注很可能交税,反而不划算。根据计算,北京单场4串1到7串1之间的投注最划算。</p>

仅保留

标签





声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
如何为所有文件夹在Windows 11中设置相同的文件夹视图?如何为所有文件夹在Windows 11中设置相同的文件夹视图?Apr 26, 2023 pm 10:31 PM

在Windows中,我们可以在文件资源管理器中查看文件夹、文件和其他文档。您可能已经观察到,很少有文件和文件夹具有较小的图标,而很少有较大的图标。因此可以理解,有一个定制选项可用。根据文件的性质,默认设置了不同的文件夹模板。例如,在包含照片的名为Picture的文件夹中,图像具有不同的视图。包含音乐文件的音乐文件夹将具有不同的模板。同样,对于文档、视频等文件夹,每个文件夹根据其类别包含不同的模板。您还可以选择文件夹的模板并将其设置为所有其他相同类型的文件夹。在本文中,我们将学习如何将文件夹视图应

如何在 iPhone 上使用多计时器与 iOS 17如何在 iPhone 上使用多计时器与 iOS 17Jun 21, 2023 am 08:18 AM

什么是iOS17上的多计时器?在iOS17中,Apple现在为用户提供了在iPhone上一次设置多个计时器的能力。这是一个可喜的变化,许多人多年来一直期待的变化。时钟应用程序在iOS16之前只允许用户一次设置一个计时器,现在可用于激活任意数量的计时器,使其成为您一次完成多个任务的理想选择。您可以在计时器屏幕中设置任意数量的计时器。启动计时器后,所有活动计时器都将在锁屏界面和通知中心显示为“实时活动”通知。从这里,您可以查看计时器关闭、暂停或停止计时器的剩余时间,而无需打开时钟应用程序。当您在时钟

如何为您的 Windows lComputer 设置首选频段 [2023]如何为您的 Windows lComputer 设置首选频段 [2023]Jun 26, 2023 am 08:26 AM

几乎所有最新品牌的笔记本电脑都配备了双品牌WiFi。您可以将WiFi设置为5GHz或2.4GHz带宽。但是,事情并没有那么简单。笔记本电脑上的此功能很好地隐藏在设备管理器中,您无法从“设置”页面执行此操作。按照我们的指南为您的笔记本电脑、PC设置首选频段。注意–要切换到5GHz带宽WiFi,您需要WiFi路由器和设备都支持双频WiFi。如果它们中的任何一个都没有支持,则无法更改WiFi带宽。如何在设备上设置首选的WiFi频段设置首选频段以充分利用您的WiFi非常容易。方式1–设置首选频段步骤1–

如何在Chrome和Edge的所有选项卡中搜索文本如何在Chrome和Edge的所有选项卡中搜索文本Feb 19, 2024 am 11:30 AM

本教程向您展示了如何在Windows的Chrome或Edge中找到所有打开的标签页上的特定文本或短语。有没有办法在Chrome中所有打开的标签页上进行文本搜索?是的,您可以使用Chrome中的免费外部Web扩展在所有打开的标签上执行文本搜索,无需手动切换标签。一些扩展如TabSearch和Ctrl-FPlus可以帮助您轻松实现这一功能。如何在GoogleChrome的所有选项卡中搜索文本?Ctrl-FPlus是一个免费的扩展,它方便用户在浏览器窗口的所有选项卡中搜索特定的单词、短语或文本。这个扩

如何在 Windows 11 上快速设置动态壁纸如何在 Windows 11 上快速设置动态壁纸Apr 25, 2023 pm 02:13 PM

桌面屏幕上的壁纸是系统启动后最令人兴奋和最引人注目的功能之一。它对人们产生有利的影响,并鼓励他们在感到快乐的同时提高工作效率。另一方面,更换壁纸并定期寻找它是一项耗时的任务。那么,如果你的桌面屏幕有一个动态的动态壁纸,可以让你看到各种轻松的壁纸,那不是很好吗?这也将允许用户下载任何GIF并将其设置为系统上的壁纸。在这篇文章中,我们将教您如何使用MicrosoftStore在您的PC上创建或获取动态壁纸。如何使用MicrosoftStore在Windows11上快速设置或获取动态壁

Python的round()函数:保留指定位数的小数Python的round()函数:保留指定位数的小数Nov 18, 2023 pm 05:35 PM

Python的round()函数:保留指定位数的小数,需要具体代码示例概述:在Python编程中,经常需要对浮点数进行四舍五入,以保留指定位数的小数。为了解决这个问题,Python提供了round()函数。本文将介绍round()函数的用法,并提供一些具体的代码示例。round()函数的用法:round()函数是Python内置的一个函数,用于对浮点数进行四

PHP入门指南:服务器安全设置PHP入门指南:服务器安全设置May 20, 2023 pm 05:31 PM

PHP是一种广泛应用于Web开发的编程语言,它的应用范围很广,从简单的表单到复杂的电子商务网站都可以使用PHP来实现。然而,与任何其他Web应用程序一样,PHP应用程序也需要保证安全性。本文将介绍PHP入门指南:服务器安全设置。保持服务器程序更新第一步是确保服务器上所有相关程序都是最新版本。这包括操作系统、Web服务器、数据库服务器和PHP本身。经常升级服务

如何在 Windows 11 中设置夜灯时间表?如何在 Windows 11 中设置夜灯时间表?Apr 24, 2023 am 09:01 AM

我们的电脑屏幕会发出蓝光,就像太阳发出的光一样。这种光并没有那么有害。但是在其他灯光稍微暖和一些的晚上,当你盯着电脑屏幕发出更亮的蓝光更长时间时,你最终会感到眼睛疲劳。当然,您可能知道所有这些,并且您可能已经知道窗户具有的夜灯功能,它有助于阻挡蓝光的发射,而是使用更温暖的颜色,让您的眼睛感到愉悦。当您感觉自己的眼睛也在燃烧时,您可能已经在每次打开此功能。但是您知道您可以设置一个时间表,根据该时间表自动启用和禁用夜灯功能吗?如果您还不知道,请继续阅读!第1步:要启动设置应用程序,请同时按下WIN+

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器