Python 清理HTML标签类似PHP的strip_tags函数功能（二）-php教程-PHP中文网

首页

后端开发

php教程

Python 清理HTML标签类似PHP的strip_tags函数功能（二）

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 23, 2016 pm 01:48 PM

phppythonstrip_tags标签清理

没有发现Python 有现成的类似功能模块，所以昨天写了个简单的 strip_tags 但还有些问题，今天应用到采集上时进行了部分功能的完善，

1. 对自闭和标签处理

2. 以及对标签参数的过滤

def strip_tags(html, save_tags=None, save_attrs=None):    result = []    start = []    data = []    # 特殊的自闭和标签, 按 HTML5 的规则, 如 <br> <img  alt="Python 清理HTML标签类似PHP的strip_tags函数功能（二）" > <wbr> 不再使用 /> 结尾    special_end_tags = [        'area', 'base', 'br', 'col', 'embed', 'hr',        'img', 'input', 'keygen', 'link', 'meta', 'param',        'source', 'track', 'wbr'    ]    def starttag(tag, attrs):        if tag not in save_tags:            return        start.append(tag)        my_attrs = []        if attrs:            for attr in attrs:                if save_attrs and attr[0] not in save_attrs:                    continue                my_attrs.append(attr[0] + '="' + attr[1] + '"')            if my_attrs:                my_attrs = ' ' + (' '.join(my_attrs))            else:                my_attrs = ''        else:            my_attrs = ''        result.append('')    def endtag(tag):        if start and tag == start[len(start) - 1]:            # 特殊自闭和标签按照HTML5规则不加反斜杠直接尖括号结尾            if tag not in special_end_tags:                result.append('' + tag + '>')    parser = HTMLParser()    parser.handle_data = result.append    if save_tags:        parser.handle_starttag = starttag        parser.handle_endtag = endtag    parser.feed(html)    parser.close()    for i in range(0, len(result)):        tmp = result[i].rstrip('\n')        tmp = tmp.lstrip('\n')        if tmp:            data.append(tmp)    return ''.join(data)</wbr>

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

php怎么把负数转为正整数Apr 19, 2022 pm 08:59 PM

php把负数转为正整数的方法：1、使用abs()函数将负数转为正数，使用intval()函数对正数取整，转为正整数，语法“intval(abs($number))”；2、利用“~”位运算符将负数取反加一，语法“~$number + 1”。

如何在Chrome和Edge的所有选项卡中搜索文本Feb 19, 2024 am 11:30 AM

本教程向您展示了如何在Windows的Chrome或Edge中找到所有打开的标签页上的特定文本或短语。有没有办法在Chrome中所有打开的标签页上进行文本搜索？是的，您可以使用Chrome中的免费外部Web扩展在所有打开的标签上执行文本搜索，无需手动切换标签。一些扩展如TabSearch和Ctrl-FPlus可以帮助您轻松实现这一功能。如何在GoogleChrome的所有选项卡中搜索文本？Ctrl-FPlus是一个免费的扩展，它方便用户在浏览器窗口的所有选项卡中搜索特定的单词、短语或文本。这个扩

php怎么设置implode没有分隔符Apr 18, 2022 pm 05:39 PM

在PHP中，可以利用implode()函数的第一个参数来设置没有分隔符，该函数的第一个参数用于规定数组元素之间放置的内容，默认是空字符串，也可将第一个参数设置为空，语法为“implode(数组)”或者“implode("",数组)”。

php怎么判断有没有小数点Apr 20, 2022 pm 08:12 PM

php判断有没有小数点的方法：1、使用“strpos(数字字符串,'.')”语法，如果返回小数点在字符串中第一次出现的位置，则有小数点；2、使用“strrpos(数字字符串,'.')”语句，如果返回小数点在字符串中最后一次出现的位置，则有。

抖音怎么带标签引流？平台什么标签最容易引流？Mar 22, 2024 am 10:28 AM

抖音作为一款备受欢迎的短视频社交平台，拥有着庞大的用户群体。对于抖音创作者来说，带标签引流是一种有效提升内容曝光度和吸引关注的方法。那么，抖音怎么带标签引流呢？本文将为您详细解答这个问题，并介绍相关技巧。一、抖音怎么带标签引流？发布视频时，要确保选择与内容相关的标签。这些标签应涵盖视频的主题和关键词，以便让用户通过标签更容易找到您的视频。利用流行标签是增加视频曝光的有效方法。研究当前热门标签和趋势，将其巧妙地融入视频描述和标签中。这些热门标签通常具有更高的曝光度，能够吸引更多观众的关注。3.标签

抖音标签后面的时钟是什么？怎么给抖音账号打标签呢？Mar 24, 2024 pm 03:46 PM

在浏览抖音作品时，我们经常能看到标签后面有一个时钟图标。那么，这个时钟到底是什么呢？本文将围绕“抖音标签后面的时钟是什么”展开讨论，希望为您的抖音使用提供一些有益的参考。一、抖音标签后面的时钟是什么？抖音会推出一些热门话题挑战，用户参与时会在标签后看到一个时钟图标，这代表作品正在参与话题挑战，并显示挑战的剩余时间。对于一些具有时效性的内容，如节假日、特殊活动等，抖音会在标签后面附上时钟图标，提醒用户该内容的有效期限。3.热门标签：当某个标签变得热门时，抖音会在标签后面添加时钟图标，表示这个标签正