PythonでHTMLタグを削除する方法

藏色散人
藏色散人オリジナル
2021-04-28 11:00:546495ブラウズ

HTML タグを削除する Python メソッド: 1. "pattern.sub('',html)" メソッド; 2. "BeautifulSoup(html,'html.parser')" メソッド; 3. "response.xpath" 「('string(.)')」メソッド。

PythonでHTMLタグを削除する方法

この記事の動作環境: Windows 7 システム、Python バージョン 3.6.4、DELL G3 コンピューター。

Python で HTML タグを削除するいくつかの方法

import re
from bs4 import BeautifulSoup
from lxml import etree
 
html = &#39;<p>你好</p><br/><font>哈哈</font><b>大家好</b>&#39;
 
# 方法一
pattern = re.compile(r&#39;<[^>]+>&#39;,re.S)
result = pattern.sub(&#39;&#39;, html)
print(result)
 <br># 方法二
soup = BeautifulSoup(html,&#39;html.parser&#39;)
print(soup.get_text())
 
# 方法三
response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath(&#39;string(.)&#39;))
 
 
# 你好哈哈大家好
# 你好哈哈大家好
# 你好哈哈大家好

[推奨: Python ビデオ チュートリアル]

以上がPythonでHTMLタグを削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。