Heim  >  Artikel  >  Backend-Entwicklung  >  Beschreibung der regulären Python-Methode zum Abrufen, Filtern oder Ersetzen von HTML-Tags

Beschreibung der regulären Python-Methode zum Abrufen, Filtern oder Ersetzen von HTML-Tags

高洛峰
高洛峰Original
2017-03-13 18:13:331365Durchsuche

Dieser Artikel stellt hauptsächlich die Methode von Python vor, um den HTML-Tag durch regulären Ausdruck zu erhalten, zu filtern oder zu ersetzen

In diesem Artikel werden verschiedene Methoden zum Abrufen, Entfernen (Filtern) oder Ersetzen von HTML-Tags durch reguläre Ausdrücke in Python vorgestellt. Der spezifische Inhalt ist wie folgt:

reguläre Python-Ausdrücke Hauptinhalt:

Regulärer Python-AusdruckEscape-Zeichen:


. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

Häufig verwendete Python-Qualifikationscodes/Grammatikanweisungen für reguläre Ausdrücke:


*重复零次或更多次
+重复一次或更多次
?重复零次或一次
{n}重复n次
{n,}重复n次或更多次
{n,m}重复n到m次

Über die benannte Gruppe regulärer Python-Ausdrücke:


命名组:(?P<name>.....)
这篇文章里面还提到了界定( 问号开头,前向则有个&#39;<&#39;号,非则有个&#39;!&#39; 号 ):
前向界定 (?<=…)
后向界定 (?=…) 
前向非界定 (?<!....)
后向非界定 (?!.....)

Python erhält, entfernt (filtert) oder ersetzt HTML-Tag-Codes durch reguläre Ausdrücke. Beispiel

1. Python verwendet reguläre Ausdrücke, um ein Codebeispiel für Wetterinformationen aus HTML zu erhalten:


#!/usr/bin/env python 
#-*- coding: utf8 -*- 
import re 
  
html = """ 
  <h2>多云</h2> 
""" 
  
if name == &#39;main&#39;: 
  p = re.compile(&#39;<[^>]+>&#39;) 
  print p.sub("", html)
Python通过正则表达式取html中温度信息代码示例:
#!/usr/bin/env python 
#-*- coding: utf8 -*- 
import re 
  
html = """ 
  <p class="w-number"> <span class="tpte">14℃</span> </p> 
""" 
  
if name == &#39;main&#39;: 
  p = re.compile(&#39;<[^>]+>&#39;) 
  print p.sub("", html)

2. Python entfernt (filtert) HTML-Tags durch Beispielcode für reguläre Ausdrücke:


# -*- coding: utf-8-*-
import re
##过滤HTML中的标签
#将HTML中标签等信息去掉
#@param htmlstr HTML字符串.
def filter_tags(htmlstr):
  #先过滤CDATA
  re_cdata=re.compile(&#39;//<!\[CDATA\[[^>]*//\]\]>&#39;,re.I) #匹配CDATA
  re_script=re.compile(&#39;<\s*script[^>]*>[^<]*<\s*/\s*script\s*>&#39;,re.I)#Script
  re_style=re.compile(&#39;<\s*style[^>]*>[^<]*<\s*/\s*style\s*>&#39;,re.I)#style
  re_br=re.compile(&#39;<br\s*?/?>&#39;)#处理换行
  re_h=re.compile(&#39;</?\w+[^>]*>&#39;)#HTML标签
  re_comment=re.compile(&#39;<!--[^>]*-->&#39;)#HTML注释
  s=re_cdata.sub(&#39;&#39;,htmlstr)#去掉CDATA
  s=re_script.sub(&#39;&#39;,s) #去掉SCRIPT
  s=re_style.sub(&#39;&#39;,s)#去掉style
  s=re_br.sub(&#39;\n&#39;,s)#将br转换为换行
  s=re_h.sub(&#39;&#39;,s) #去掉HTML 标签
  s=re_comment.sub(&#39;&#39;,s)#去掉HTML注释
  #去掉多余的空行
  blank_line=re.compile(&#39;\n+&#39;)
  s=blank_line.sub(&#39;\n&#39;,s)
  s=replaceCharEntity(s)#替换实体
  return s
##替换常用HTML字符实体.
#使用正常的字符替换HTML中特殊的字符实体.
#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.
#@param htmlstr HTML字符串.
def replaceCharEntity(htmlstr):
  CHAR_ENTITIES={&#39;nbsp&#39;:&#39; &#39;,&#39;160&#39;:&#39; &#39;,
        &#39;lt&#39;:&#39;<&#39;,&#39;60&#39;:&#39;<&#39;,
        &#39;gt&#39;:&#39;>&#39;,&#39;62&#39;:&#39;>&#39;,
        &#39;amp&#39;:&#39;&&#39;,&#39;38&#39;:&#39;&&#39;,
        &#39;quot&#39;:&#39;"&#39;,&#39;34&#39;:&#39;"&#39;,}
   
  re_charEntity=re.compile(r&#39;?(?P<name>\w+);&#39;)
  sz=re_charEntity.search(htmlstr)
  while sz:
    entity=sz.group()#entity全称,如>
    key=sz.group(&#39;name&#39;)#去除&;后entity,如>为gt
    try:
      htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
      sz=re_charEntity.search(htmlstr)
    except KeyError:
      #以空串代替
      htmlstr=re_charEntity.sub(&#39;&#39;,htmlstr,1)
      sz=re_charEntity.search(htmlstr)
  return htmlstr
def repalce(s,re_exp,repl_string):
  return re_exp.sub(repl_string,s)
if name==&#39;main&#39;:
  s=file(&#39;169it.com_index.htm&#39;).read()
  news=filter_tags(s)
  print news

Das Obige ist Ich hoffe, dass der gesamte Inhalt dieses Artikels für das Studium aller hilfreich sein wird.

Das obige ist der detaillierte Inhalt vonBeschreibung der regulären Python-Methode zum Abrufen, Filtern oder Ersetzen von HTML-Tags. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn