이 글에서는 정규식을 통해 HTML 태그를 얻고, 필터링하고, 바꾸는 Python의 방법을 주로 소개합니다
이 글에서는 Python에서 정규식을 통해 HTML 태그를 얻거나 제거(필터링)하거나 바꾸는 여러 가지 방법을 소개합니다. 구체적인 내용은 다음과 같습니다Python 정규식 주요 내용:
Python 정규식이스케이프 문자:
. 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束 \W 匹配任意不是字母,数字,下划线,汉字的字符 \S 匹配任意不是空白符的字符 \D 匹配任意非数字的字符 \B 匹配不是单词开头或结束的位置 [^x] 匹配除了x以外的任意字符 [^aeiou] 匹配除了aeiou这几个字母以外的任意字符
일반적으로 사용되는 Python 정규식 한정자 코드/문법 설명:
*重复零次或更多次 +重复一次或更多次 ?重复零次或一次 {n}重复n次 {n,}重复n次或更多次 {n,m}重复n到m次
Python 정규식 정보 명명된 그룹:
命名组:(?P<name>.....) 这篇文章里面还提到了界定( 问号开头,前向则有个'<'号,非则有个'!' 号 ): 前向界定 (?<=…) 后向界定 (?=…) 前向非界定 (?<!....) 后向非界定 (?!.....)
Python은 정규 표현식을 통해 HTML 태그 코드를 획득, 제거(필터링) 또는 대체합니다. 예
1. Python은 정규식을 사용하여 HTML에서 날씨 정보 코드 예제를 가져옵니다.
#!/usr/bin/env python #-*- coding: utf8 -*- import re html = """ <h2 id="多云">多云</h2> """ if name == 'main': p = re.compile('<[^>]+>') print p.sub("", html) Python通过正则表达式取html中温度信息代码示例: #!/usr/bin/env python #-*- coding: utf8 -*- import re html = """ <p class="w-number"> <span class="tpte">14℃</span> </p> """ if name == 'main': p = re.compile('<[^>]+>') print p.sub("", html)
2. Python은 정규식 샘플 코드를 통해 HTML 태그를 제거(필터링)합니다.
# -*- coding: utf-8-*- import re ##过滤HTML中的标签 #将HTML中标签等信息去掉 #@param htmlstr HTML字符串. def filter_tags(htmlstr): #先过滤CDATA re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style re_br=re.compile('<br\s*?/?>')#处理换行 re_h=re.compile('</?\w+[^>]*>')#HTML标签 re_comment=re.compile('<!--[^>]*-->')#HTML注释 s=re_cdata.sub('',htmlstr)#去掉CDATA s=re_script.sub('',s) #去掉SCRIPT s=re_style.sub('',s)#去掉style s=re_br.sub('\n',s)#将br转换为换行 s=re_h.sub('',s) #去掉HTML 标签 s=re_comment.sub('',s)#去掉HTML注释 #去掉多余的空行 blank_line=re.compile('\n+') s=blank_line.sub('\n',s) s=replaceCharEntity(s)#替换实体 return s ##替换常用HTML字符实体. #使用正常的字符替换HTML中特殊的字符实体. #你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体. #@param htmlstr HTML字符串. def replaceCharEntity(htmlstr): CHAR_ENTITIES={'nbsp':' ','160':' ', 'lt':'<','60':'<', 'gt':'>','62':'>', 'amp':'&','38':'&', 'quot':'"','34':'"',} re_charEntity=re.compile(r'?(?P<name>\w+);') sz=re_charEntity.search(htmlstr) while sz: entity=sz.group()#entity全称,如> key=sz.group('name')#去除&;后entity,如>为gt try: htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1) sz=re_charEntity.search(htmlstr) except KeyError: #以空串代替 htmlstr=re_charEntity.sub('',htmlstr,1) sz=re_charEntity.search(htmlstr) return htmlstr def repalce(s,re_exp,repl_string): return re_exp.sub(repl_string,s) if name=='main': s=file('169it.com_index.htm').read() news=filter_tags(s) print news위 내용은 이 글 전체 내용이길 바랍니다. 모두의 공부에 도움이 될 것입니다.
위 내용은 HTML 태그 획득, 필터링 또는 교체를 위한 Python 일반 메소드 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

inpython, youappendElementStoalistUsingTheAppend () 메소드 1) useappend () forsinglelements : my_list.append (4) .2) useextend () 또는 = formultiplementements : my_list.extend (other_list) 또는 my_list = [4,5,6] .3) useinsert () forspecificpositions : my_list.insert (1,5) .Bearware

Shebang 문제를 디버깅하는 방법에는 다음이 포함됩니다. 1. Shebang 라인을 확인하여 스크립트의 첫 번째 줄인지 확인하고 접두사 공간이 없는지 확인하십시오. 2. 통역 경로가 올바른지 확인하십시오. 3. 통역사에게 직접 전화하여 스크립트를 실행하여 Shebang 문제를 분리하십시오. 4. Strace 또는 Trusts를 사용하여 시스템 호출을 추적합니다. 5. Shebang에 대한 환경 변수의 영향을 확인하십시오.

pythonlistscanbemanipatedusingseveralmethodstoremoveElements : 1) geremove () methodremove () methodeMovestHefirstoccurrence.2) thePop () methodRemovesAndReTurnSanElementatAgivenIndex.3) THEDELSTATEMENTCANREMORENDEX.4) LESTCORHENSCREC

PythonlistscanstoreAnydatataTATY, 문자열, 부유물, 부울, 기타 목록 및 디터 시어

pythonlistssupportnumouseOperations : 1) addingElementSwitHappend (), extend (), andinsert ()

다음 단계를 통해 Numpy를 사용하여 다차원 배열을 만들 수 있습니다. 1) Numpy.array () 함수를 사용하여 NP.Array ([[1,2,3], [4,5,6]]과 같은 배열을 생성하여 2D 배열을 만듭니다. 2) np.zeros (), np.ones (), np.random.random () 및 기타 함수를 사용하여 특정 값으로 채워진 배열을 만듭니다. 3) 서브 어레이의 길이가 일관되고 오류를 피하기 위해 배열의 모양과 크기 특성을 이해하십시오. 4) NP.Reshape () 함수를 사용하여 배열의 모양을 변경하십시오. 5) 코드가 명확하고 효율적인지 확인하기 위해 메모리 사용에주의를 기울이십시오.

BroadcastingInnumpyIsamethodtoperformoperationsonArraysoffferentShapesByAutomicallyAligningThem.itsimplifiesCode, enourseadability, andboostsperformance.here'showitworks : 1) smalraysarepaddedwithonestomatchdimenseare

forpythondatastorage, chooselistsforflexibilitywithmixeddatatypes, array.arrayformemory-effic homogeneousnumericaldata, andnumpyarraysforadvancednumericalcomputing.listsareversatilebutlessefficipforlargenumericaldatasets.arrayoffersamiddlegro


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음
