Regular(regular), 정규 표현식을 사용하려면 Python에서 re(regular의 약어) 모듈을 가져와야 합니다. 이 글을 통해 정규식(regular) 관련 지식을 소개하겠습니다. 관심 있는 친구들은 함께 배울 수 있습니다.
regular. 정규식을 사용하려면 Python에서 re(regular의 약어) 모듈을 가져와야 합니다. 정규식은 문자열을 처리하는 데 사용됩니다. 문자열에는 추출하려는 많은 정보가 포함되어 있는 경우가 있습니다. 이러한 문자열 처리 방법을 익히면 많은 작업이 쉬워집니다.
정규 표현식(regular), 문자열을 처리하는 방법입니다.
파일 처리가 Python에서 매우 일반적이기 때문에 정규 표현식이 일반적으로 사용되는 방법입니다. 파일에 문자열이 포함되어 있으면 정규 표현식을 사용해야 합니다. 그러므로 정규식을 마스터해야 합니다. 정규식에 포함된 메서드를 살펴보겠습니다.
(1) match(pattern, string, flags=0)
def match(pattern, string, flags=0): """Try to apply the pattern at the start of the string, returning a match object, or None if no match was found.""" return _compile(pattern, flags).match(string)
위의 설명: 패턴을 적용해 보세요. 문자열의 시작 부분에서 일치 개체를 반환하거나 일치 항목을 찾지 못한 경우 None을 반환합니다. 문자열의 시작 부분부터 검색하여 일치 개체를 반환하거나 일치 항목을 찾지 못한 경우 None을 반환합니다.
핵심 사항: (1) 처음부터 검색을 시작합니다. (2) 찾을 수 없으면 None을 반환합니다.
몇 가지 예를 살펴보겠습니다.
import re string = "abcdef" m = re.match("abc",string) (1)匹配"abc",并查看返回的结果是什么 print(m) print( n = re.match("abcf",string) print(n) (2)字符串不在列表中查找的情况 l = re.match("bcd",string) (3)字符串在列表中间查找情况 print(l)
실행 결과는 다음과 같습니다.
<_sre.SRE_Match object; span=(0, 3), match='abc'> (1)abc (2) None (3) None (4)
위의 출력 결과 (1)에서 match()를 사용하여 일치하는 것을 볼 수 있습니다. 일치 객체가 반환됩니다. 가시적인 상황으로 변환하려면 (2)와 같이 변환을 위해 group()을 사용하세요. 일치하는 정규식이 문자열에 없으면 None (3)이 반환됩니다. 플래그) 문자열의 시작 부분부터 일치하며, (4)와 같이 문자열의 시작 부분에서만 일치할 수 있습니다.
(2) fullmatch(pattern, string, flags=0)
def fullmatch(pattern, string, flags=0): """Try to apply the pattern to all of the string, returning a match object, or None if no match was found.""" return _compile(pattern, flags).fullmatch(string)
위의 설명: 패턴을 모든 문자열에 적용하여 일치 객체를 반환하거나, 일치하지 않으면 None을 반환해 보세요. wasfound...
(3) search(pattern, string, flags)
def search(pattern, string, flags=0): """Scan through string looking for a match to the pattern, returning a match object, or None if no match was found.""" return _compile(pattern, flags).search(string) search(pattern,string,flags)的注释是Scan throgh string looking for a match to the pattern,returning a match object,or None if no match was found.在字符串任意一个位置查找正则表达式,如果找到了则返回match object对象,如果查找不到则返回None。
요점: (1) match()와 달리 문자열 중간의 어떤 위치에서든 검색합니다. 처음부터 시작합니다. (2) 찾지 못하면 None을 반환합니다.
import re string = "ddafsadadfadfafdafdadfasfdafafda" m ="a",string) (1)从中间开始匹配 print(m) print( n ="N",string) (2)匹配不到的情况 print(n)
실행 결과는 다음과 같습니다.
<_sre.SRE_Match object; span=(2, 3), match='a'> (1)a (2)None (3)
위의 결과(1)에서 볼 수 있듯이, 패턴, 문자열, 플래그=0) 중간 어느 위치에서나 일치할 수 있어 사용 범위가 확장됩니다. 처음부터만 일치할 수 있는 match()와 달리 반환되는 개체도 match_object 개체입니다. ) match_object 객체를 표시하려면 group() 메서드를 사용해야 합니다. (3) 찾을 수 없으면 None을 반환합니다.
(4) sub(pattern,repl,string,count=0,flags=0)
def sub(pattern, repl, string, count=0, flags=0): """Return the string obtained by replacing the leftmost non-overlapping occurrences of the pattern in string by the replacement repl. repl can be either a string or a callable; if a string, backslash escapes in it are processed. If it is a callable, it's passed the match object and must return a replacement string to be used.""" return _compile(pattern, flags).sub(repl, string, count) sub(pattern,repl,string,count=0,flags=0)查找替换,就是先查找pattern是否在字符串string中;repl是要把pattern匹配的对象,就要把正则表达式找到的字符替换为什么;count可以指定匹配个数,匹配多少个。示例如下: import re string = "ddafsadadfadfafdafdadfasfdafafda" m = re.sub("a","A",string) #不指定替换个数(1) print(m) n = re.sub("a","A",string,2) #指定替换个数(2) print(n) l = re.sub("F","B",string) #匹配不到的情况(3) print(l)
실행 결과는 다음과 같습니다: ddAfsAdAdfAdfAfdAfdAdfAsfdAfAfdA --(1)
ddAfsAdadfa dfafdafdadfasfdafafda -- (2 ) ddafsadadfadfafdafdadfasfdafafda — (3)
위의 코드(1)는 일치 항목 수를 지정하지 않으므로 기본값은 모든 항목과 일치하는 것입니다. (2) 일치 항목 수를 지정한 다음 지정된 숫자만 일치합니다. (3)에서 일치시킬 정규 패턴이 문자열에 없으면 원래 문자열이 반환됩니다.
핵심 사항: (1) 모든 일치 항목이 아닌 일치 항목 수를 지정할 수 있습니다. (2) 일치 항목이 없으면 원래 문자열이 반환됩니다.
(5) subn(pattern,repl,string; ,count=0 , flags=0)
def subn(pattern, repl, string, count=0, flags=0): """Return a 2-tuple containing (new_string, number). new_string is the string obtained by replacing the leftmost non-overlapping occurrences of the pattern in the source string by the replacement repl. number is the number of substitutions that were made. repl can be either a string or a callable; if a string, backslash escapes in it are processed. If it is a callable, it's passed the match object and must return a replacement string to be used.""" return _compile(pattern, flags).subn(repl, string, count)
import re string = "ddafsadadfadfafdafdadfasfdafafda" m = re.subn("a","A",string) #全部替换的情况 (1) print(m) n = re.subn("a","A",string,3) #替换部分 (2) print(n) l = re.subn("F","A",string) #指定替换的字符串不存在 (3) print(l)
('ddAfsAdAdfAdfAfdAfdAdfAsfdAfAfdA', 11) (1)
('ddAfsAdAdfadfafdafdfasfdafafda', 3) (2) ('dd afsadadfadfafdafdadfasfdafafda', 0) (3)
def split(pattern, string, maxsplit=0, flags=0): """Split the source string by the occurrences of the pattern, returning a list containing the resulting substrings. If capturing parentheses are used in pattern, then the text of all groups in the pattern are also returned as part of the resulting list. If maxsplit is nonzero, at most maxsplit splits occur, and the remainder of the string is returned as the final element of the list.""" return _compile(pattern, flags).split(string, maxsplit) split(pattern,string,maxsplit=0,flags=0)是字符串的分割,按照某个正则要求pattern分割字符串,返回一个列表returning a list containing the resulting substrings.就是按照某种方式分割字符串,并把字符串放在一个列表中。实例如下: import re string = "ddafsadadfadfafdafdadfasfdafafda" m = re.split("a",string) #分割字符串(1) print(m) n = re.split("a",string,3) #指定分割次数 print(n) l = re.split("F",string) #分割字符串不存在列表中 print(l)
['dd', 'fs', 'd', 'df', 'df', 'fd', 'fd', 'df', 'sfd', 'f', 'fd', ''] (1) ['dd', 'fs', 'd', 'dfadfafdafdadfasfdafafda'] (2) ['ddafsadadfadfafdafdadfasfdafafda'] (3)
def findall(pattern, string, flags=0): """Return a list of all non-overlapping matches in the string. If one or more capturing groups are present in the pattern, return a list of groups; this will be a list of tuples if the pattern has more than one group. Empty matches are included in the result.""" return _compile(pattern, flags).findall(string) findall(pattern,string,flags=)是返回一个列表,包含所有匹配的元素。存放在一个列表中。示例如下: import re string = "dd12a32d46465fad1648fa1564fda127fd11ad30fa02sfd58afafda" m = re.findall("[a-z]",string) #匹配字母,匹配所有的字母,返回一个列表(1) print(m) n = re.findall("[0-9]",string) #匹配所有的数字,返回一个列表 (2) print(n) l = re.findall("[ABC]",string) #匹配不到的情况 (3) print(l)
['d', 'd', 'a', 'd', 'f', 'a', 'd', 'f', 'a', 'f', 'd', 'a', 'f', 'd', 'a', 'd', 'f', 'a', 's', 'f', 'd', 'a', 'f', 'a', 'f', 'd', 'a'] (1) ['1', '2', '3', '2', '4', '6', '4', '6', '5', '1', '6', '4', '8', '1', '5', '6', '4', '1', '2', '7', '1', '1', '3', '0', '0', '2', '5', '8'] (2) [] (3)
def finditer(pattern, string, flags=0): """Return an iterator over all non-overlapping matches in the string. For each match, the iterator returns a match object. Empty matches are included in the result.""" return _compile(pattern, flags).finditer(string) finditer(pattern,string)查找模式,Return an iterator over all non-overlapping matches in the string.For each match,the iterator a match object.
import re string = "dd12a32d46465fad1648fa1564fda127fd11ad30fa02sfd58afafda" m = re.finditer("[a-z]",string) print(m) n = re.finditer("AB",string) print(n)
<callable_iterator object at 0x7fa126441898> (1) <callable_iterator object at 0x7fa124d6b710> (2)
def compile(pattern, flags=0): "Compile a regular expression pattern, returning a pattern object." return _compile(pattern, flags)
def purge(): "Clear the regular expression caches" _cache.clear() _cache_repl.clear()
def template(pattern, flags=0): "Compile a template pattern, returning a pattern object" return _compile(pattern, flags|T)
import re string = "dd12a32d46465fad1648fa1564fda127fd11ad30fa02sfd58afafda" p = re.compile("[a-z]+") #先使用compile(pattern)进行编译 m = p.match(string) #然后进行匹配 print(
上面的第2 和第3行也可以合并成一行来写:
m = p.match("^[0-9]",'14534Abc')
(1)^ 匹配字符串的开头
import re string = "dd12a32d41648f27fd11a0sfdda" #^匹配字符串的开头,现在我们使用search()来匹配以数字开始的 m ="^[0-9]",string) #匹配字符串开头以数字开始 (1) print(m) n ="^[a-z]+",string) #匹配字符串开头以字母开始,如果是从开头匹配,就与search()没有太多的区别了 (2) print(
(2)$ 匹配字符串的末尾
import re string = "15111252598" #^匹配字符串的开头,现在我们使用search()来匹配以数字开始的 m = re.match("^[0-9]{11}$",string) print(
(3)点(·) 匹配任意字符,除了换行符。当re.DoTALL标记被指定时,则可以匹配包括换行符的任意字符
import re string = "1511\n1252598" #点(·)是匹配除了换行符以外所有的字符 m = re.match(".",string) #点(·)是匹配任意字符,没有指定个数就匹配单个 (1) print( n = re.match(".+",string) #.+是匹配多个任意字符,除了换行符 (2) print(
(4)[...] 如[abc]匹配"a","b"或"c"
import re string = "1511\n125dadfadf2598" #[]匹配包含括号中的字符 m = re.findall("[5fd]",string) #匹配字符串中的5,f,d print(m)
['5', '5', 'd', 'd', 'f', 'd', 'f', '5']
(5)[^...] [^abc]匹配除了abc之外的任意字符
import re string = "1511\n125dadfadf2598" #[^]匹配包含括号中的字符 m = re.findall("[^5fd]",string) #匹配字符串除5,f,d之外的字符 print(m)
['1', '1', '1', '\n', '1', '2', 'a', 'a', '2', '9', '8']
(6)* 匹配0个或多个的表达式
import re string = "1511\n125dadfadf2598" #*是匹配0个或多个的表达式 m = re.findall("\d*",string) #匹配0个或多个数字 print(m)
['1511', '', '125', '', '', '', '', '', '', '', '2598', '']
(7)+ 匹配1个或多个的表达式
import re string = "1511\n125dadfadf2598" #(+)是匹配1个或多个的表达式 m = re.findall("\d+",string) #匹配1个或多个数字 print(m)
['1511', '125', '2598']
(8)? 匹配0个或1个的表达式,非贪婪方式
import re string = "1511\n125dadfadf2598" #(?)是匹配0个或1个的表达式 m = re.findall("\d?",string) #匹配0个或1个的表达式 print(m)
['1', '5', '1', '1', '', '1', '2', '5', '', '', '', '', '', '', '', '2', '5', '9', '8', '']
(9){n} 匹配n次,定义一个字符串匹配的次数
(10){n,m} 匹配n到m次表达式
(11)\w 匹配字母数字
import re string = "1511\n125dadfadf2598" #(?)是匹配0个或1个的表达式 m = re.findall("\w",string) #匹配0个或1个的表达式 print(m)
['1', '5', '1', '1', '1', '2', '5', 'd', 'a', 'd', 'f', 'a', 'd', 'f', '2', '5', '9', '8']
(12)\W \W大写的W是用来匹配非字母和数字的,与小写w正好相反
import re string = "1511\n125dadfadf2598" #\W用来匹配字符串中的非字母和数字 m = re.findall("\W",string) #\W用来匹配字符串中的非字母和数字 print(m)
(13)\s 匹配任意空白字符,等价于[\n\t\f]
import re string = "1511\n125d\ta\rdf\fadf2598" #\s是用来匹配字符串中的任意空白字符,等价于[\n\t\r\f] m = re.findall("\s",string) #\s用来匹配字符串中任意空白字符 print(m)
['\n', '\t', '\r', '\x0c']
(14)\S 匹配任意非空字符
import re string = "1511\n125d\ta\rdf\fadf2598" #\S是用来匹配任意非空字符 m = re.findall("\S",string) #\S用来匹配日任意非空字符 print(m)
['1', '5', '1', '1', '1', '2', '5', 'd', 'a', 'd', 'f', 'a', 'd', 'f', '2', '5', '9', '8']
위 코드에서 볼 수 있듯이 S는 비어 있지 않은 문자를 일치시키는 데 사용됩니다. 결과적으로 우리는 비어 있지 않은 문자를 일치시킵니다.
(15) d [0-9]에 해당하는 모든 숫자와 일치
(16) D 숫자가 아닌 모든 것과 일치
요약: findall() 및 분할()은 목록을 생성합니다. 하나는 특정을 기반으로 합니다. 에서 모든 값을 찾는 데 사용되는 구분 기호입니다. 정반대입니다.
위 내용은 정규식 지식(정리)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!