ホームページ  >  記事  >  バックエンド開発  >  Python は正規表現を使用して文字列を抽出します

Python は正規表現を使用して文字列を抽出します

高洛峰
高洛峰オリジナル
2017-03-23 16:36:432654ブラウズ

前書き
正規表現の基本的な知識については説明しません。興味がある場合は、ここをクリックしてください。 1 つは、テキスト内の 1 つの位置の文字列を抽出する場合です。もう 1 つは、複数の位置にある連続した文字列を抽出することです。ログ分析ではこの状況が発生する可能性があり、それに対応する方法については以下で説明します。
1. 単一位置の文字列抽出
この場合、正規表現 (.+?) を使用して抽出できます。 たとえば、文字列「a123b」の場合、ab 間の値 123 を抽出したい場合、正規表現を指定して findall を使用すると、一致するすべての状況を含むリストが返されます。
コードは次のとおりです:

import re
str = "a123b"
print re.findall(r"a(.+?)b",str)#
输出['123']


1.1 貪欲なマッチングと非貪欲なマッチング
文字列「a123b456b」がある場合、a と最後の b の間のすべての値を一致させたい場合、a と最初の出現 b の間の値を使用して、通常の貪欲なマッチングと非貪欲なマッチングを制御できます。
コードは次のとおりです:

import re
str = "a123b456b"
print re.findall(r"a(.+?)b", str)
#输出['123']#?控制只匹配0或1个,所以只会输出和最近的b之间的匹配情况
print re.findall(r"a(.+)b", str)
#输出['123b456']
print re.findall(r"a(.*)b", str)
#输出['123b456']


1.2 複数行のマッチング
複数行のマッチングが必要な場合は、re.S を追加した後、re.S フラグと re.M フラグを追加する必要があります。改行文字と一致しますが、デフォルトでは改行文字と一致しません。
コードは次のとおりです:

str = "a23b\na34b"
re.findall(r"a(\d+)b.+a(\d+)b", str)
#输出[]
#因为不能处理str中间有\n换行的情况
re.findall(r"a(\d+)b.+a(\d+)b", str, re.S)
#s输出[('23', '34')]


re.M を追加すると、^$ 記号は各行に一致します。デフォルトでは、^ と $ は最初の行にのみ一致します。
コードは次のとおりです:

str = "a23b\na34b"
re.findall(r"^a(\d+)b", str)
#输出['23']
re.findall(r"^a(\d+)b", str, re.M)
#输出['23', '34']


2. 複数の連続する位置の文字列抽出
この場合、

(?P<name>…)

正規表現を使用して抽出できます。たとえば、Web サーバーのアクセス ログの行:

'192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search" "Mozilla/5.0"'

があり、ログのこの行のすべてのコンテンツを抽出したい場合、抽出する複数の

(?P<name>expr)

を記述し、名前を変数に変更できます。位置文字列に指定した expr を抽出位置の正規表現に変更できます。
コードは次のとおりです:

import re
line ='192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search" 
"Mozilla/5.0"'
reg = re.compile('^(?P<remote_ip>[^ ]*) (?P<date>[^ ]*) "(?P<request>[^"]*)" 
(?P<status>[^ ]*) (?P<size>[^ ]*) "(?P<referrer>[^"]*)" "(?P<user_agent>[^"]*)"')
regMatch = reg.match(line)
linebits = regMatch.groupdict()
print linebits
for k, v in linebits.items() :
 print k+": "+v


出力結果は次のとおりです:

status: 200
referrer: 
request: GET /api HTTP/1.1
user_agent: Mozilla/5.0
date: 25/Oct/2012:14:46:34size: 44
remote_ip: 192.168.0.1


概要
以上がこの記事の内容の全てです。みんなの勉強や仕事を手伝ってください。質問がある場合は、メッセージを残して連絡してください。

以上がPython は正規表現を使用して文字列を抽出しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。