Heim >Backend-Entwicklung >C#.Net-Tutorial >Detaillierte Erläuterung der Metazeichen regulärer C#-Ausdrücke
In diesem Artikel werden die Metazeichen von regulären C#-Ausdrücken organisiert. Jedes Zeichen stellt eine Regel dar: normale Zeichen und Metazeichen. Gewöhnliche Zeichen beziehen sich auf Zeichen, deren wörtliche Bedeutung unverändert bleibt und die exakt mit dem Text übereinstimmen, während Metazeichen eine besondere Bedeutung haben und einen Zeichentyp darstellen.
Betrachten Sie Text als einen Zeichenstrom, wobei jedes Zeichen an einer Position platziert wird. Im regulären Ausdruck „Roomddd“ sind beispielsweise die ersten vier Zeichen Room gewöhnliche Zeichen . Das folgende Zeichen ist ein Escape-Zeichen und bildet mit dem folgenden Zeichen d ein Metazeichen d, das angibt, dass sich an dieser Position eine Zahl befindet.
in der Sprache der regulären Ausdrücke beschrieben ist: Der reguläre Ausdruck „Roomddd“ erfasst insgesamt 7 Zeichen, was bedeutet „beginnend mit Room, endend mit Eine Art Zeichenfolge, die mit drei Ziffern endet. Wir nennen diese Art von Zeichenfolge ein Muster (Muster), auch reguläres Muster genannt.
1. Escape-Zeichen
Escape-Zeichen werden verwendet, um gewöhnliche Zeichen in Metazeichen mit besonderer Bedeutung zu maskieren:
2.t: Horizontaler Tabulator
v: Vertikaler Tabulator
r: Wagenrücklauf
n: Zeilenvorschub
\: stellt ein Zeichen dar, d. h Beispielsweise wird das Escape-Zeichen in ein gewöhnliches Zeichen maskiert
": stellt ein Zeichen dar". >
Zeichenklasse Bei der Durchführung eines regulären Abgleichs wird der Eingabetext als sequentielle Zeichen betrachtet. Stream, Zeichenklasse-Metazeichen entsprechen Zeichen und erfassen Zeichen . Die sogenannten erfassten Zeichen bedeuten, dass von einem Metazeichen erfasste Zeichen nicht mit anderen Metazeichen abgeglichen werden und nachfolgende Metazeichen nur aus dem verbleibenden Text extrahiert werden können.
Häufig verwendete Zeichenklassen-Metazeichen:
[ char_group]: Übereinstimmung mit jedem Zeichen in der Zeichengruppe3. Locator[^char_group]: Übereinstimmung mit Ausnahme aller Zeichen außerhalb der Zeichengruppe
[first-last]: Übereinstimmungen jedes Zeichen im Zeichenbereich vom ersten bis zum letzten, der Zeichenbereich umfasst das erste und das letzte: Platzhalter, entspricht jedem Zeichen außer n
w: entspricht jedem Wortzeichen, Wortzeichen beziehen sich normalerweise auf A-Z, a-z und 0-9
W: passt zu einem beliebigen Nicht-Wort-Zeichen bezieht sich auf andere Zeichen als A-Z, a-z und 0-9
s: passt zu einem beliebigen Leerzeichen
S: Entspricht jedem Nicht-Leerzeichen
d: Entspricht jedem numerischen Zeichen
D: Entspricht jedem nicht-numerischen Zeichen
Beachten Sie, dass Escape-Zeichen ebenfalls zur Zeichenklasse gehören Beim regulären Abgleich werden auch Zeichen erfasst.
Das vom Locator abgeglichene (oder erfasste) Objekt wird bestimmt ob der Mustervergleich erfolgreich ist, basierend auf der Position des Zeichens. Der Locator erfasst keine Zeichen und hat eine Breite von Null (Breite ist 0). ^: Standardmäßig. es stimmt mit dem Anfang der Zeichenfolge überein; im Mehrzeilenmodus entspricht es der Anfangsposition jeder Zeile. $: Übereinstimmung mit der Endposition der Zeichenfolge oder der Position vor n vor dem Ende von die Zeichenfolge; entspricht im Mehrzeilenmodus der Position vor dem Ende jeder Zeile oder der Position vor n am Ende jeder Zeile.
A: entspricht der Startposition der Zeichenfolge
Z: entspricht der Endposition der Zeichenfolge oder der Position vor n am Ende der Zeichenfolge ;?: erscheint 0 oder 1 Malz: entspricht der Endposition der Zeichenfolge; entspricht der Endposition des vorherigen Treffers;
b: entspricht der Anfangs- oder Endposition eines Wortes; 🎜>
4. Quantifizierer, Gier und Faulheit
Quantifizierer beziehen sich auf die Begrenzung der Häufigkeit des vorherigen regulären Musters. Quantifizierer sind in zwei Modi unterteilt : Greedy-Modus und Lazy-Modus beziehen sich auf die Zuordnung möglichst vieler Zeichen, während sich der Lazy-Modus auf die Zuordnung möglichst weniger Zeichen bezieht. Standardmäßig befinden sich Quantoren im Greedy-Modus. Fügen Sie nach dem Quantor ? hinzu, um den Lazy-Modus zu aktivieren.*: erscheint 0 oder mehr Mal
+: erscheint 1 oder mehr Mal
{n }: Erscheint n-mal
{n,}: Erscheint mindestens n-mal {n,m}: Erscheint n- bis m-mal
Hinweis: Erscheint Mehrfach bedeutet, dass das vorherige Metazeichen mehrmals vorkommt. Beispielsweise entspricht d{2} dd, es erscheinen nur zwei Zahlen und die beiden Zahlen müssen nicht identisch sein. Um die gleichen zwei Zahlen darzustellen, muss eine Gruppierung verwendet werden.5. Zeichen gruppieren und erfassen
() 括号不仅确定表达式的范围,还创建分组,()内的表达式就是一个分组,引用分组表示两个分组匹配的文本是完全相同的。定义一个分组的基本语法:
(pattern)该类型的分组会捕获字符,所谓捕获字符是指:一个元字符捕获的字符,不会被其他元字符匹配,后续的元字符只能从剩下的文本中重新匹配。
1、分组编号和命名
默认情况下,每个分组自动分配一个组号,规则是:从左向右,按分组左括号的出现顺序进行编号,第一个分组的组号为1,第二个为2,以此类推。也可以为分组指定名称,该分组称作命名分组,命名分组也会被自动编号,编号从1开始,逐个加1,为分组指定名称的语法是:
(?< name > pattern)通常来说,分组分为命名分组和编号分组,引用分组的方式有:
通过分组名称来引用分组:\k
通过分组编号来引用分组:\number
注意,分组只能后向引用,也就是说,从正则表达式文本的左边开始,分组必须先定义,然后才能在定义之后面引用。
在正则表达式里引用分组的语法为“\number”,比如“\1”代表与分组1 匹配的子串,“\2”代表与分组2 匹配的字串,以此类推。
例如,对于 ".*?\1>" 可以匹配
valid
,在引用分组时,分组对应的文本是完全相同的。2、分组构造器
分组构造方法如下:
(pattern):捕获匹配的子表达式,并为分组分配一个组号
(? pattern):把匹配的子表达式捕获到命名的分组中
(?:pattern):非捕获的分组,并未分组分配一个组号
(?> pattern):贪婪分组
3、贪婪分组
贪婪分组也称作非回溯分组,该分组禁用了回溯,正则表达式引擎将尽可能多地匹配输入文本中的字符。如果无法进行进一步的匹配,则不会回溯尝试进行其他模式匹配。
(?> pattern )4、二选一
| 的意思是或,匹配两者中的任意一个,注意,|把左右两边的表达式分为两部分。
pattern1 | pattern2
六,零宽断言
零宽是指宽度为0,匹配的是位置,所以匹配的子串不会出现在匹配结果中,而断言是指判断的结果,只有断言为真,才算匹配成功。
对于定位符,可以匹配一句话的开始、结束(^ $)或者匹配一个单词的开始、结束(\b),这些元字符只匹配一个位置,指定这个位置满足一定的条件,而不是匹配某些字符,因此,它们被成为 零宽断言。所谓零宽,指的是它们不与任何字符相匹配,而匹配一个位置;所谓断言,指的是一个判断,正则表达式中只有当断言为真时才会继续进行匹配。零宽断言可以精确的匹配一个位置,而不仅仅是简单的指定句子或者单词。
正则表达式把文本看作从左向右的字符流,向右叫做后向(Look behind),向左叫做前向(Look ahead)。对于正则表达式,只有当匹配到指定的模式(Pattern)时,断言为True,叫做肯定式,把不匹配模式为True,叫做否定式。
按照匹配的方向和匹配的定性,把零宽断言分为四种类型:
(?= pattern):前向、肯定断言
(?! pattern):前向、否定断言
(?
(?
1、前向肯定断言
前向肯定断言定义一个模式必须存在于文本的末尾(或右侧),但是该模式匹配的子串不会出现在匹配的结果中,前向断言通常出现在正则表达式的右侧,表示文本的右侧必须满足特定的模式:
(?= subexpression )使用前向肯定断言可以定一个模糊匹配,后缀必须包含特定的字符:
\b\w+(?=\sis\b)对正则表达式进行分析:
\b:表示单词的边界
\w+:表示单词至少出现一次
(?=\sis\b):前向肯定断言,\s 表示一个空白字符, is 是普通字符,完全匹配,\b 是单词的边界。
从分析中,可以得出,匹配该正则表达式的文本中必须包含 is 单词,is是一个单独的单词,不是某一个单词的一个部分。举个例子
Sunday is a weekend day 匹配该正则,匹配的值是Sunday,而The island has beautiful birds 不匹配该正则。
2、后向肯定断言
后向肯定断言定义一个模式必须存在于文本的开始(或左侧),但是该模式匹配的子串不会出现在匹配的结果中,后向断言通常出现在正则表达式的左侧,表示文本的左侧必须满足特定的模式:
(?<= subexpression )使用后向肯定断言可以定一个模糊匹配,前缀必须包含特定的字符:
(?<=\b20)\d{2}\b对正则表达式进行分析:
(?
\d{2}:表示两个数字,数字不要求相同
\b:单词的边界
该正则表达式匹配的文本具备的模式是:文本以20开头、以两个数字结尾。
七,用正则从格式化的文本中扣值
有如下的JSON格式的文本,从文本中扣出字段(CustomerId、CustomerName、CustomerIdSource和CustomerType)的值:
{"CustomerDetails":"[{\"CustomerId\":\"57512f19\",\"CustomerName\":\"cust xyz\",\"CustomerIdSource\":\"AadTenantId\",\"CustomerType\":\"Enterprise\"}]"}注意,该文本转换为C#中的字符时,需要对双引号和转义字符进行转义。由于这四个字段提取规则相同,可以写一个通用的模式来提取:
public static string GetNestedItem(string txt, string key) { string pat = string.Format("(?<=\\\\\"{0}\\\\\":\\\\\").*?(?=\\\\\")", key); return Regex.Match(txt, pat, RegexOptions.IgnoreCase).Value; }正则表达式得解析:
(?
.*?:懒惰模式,匹配尽可能少的文本
(?=\\\\\"):前向断言,用于匹配字段值得双引号
本文来自 C#.Net教程 栏目,欢迎学习!
Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung der Metazeichen regulärer C#-Ausdrücke. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!