詳解C#正則表達式語法的相關規(guī)則
正則表達式通常包含字母文本(Literaltext)和元字符(metacharacter)
字母文本指的是普通文本如"abcde"可匹配字符串中任何包含"abcde"的字符串。
元字符則更加靈活運用通用的表達式匹配所有符合此表達式規(guī)律的字符串。
C#正則表達式語法一、匹配單個字符
[]——從中選擇一個字符匹配
中間支持的類型:單詞字符([ae])、非單詞字符([!?,;@#$*])、字母范圍([A-Z])、數字范圍([0])
eg.正則表達式可匹配字符串
[ae]ffectaffect,effect
(此例中"[ae]"為元字符,"ffect"為字母文本)
注意:1.要在字符類中匹配連字符,那么把連字符號作為***個字符列出即可。
2.可以在單個正則表達式中包含多個字符類。
eg.[01][0-9]:[0-5][0-9][ap]m可以用來匹配如12:59pm格式的所有時間
^——排除某些字符(在[]中表此意,還可表示字符串的開頭)
eg.正則表達式可匹配字符串不可匹配字符串
m[^a]tmet,mit,m&t……mat
C#正則表達式語法二、匹配特殊字符
可以使用的特殊字符:
\t——匹配制表符
\r——匹配硬回車符
\f——匹配換頁符
\n——匹配換行符
描述表示字符類的元字符:
.——匹配任何除了\n以外的字符(或者在單行模式中的任何字符)
\w——匹配任何單詞字符(任何字母或數字)
\W——匹配任何非單詞字符(除了字母和數字以外的任何字符)
\s——匹配任何空白字符(包括空格、換行、制表符等)
\S——匹配任何非空白字符(除了空格、換行、制表符等的任何字符)
\d——匹配任何數字字符(0~9的數字)
\D——匹配任何非數字字符(除了0~9以外的任何字符)
表示字符串中字符位置:
^——匹配字符串的開頭(或者多行模式下行的開頭)。
$——匹配字符串的結尾,或者是字符串結尾“\n”之前的***一個字符,或者是多行模式中的行結尾。
\A——匹配字符串的開頭(忽略多行模式)
\Z——匹配字符串的結尾或字符串結尾“\n”之前的***一個字符(忽略多行模式)。
\z——匹配字符串的結尾。
\G——匹配當前搜索開始的位置。
\b——匹配單詞的邊界。
\B——匹配單詞的非邊界。
注意:
1.句點字符(.)特別有用??梢杂盟鼇肀硎救魏我粋€字符。
eg.正則表達式可匹配字符串
01.17.8401/17/84,01-17-84,011784,01.17.84
2.可以使用\b匹配單詞的邊界
eg.正則表達式可匹配字符串不可匹配字符串
\blet\bletletter,hamlet
3.\A和\z在確保字符串所包含的是某個表達式,而不是其他內容時很用。
eg.要判斷Text控件是否包含單詞"sophia",而不含任何額外的字符、換行符或者空白。
\Asophia\z
4.句點字符(.)具有特殊的含義,若要表示字母字符本身的含義,在前面加一個反斜杠:\.
C#正則表達式語法三、匹配而選一的字符序列
|——匹配二選一
eg.正則表達式可匹配字符串
col(o|ou)rcolor,colour
注意:\b(bill|ted)和\bbill|ted是不同的。
后者還可以匹配"malted"因為\b元字符只應用于"bill"。
C#正則表達式語法四、用量詞匹配
*——匹配0次或多次
+——匹配1次或多次
?——匹配0次或1次
{n}——恰好匹配n次
{n,}——至少匹配n次
{n,m}——至少匹配n次,但不多于m次
eg.正則表達式可匹配字符串
brothers?brother,brothers
eg.正則表達式可匹配字符串
\bp\d{3,5}\b以p開頭,且后跟3~5個數字結尾
注意:也可以把量詞與()一起使用,以便把該量詞應用到整個字母序列。
eg.正則表達式可匹配字符串
(The)?schoolisbeautiful.schoolisbeautiful,Theschoolisbeautiful.
C#正則表達式語法五、識別正則表達式和貪婪
有些量詞是貪婪的(greedy).他們會盡可能多的匹配字符。
如量詞*匹配0個或多個字符。假設要匹配字符串中任何HTML標簽。你可能會用如下正則表達式:
<.*>
現有字符串A<i>quantifier</i>canbe<big>greedy</big>
結果<.*>把<i>quantifier</i>canbe<big>greedy</big>都匹配上了。
要解決該問題,需要與量詞一起使用一個特殊的非貪婪字符“?”,因此表達式變化如下:
<.*?>
這樣就可以正確匹配<i>、</i>、<big>、</big>。
?能強制量詞盡可能少地匹配字符,?還可以用在以下幾個量詞中:
*?——非貪婪的量詞*
+?——非貪婪的量詞+
??——非貪婪的量詞?
{n}?——非貪婪的量詞{n}
{n,}?——非貪婪的量詞{n,}
{n,m}?——非貪婪的量詞{n,m}
六、捕獲和反向引用
捕獲組(capturegroup)就像是正則表達式中的變量。捕獲組可以捕獲正則表達式中的字符模式,并且由正則表達式后面的編號或名稱來引用改模式。
()——用來捕獲其中的字符串
\數字——用編號來引用
eg.
正則表達式可匹配字符串
(\w)(\w)\2\1abba
注意:1.反向引用用來匹配html標簽非常有效如<(\w+)></\1>可以匹配<table></table>等類似格式的標簽。
2.默認情況下,只要使用圓括號,就會捕獲圓括號內所包含的字符,可以使用n選項來禁用這個默認行為(在第7條里會詳細介紹),或者添加?:到圓括號中。eg.(?:sophia)或(?n:sophia)此時不會捕獲sophia。
(?<捕獲組名稱>)\k<捕獲組名稱>——用名稱來引用
eg.
正則表達式可匹配字符串
(?<sophia>\w)abc\k<sophia>xabcx
注意:在替換模式中使用捕獲組的格式略有不同,要用$1、$2等來按數值引用捕獲,用${sophia}等名稱來按名稱引用捕獲組
七、設置正則表達式的選項
eg.
stringstr="<h4>sophia</h4>"
RegExobjRegEx=newRegEx("<h(d)>(.*?)</h1>");
Response.Write(objRegEx.Replace(str,"<fontsize=$1>$2</font>"));
i——所執(zhí)行的匹配是不區(qū)分大小寫的(.net中的屬性為IgnoreCase)
m——指定多行模式(.net中的屬性為Multiline)
n——只捕獲顯示命名或編號的組(.net中的屬性為ExplicitCapture)
c——編譯正則表達式,這樣會產生較快的執(zhí)行速度,但啟動會變慢(.net中的屬性為Compiled)
s——指定單行模式(.net中的屬性為SingleLine)
x——消除非轉義空白字符和注釋(.net中的屬性為IgnorePatternWhitespace)
r——搜索從右到左進行(.net中的屬性為RightToLeft)
-——表示禁用。
eg.(?im-r:sophia)允許不區(qū)分大小寫匹配sophia,使用多行模式,但禁用了從右到左的匹配。
注意:1.m會影響如何解析起始元字符(^)和結束元字符($)。在默認情況^和$只匹配整個字符串的開頭,即使字符串包含多行文本。如果啟用了m,那么它們就可以匹配每行文本的開頭和結尾。
2.s會影響如何解析句點元字符(.)。通常一個句點能匹配除了換行符以外的所有字符。但在單行模式下,句點也能匹配一個換行符。