實(shí)現(xiàn)正則表達(dá)式匹配任意字符解析
我們?nèi)绾螌?shí)現(xiàn)正則表達(dá)式匹配任意字符的效果呢?這個(gè)過(guò)程需要使用什么呢?具體的操作需要注意那些方面呢?那么現(xiàn)在我們就來(lái)揭開(kāi)這神秘的一面:
實(shí)現(xiàn)正則表達(dá)式匹配任意字符的真相:
使用“.”匹配幾乎任意字符。在正則表達(dá)式中,“.”是最常用的符號(hào)之一。不幸的是,它也是最容易被誤用的符號(hào)之一。
“.”匹配一個(gè)單個(gè)的字符而不用關(guān)心被匹配的字符是什么。唯一的例外是新行符。在本教程中談到的引擎,缺省情況下都是不匹配新行符的。因此在缺省情況下,“.”等于是字符集[^\n\r](Window)或[^\n]( Unix)的簡(jiǎn)寫(xiě)。
這個(gè)例外是因?yàn)闅v史的原因。因?yàn)樵缙谑褂谜齽t表達(dá)式的工具是基于行的。它們都是一行一行的讀入一個(gè)文件,將正則表達(dá)式分別應(yīng)用到每一行上去。在這些工具中,字符串是不包含新行符的。因此“.”也就從不匹配新行符。
現(xiàn)代的工具和語(yǔ)言能夠?qū)⒄齽t表達(dá)式應(yīng)用到很大的字符串甚至整個(gè)文件上去。本教程討論的所有正則表達(dá)式實(shí)現(xiàn)都提供一個(gè)選項(xiàng),可以使“.”匹配所有的字符,包括新行符。在RegexBuddy, EditPad Pro或PowerGREP等工具中,你可以簡(jiǎn)單的選中“點(diǎn)號(hào)匹配新行符”。在Perl中,“.”可以匹配新行符的模式被稱(chēng)作“單行模式”。很不幸,這是一個(gè)很容易混淆的名詞。因?yàn)檫€有所謂“多行模式”。多行模式只影響行首行尾的錨定(anchor),而單行模式只影響“.”。
其他語(yǔ)言和正則表達(dá)式庫(kù)也采用了Perl的術(shù)語(yǔ)定義。當(dāng)在.NET Framework中使用正則表達(dá)式類(lèi)時(shí),你可以用類(lèi)似下面的語(yǔ)句來(lái)激活單行模式:Regex.Match(“string”,”regex”,RegexOptions.SingleLine)
實(shí)現(xiàn)正則表達(dá)式匹配任意字符的一點(diǎn)總結(jié):
◆保守的使用點(diǎn)號(hào)“.”
點(diǎn)號(hào)可以說(shuō)是最強(qiáng)大的元字符。它允許你偷懶:用一個(gè)點(diǎn)號(hào),就能匹配幾乎所有的字符。但是問(wèn)題在于,它也常常會(huì)匹配不該匹配的字符。
我會(huì)以一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明。讓我們看看如何匹配一個(gè)具有“mm/dd/yy”格式的日期,但是我們想允許用戶來(lái)選擇分隔符。很快能想到的一個(gè)方案是<<\d\d.\d\d.\d\d>>??瓷先ニ芷ヅ淙掌凇?2/12/03”。問(wèn)題在于02512703也會(huì)被認(rèn)為是一個(gè)有效的日期。
<<\d\d[-/.]\d\d[-/.]\d\d>>看上去是一個(gè)好一點(diǎn)的解決方案。記住點(diǎn)號(hào)在一個(gè)字符集里不是元字符。這個(gè)方案遠(yuǎn)不夠完善,它會(huì)匹配“99/99/99”。而<<[0-1]\d[-/.][0-3]\d[-/.]\d\d>>又更進(jìn)一步。盡管他也會(huì)匹配“19/39/99”。你想要你的正則表達(dá)式達(dá)到如何完美的程度取決于你想達(dá)到什么樣的目的。如果你想校驗(yàn)用戶輸入,則需要盡可能的完美。如果你只是想分析一個(gè)已知的源,并且我們知道沒(méi)有錯(cuò)誤的數(shù)據(jù),用一個(gè)比較好的正則表達(dá)式來(lái)匹配你想要搜尋的字符就已經(jīng)足夠。
實(shí)現(xiàn)正則表達(dá)式匹配任意字符的相關(guān)內(nèi)容就向你介紹到這里,希望對(duì)你了解和學(xué)習(xí)實(shí)現(xiàn)正則表達(dá)式匹配任意字符有所幫助。
【編輯推薦】