學(xué)習(xí)筆記 全面認(rèn)識Perl正則表達(dá)式
本文和大家重點(diǎn)討論一下Perl正則表達(dá)式,確切地說是Dosshell和Unixshell使用的Perl正則表達(dá)式符號,Perl的Perl正則表達(dá)式規(guī)則與這兩些shell的都有所不同,但Perl的Perl正則表達(dá)式影響最大,幾乎成了業(yè)界標(biāo)準(zhǔn)。
Perl正則表達(dá)式(RegularExpression,regex)
如果要問我Perl語言的優(yōu)點(diǎn),我會(huì)說有三個(gè)半。前三個(gè)是Perl正則表達(dá)式、哈希、引用,那半個(gè)是Map,因?yàn)檫€不大會(huì)用,不太說得出它的秒處,所以算半個(gè)。其實(shí)哈希、引用、Map都算是數(shù)據(jù)結(jié)構(gòu)的范疇;Perl正則表達(dá)式和它們差異比較大。人類的思維里有很多Perl正則表達(dá)式的痕跡,甚至用這種方式訓(xùn)練下一代。比如一位完全文科思維的幼兒園教師,也會(huì)教育她的學(xué)生從一桶積木里找出一個(gè)紅的方塊來。"紅而且方的積木",這就是一個(gè)自然語言的Perl正則表達(dá)式。Perl正則表達(dá)式也經(jīng)常被稱為模式,用來描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串。
一定有人還記得在dos和Unix下面的這些命令:
$ls-limg1?.jpg
C:>dir*.exe
這里的星號通配符和問號通配符就是Perl正則表達(dá)式符號,確切地說是Dosshell和Unixshell使用的Perl正則表達(dá)式符號。Perl的Perl正則表達(dá)式規(guī)則與這兩些shell的都有所不同,但Perl的Perl正則表達(dá)式影響最大,幾乎成了業(yè)界標(biāo)準(zhǔn),以至于近年來新建的一些計(jì)算機(jī)語言都要申明自己實(shí)現(xiàn)了Pcre(Perl兼容的Perl正則表達(dá)式),要不然都不好意思出來混江湖(微軟除外)。
Perl正則表達(dá)式的使用很簡單(其實(shí)實(shí)現(xiàn)起來很難),跟我來:
1.Perl正則表達(dá)式相關(guān)的操作符
先不說Perl正則表達(dá)式本身,下面我們的Perl正則表達(dá)式就用"apple".先定義一個(gè)字符串
my$szProductType="applecider";
現(xiàn)在要檢驗(yàn)它里面有沒有字符串"apple"。
if($szProductType=~/apple/){
print$szProductType."\n";
}
上面的=~要看做一個(gè)符號,是Perl的Perl正則表達(dá)式匹配操作符。這個(gè)符號匹配成功返回1,否則返回0。后面的兩個(gè)/之間包括的就是Perl正則表達(dá)式,這是就是apple。Perl正則表達(dá)式也可以不用/符號而改用其它符號包括,鑒于海馬一向厭惡這種標(biāo)新立異做無用功的行為,就不說怎么操作了,偏執(zhí)到不喜歡/符號的人請自己去查Perl手冊吧。如果要求匹配一個(gè)字符串里面沒有"apple"怎么辦?當(dāng)然可以這樣(花括號里該寫什么自己寫吧,我省略啦)
unless($szProductType=~/apple/){}
還可以這樣
if(!($szProductType=~/apple/)){}
但是,為了表示你很懂Perl,你應(yīng)該這樣,這也是我最喜歡的方式(畫外音:這和前面那個(gè)被批判的標(biāo)新立異有啥區(qū)別,嗯?),使用不匹配操作符號!~。
if($szProductType!~/apple/)){}
最后,為了避免被人看穿自己很不懂Perl,看到下面的表達(dá)式的時(shí)候千萬不要露怯
if($szProductType!~m/apple/)){}
這個(gè)m是干什么的?答案是,這個(gè)地方有m沒m一樣的,都是表示匹配(match)。請直接無視之。對于匹配操作符也是一樣的情況。#p#
2.Perl正則表達(dá)式語法
所謂Perl正則表達(dá)式,就是一串特別設(shè)計(jì)過的字符串,可以按照你的意圖用匹配操作尋找你要求的目標(biāo)。我這里不是Perl手冊,也不是教科書,所以我從例子開始,具體的完整說明還請查手冊。
2.1轉(zhuǎn)義符號\
前面說過缺省情況下Perl正則表達(dá)式要用/包起來,那么現(xiàn)在要尋找一個(gè)字符串里面有沒有/怎么辦?不是有歧義了么那個(gè)表達(dá)式。換你設(shè)計(jì)Perl語言該咋辦?玩過C語言的人看到這里一定在嘿嘿笑,因?yàn)樵贑里面簡單,要寫/必須寫成\/,要寫\必須寫成\\。說Perl在語法上是C的表弟是很不錯(cuò)的,Perl規(guī)定的轉(zhuǎn)義符號也是\.常用的特殊符號有回車\n,跳格\t,斜杠\\和\/,引號\'和\",方括號\[和\],圓括號\(和\),美元號\$,上尖號\^,星號\*,點(diǎn)號\.,問號\?,加號\+。我都是隨手寫的,建議拿不定主意的話,非52個(gè)字母的符號都去查查手冊吧。舉例:查一個(gè)字符串里有沒有美元號
my$szValue='$6580.90';
$szValue=~/\$/;
2.2或操作
Perl的Perl正則表達(dá)式缺省是區(qū)別大小寫的。什么,前面早該告訴你?真可憐,又一個(gè)從Windows世界來的小孩,就和我想當(dāng)然以為在美國商店應(yīng)該在復(fù)活節(jié)大做生意創(chuàng)造GDP一樣,可是人家不開門。為了串即匹配"Apple"又匹配"apple",你可以這樣:
$szProductType=~/[Aa]pple/;
在方括號里的字母是"或"的關(guān)系,擊中其中一個(gè)就可以了。在一個(gè)Perl正則表達(dá)式中可以用任意多個(gè)方括號,但是不要嵌套。常常能見到的一種表達(dá)式
[0-9]
表示0到9這十個(gè)字母,也可以用\d來代替。\D則表示非數(shù)字字符。
[a-zA-Z]
表示52個(gè)字母。
順便在這里把反義也講了吧,[^0-9]代表非數(shù)字的其它字符,[^a]代表非a的其它字符。^在這里是反義的意思,但是請注意^還能做頭錨用,后面會(huì)講到。
2.3尾綴
有人搖頭不喜歡上面的解決方案――我要求真正匹配一個(gè)不區(qū)分大小寫的"Apple"應(yīng)該怎么辦?請這樣
$szProductType=~/apple/i;
放在第二個(gè)/符號后面的尾綴i取消了一切大小寫檢查。
另外再說兩個(gè)有用的尾綴吧,第一個(gè)是g(全局匹配),如果有字符串
my$string="Applejuice,appleCider,applejeans,applepie,appleplate,apPLebag,…";
而用表達(dá)式$string=~/apple/i;只會(huì)遇到第一個(gè)apple就結(jié)束。現(xiàn)在我們可以用尾綴g配合while循環(huán)
while($string=~/(apple.*?),/ig){
print"$1\n";
}
就可以找出所有帶apple的詞匯。注意尾綴是可以疊加使用的。上面Perl正則表達(dá)式中的圓括號、點(diǎn)號和問號和$1,下面馬上會(huì)講到。
另一個(gè)有用的的尾綴是s。s會(huì)強(qiáng)迫點(diǎn)號(.)匹配換行符號(\n),這對于多行匹配是必須的。不要小看這個(gè)技巧,我花了幾個(gè)小時(shí)才找到的哦。
2.4捕獲匹配的字符串
my$szValue='$1999.99';
if($szValue=~/\$([0-9]+)\.([0-9]+)/){
print"$1dollors$2cents\n";
}
上面表達(dá)式里的加號表示匹配一到多個(gè)前面的符號,在這里符號是數(shù)字。用圓括號括住的內(nèi)容,將會(huì)依次(從左到右)出現(xiàn)在$1,$2,$3……里面。另外,順便說,整個(gè)Perl正則表達(dá)式匹配的結(jié)果是放在$&里面,上面這個(gè)表達(dá)式演算下來$&的值還是"$1999.99"。
另外,還有\(zhòng)1,\2形式的反向引用,使得表達(dá)式里面可以用捕獲的字符串。舉例:表達(dá)式"(\w)\1{4,}"在匹配"aabbbbabcdefgccccc111121111999999999"時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是"ccccc"。再次匹配下一個(gè)時(shí),將得到999999999(要用while和/g來配合)。
2.5任意符號.,和次數(shù)符號*以及+
Perl正則表達(dá)式里點(diǎn)號是通配任意字母的,例如
$string=~/w.*/i;
就匹配$string里從第一個(gè)w字母開始一直到字符串結(jié)束。*表示匹配任意字母0到任意多次。*號也常被換成+號,表示匹配1到任意多次。如果即沒有*也沒有+,那么就是匹配1次。如果要自己定義匹配的次數(shù)或者次數(shù)上下限怎么辦?用{}符號:
$string=~/\d{5,15}/;
上面的式子匹配5到15位數(shù)字
$string=~/\d{20}/;
上面式子匹配20位數(shù)字。
附帶說兩個(gè)常用的符號,\S和\s。前者是"非空白",后者是"空白",具體來說包括回車、空格、跳格、響鈴。
2.6貪婪的+和*,止貪劑?
Perl的Perl正則表達(dá)式是貪婪的(確切地說,次數(shù)符號+和*是貪婪的),可以幫助你做一些事情。
my$string='$290098';
$string=~/\$(\d+)/;
由于+號的貪婪性,$1會(huì)得到值"290098",而不是遇到第一個(gè)數(shù)字2就完成匹配。
但有的時(shí)候你會(huì)不希望他貪婪,希望見好就收。還是我前面用過的一個(gè)例子
my$string="Applejuice,appleCider,applejeans,applepie,appleplate,apPLebag,…";
如果用$string=~/(apple.*),/i;
由于*的貪婪性,它會(huì)一直匹配到最后一個(gè)逗號才停下來,這不是我們想要的結(jié)果。解決辦法是用止貪符號?緊跟在*或者+后面。
$string=~/(apple.*?),/i;
問號會(huì)約束*遇到第一個(gè)逗號就停下來。
2.6頭錨^和尾錨$
有時(shí)候你希望從一個(gè)字符串的開始或者結(jié)尾匹配
my$string='Aquickbrownfoxjumpsoveralazysnake';
$string=~/^A/;#匹配第一個(gè)字母是否為A
$string=~/snake$/;#匹配最后幾個(gè)字母是否為snake
還有一個(gè)\b,匹配的是單詞邊界,意思是空白或者開頭或者結(jié)尾。#p#
3.其它相關(guān)函數(shù)及注意事項(xiàng)
3.1替換功能和quotemeta
有時(shí)候你不僅希望找到你想要那些字符串,還想替換掉它們。還記得前面說的匹配符后面的m符號么?現(xiàn)在是使用另一個(gè),s符號(替換,subplace)的時(shí)候了。
$string=~s/apple/apple/i;
上面表達(dá)式將$string里所有不用形式的apple統(tǒng)一成全小寫的apple.這里面可以用變量:
$string=~s/$string1/$string2/i;
$string里所有匹配$string1的地方都會(huì)被替換成$string2。但是,要注意,除非你能確保$string1里面不含任何特殊符號(+-*^$.()[]等)或者你需要的就是那些符號,最好在調(diào)用上面式子之前處理一下$string1
$string1=quotemeta($string1);
quotemeta()的作用是給字符串里的特殊符號加上合適的轉(zhuǎn)義符號。注意,不需要給$string2做這個(gè)處理。
3.2不要在while里改變字符串
還記得2.3里面的while循環(huán)么?警告:不要在while循環(huán)里改變$string的值,否則可能會(huì)陷入無限循環(huán)。如果你真得這樣做,把$string復(fù)制一次,一個(gè)鏡像用來循環(huán),一個(gè)用來做替換。
3.3study及提高性能
有很多人想了很多種辦法來提高PerlPerl正則表達(dá)式的性能,我一概記不住。如果你要處理的字符串很龐大。。。記得在對它使用Perl正則表達(dá)式之前用官方方法對它study一下:
study($string);
據(jù)說這樣可以提高一點(diǎn)性能。其實(shí)如果要性能,還是建議用Java,Java也有Perl正則表達(dá)式;或者對性能有更高要求的話,建議用C/C++。標(biāo)準(zhǔn)的C和C++都不支持Perl正則表達(dá)式,但有一些函數(shù)庫可以輔助C/C++程序員完成這一功能,其中最著名的當(dāng)數(shù)PhilipHazel的Perl-CompatibleRegularExpression庫,許多Linux發(fā)行版本都帶有這個(gè)函數(shù)庫。使用方法看這里
http://www.chinaunix.net/jh/23/303346.html
在Windows上面,VC.NET(VC7)框架里是有Perl正則表達(dá)式了。警告:微軟的老大們并沒有實(shí)現(xiàn)Perl兼容。例如,在Perl中,{,1}是{0,1}的簡寫,但.NET并不支持。具體看這里
http://msdn2.microsoft.com/en-us/library/xbyh1eyc.aspx
【編輯推薦】
- 淺析Perl正則表達(dá)式在PHP的實(shí)現(xiàn)
- Perl基礎(chǔ) Perl復(fù)雜數(shù)據(jù)結(jié)構(gòu)
- Perl學(xué)習(xí)筆記 Perl雙引號和單引號的區(qū)別
- 揭秘Perl變量中Perl純變量用法
- 解析Perl面向?qū)ο缶幊痰膬煞N實(shí)現(xiàn)方式


















