詳解.NET字符串解析的具體過(guò)程
.NET字符串解析,在平常的開(kāi)發(fā)工作中很長(zhǎng)見(jiàn),但是不一定大家都能完成好。希望通過(guò)本文,能使大家對(duì).NET字符串解析有一個(gè)深刻的理解。
.NET字符串解析是程序員工作中非常重要的一部分,也是非??简?yàn)編程能力的工作。基本上我在面試程序員的時(shí)候,一定會(huì)出一道編程題目作為考察的一方面,而這道題目有很大的可能性是做字符串的解析。例如,給出一個(gè)模式規(guī)則,要求寫(xiě)程序判斷某個(gè)字符串是否符合特定格式。例如,要求將BB Code轉(zhuǎn)化為HTML。而現(xiàn)在這個(gè)趣味編程題,來(lái)自于我目前正在進(jìn)行的項(xiàng)目。因此從實(shí)用角度來(lái)說(shuō),也有一定現(xiàn)實(shí)意義。
這個(gè)標(biāo)題基本上沒(méi)有包含多少信息,不過(guò)我也實(shí)在不知道該如何描述這個(gè)問(wèn)題。這個(gè)任務(wù)是要從一個(gè)字符串中提取一些信息,于是我們先來(lái)定義概念:
首先是“token”,token是最小的信息單元,我們可以把它當(dāng)作是一個(gè)字符串來(lái)處理。而多個(gè)token則組成了一個(gè)token group,token group之間的各token使用“-”進(jìn)行分割。例如,以下便定義一個(gè)了token group:
- jeffz-hello-world
一個(gè)token group可以用一個(gè)字符串?dāng)?shù)組或列表來(lái)表示,例如上面的字符串則表示一個(gè)包含三個(gè)token的token group,分別是jeffz,hello和world。多個(gè)token group則可以組成一整個(gè)字符串信息,我們把它稱(chēng)為text。一個(gè)text中的各個(gè)token group使用“--”進(jìn)行分割,例如:
group1-hello--group2-world一個(gè)text可以認(rèn)為是token group的數(shù)組或列表。因此,最終從一個(gè)text中提取到的信息,則可以用一個(gè)字符串?dāng)?shù)組的列表來(lái)表示。例如,以上的text的信息其實(shí)就類(lèi)似于:
- new List<string[]> { new string[] { "group1", "hello" }, new string[] { "group2", "world" } }
不過(guò)您想到這樣一個(gè)問(wèn)題:“-”是作為分割符使用的,但如果一個(gè)token中本身需要包含“-”又該如何呢?于是,我們又引入了單引號(hào),被一組單引號(hào)包裹的token,其中所有的“-”被當(dāng)作是普通的字符處理,不作為分隔符。例如:
jeffz-'hello-world'這樣一個(gè)字符串所表示的text,它包含一個(gè)token group,其中有兩個(gè)token:
- new List<string[]> { new string[] { "jeffz", "hello-world" } }
但是,既然單引號(hào)也有特殊含義了,那么一個(gè)token中又如何表示一個(gè)單引號(hào)呢?于是乎,我們?cè)俣x一個(gè)規(guī)則,如果一個(gè)token中需要包含單引號(hào)的話,我們需要使用單引號(hào)來(lái)包含這個(gè)token,并且token中的單引號(hào)變成兩個(gè)單引號(hào)。例如:
jeffz-'hello''''world'它所表示的數(shù)據(jù)即為:
- new List<string[]> { new string[] { "jeffz", "hello''world" } }
text中包含四個(gè)單引號(hào),但是表示的數(shù)據(jù)中只有兩個(gè)單引號(hào),這就是我們的“轉(zhuǎn)義”規(guī)則。還有值得注意的是,如果token中需要包含單引號(hào)或“-”,那么這個(gè)token在表示的時(shí)候一定需要用一對(duì)單引號(hào)包裹起來(lái)——這也是為了“簡(jiǎn)化規(guī)則”。
這次的“趣味編程”便是希望寫(xiě)一個(gè)方法,從text中提取出“數(shù)據(jù)”,也就是一個(gè)List<string[]>,我們假設(shè)所有的輸入都是正確的。
那么,這個(gè)規(guī)則又有什么含義呢?在我的項(xiàng)目中,這個(gè)字符串被當(dāng)作是產(chǎn)品查詢(xún)頁(yè)面的URL,表示的自然是產(chǎn)品的查詢(xún)條件。由于查詢(xún)條件非常的豐富,還會(huì)根據(jù)不同的分類(lèi)有所改變,因此在URL中表現(xiàn)查詢(xún)條件非常的麻煩。例如,淘寶的查詢(xún)頁(yè)面URL便是這樣的:
http://search1.taobao.com/browse/0/n-g,geytami-g,geytami-------1------7------------------4----0--------------------g,ojsxgzlsozsv64dsnfrwkwzvgaydalbzhe4tsxi---g,whflzr5rxy-------2-------b--40--coefp-0-all-0.htm?search_multi_condition=1&ssid=s1#ListView但是,這個(gè)URL對(duì)于某個(gè)人來(lái)說(shuō)幾乎沒(méi)有任何可讀性。普通用戶(hù)對(duì)此的關(guān)注度自然小很多,但是這樣的URL也會(huì)給開(kāi)發(fā)人員的工作造成不小的麻煩。在我看來(lái),有一個(gè)相對(duì)易讀的規(guī)則還是很重要的。此外,據(jù)說(shuō)URL中的關(guān)鍵字對(duì)于SEO也很有幫助(當(dāng)然這點(diǎn)我不確定)。因此,我們?cè)O(shè)計(jì)了本文這種“自洽”的數(shù)據(jù)表示方式。如果您足夠“敏感”的話,會(huì)發(fā)現(xiàn)作為特殊字符的單引號(hào)或是“-”符號(hào),它們?cè)赨RL上是不需要轉(zhuǎn)義的——這也是我們?yōu)樗鼈冑x予特殊含義的原因。
于是現(xiàn)在,我們便可以使用這樣的URL字符串來(lái)表示一個(gè)查詢(xún)條件了:
- cpu-3.0g--color-red-green-black--price-5000-8000--weight-'3-'--keywords-'levi''s'
這個(gè)text拆開(kāi)后的得到的數(shù)據(jù)便是:
- new List<string[]>{
- new string[] { "cpu", "3.0g" },
- new string[] { "color", "red", "green", "black" },
- new string[]
- { "price", "5000", "8000" },
- new string[] { "weight", "3-" },
- new string[] { "keywords", "levi's" },}
于是這個(gè)查詢(xún)條件便是:CPU為3.0G,顏色為紅、綠或黑,價(jià)格在5000到8000,重量在3千克內(nèi),并包含“l(fā)evi's”關(guān)鍵字的……筆記本?
您也來(lái)試試看吧!
原文標(biāo)題:趣味編程:從字符串中提取信息
鏈接:http://www.cnblogs.com/JeffreyZhao/archive/2009/10/12/code-for-fun-tokenizer.html
【編輯推薦】