使用Java正則表達式匹配、替換HTML內(nèi)容
曾經(jīng)了解過JavaScript的正則表達式,知道其功能的強大,對于處理文本比用普通的API處理不管從效率上還是從功能上都有很大的優(yōu)勢。今天項目要求用到Java的正則表達式,于是在網(wǎng)上Google,找到一個Jakarta ORO的庫,聽說是Java中功能***大的正則表達式庫,確實也如此,Sun公司的JDK里自帶的正則表達式功能是遠遠不如ORO庫,從正則表達式的角度上看,其比普通的API處理文本是復雜很多。
但如果應用得恰當?shù)脑?,會提高工程的質(zhì)量,于是項目中就應用了這個ORO庫,把瀏覽器請求得到的HTML頁面進行解釋替換實現(xiàn)一個代理采集信息的功能。感覺自己好像是在開發(fā)軟件,不是在設計網(wǎng)頁。正則表達式有一個很好用的工具--RegexBuddy,應用這個工具可以調(diào)度一個匹配你需要的正則表達式串,經(jīng)過幾番調(diào)度,把一些HTML標簽的正則表達式匹配出來。
***:像網(wǎng)頁鏈接<a .......... href="[url1]" .......>之間的內(nèi)容中[URL[絕對地址替換成相對地址,首先要查找匹配這個鏈接,查找匹配這個串的正則表達式串為
(<\\s*a\\s+(?:[^\\s>]\\s*){0,})href\\s*=\\s*(\"|'|)([^\\2\\s>]*)\\2((?:\\s*[^\\s>]){0,}\\s *>)
- //查找匹配的代碼如下:
 - String patternStrs="(<\\s*a\\s+(?:[^\\s>]\\s*){0,})href\\s*=\\s*
 
(\"|'|)([^\\2\\s>]*)\\2((?:\\s*[^\\s>]){0,}\\s *>)";- PatternCompiler complier = new Perl5Compiler();
 - PatternMatcher matcher = new Perl5Matcher();
 - Pattern patternForLink = complier.compile(patternStrs,
 - Perl5Compiler.
 - CASE_INSENSITIVE_MASK);
 - PatternMatcherInput input = new PatternMatcherInput(htmlContent);
 - while (matcher.contains(input, patternForLink)) {
 - MatchResult match = matcher.getMatch();
 - //處理匹配的結(jié)果,是要替換還是要其他處理
 - }
 
第二:對其他的標簽也類似只要把匹配的字符串改一下為要匹配的標簽就可以了。(如IMG標簽)
(<\s*img\s+(?:[^\s>]\s*){0,})src\s*=\s*("|'|)([^\2\s>]*)\2((?:\s*[^\s>]){0,}\s*>),這樣就可以處理
<img.....................src="[url]"...............>的標簽匹配,對其他的標簽也一樣.
總結(jié):對于大量要處理的文本,建議還是用到正則表達式,而要處理的文本比較少時,用普通的字符串API處理函數(shù)就足夠了。
【編輯推薦】















 
 
 


 
 
 
 