通用爬蟲技術(shù)要點(diǎn): Dom樹的重建
這個(gè)問題來(lái)自于讀者交流群。原問題如下圖所示:
這個(gè)問題在通用爬蟲的開發(fā)過(guò)程中確實(shí)會(huì)涉及到。因?yàn)榫W(wǎng)頁(yè)的HTML 結(jié)構(gòu)千變?nèi)f化,但是,通用爬蟲需要在不預(yù)先知道目標(biāo)網(wǎng)頁(yè)結(jié)構(gòu)的情況下對(duì)其中的內(nèi)容進(jìn)行提取。
這種情況下,通用爬蟲一般會(huì)分成幾個(gè)不同的部分,如下圖所示:
其中,HTML 源碼改寫這一個(gè)組件,會(huì)根據(jù)一定的策略對(duì)網(wǎng)頁(yè)源代碼進(jìn)行修改,剔除無(wú)關(guān)的節(jié)點(diǎn),合并復(fù)雜但沒有必要的嵌套節(jié)點(diǎn)……改寫以后,輸出相對(duì)標(biāo)準(zhǔn)和統(tǒng)一的 HTML,傳給下游的信息抽取組件進(jìn)行內(nèi)容抽取。
這位同學(xué)的問題,就涉及到對(duì)源代碼進(jìn)行改寫。實(shí)際上,使用 lxml 在 DOM 樹中插入一個(gè)節(jié)點(diǎn),這本來(lái)根本不是什么問題。任何一個(gè)會(huì)使用 Google 的同學(xué),只要搜索lxml html insert element,自然就能找到大量的解決方法,如下圖所示:
但是,這個(gè)問題怪就怪在,它需要在文本節(jié)點(diǎn)的前面增加子節(jié)點(diǎn)。干講可能不好描述,我用一個(gè)例子來(lái)說(shuō)明這個(gè)問題。
大家先來(lái)看這段代碼:
- from lxml.html import fromstring, Element, etree
 - from html import unescape
 - html = '''
 - <div>
 - <p>你好</p>
 - </div>
 - '''
 - node = fromstring(html)
 - p_node = node.find('.//p')
 - element = Element('span')
 - element.text = '青南'
 - p_node.insert(0, element)
 - new_html = unescape(etree.tostring(node).decode())
 - print(new_html)
 
根據(jù)我們使用 Python 列表的經(jīng)驗(yàn),如果一個(gè)列表a現(xiàn)在是['你好'],當(dāng)我們執(zhí)行a.insert(0, '青南')以后,得到的結(jié)果應(yīng)該是['青南', '你好']。但是我們來(lái)看看上面這段代碼的運(yùn)行效果:
可以看到,青南是在你好后面的。大家再看本文最開頭的圖,提問者舉出的例子中,他希望把子節(jié)點(diǎn)插入到文本之前。具體到這個(gè)例子中,應(yīng)該是青南你好。
大家可以試一試,你在 Google 上面無(wú)論怎么搜索,都找不到如何把節(jié)點(diǎn)插入到文本前面的方法。
但實(shí)際上,只要回歸官方文檔,你就會(huì)發(fā)現(xiàn)整個(gè)問題的解決方法并不困難。我們需要使用的,是lxml.html.builder[1]。
還是上面的例子,如何把 span 標(biāo)簽弄到文本前面呢?我們用 builder來(lái)實(shí)現(xiàn):
- from lxml.html import builder
 - from html import unescape
 - html = '''
 - <div></div>
 - '''
 - node = fromstring(html)
 - new_node = builder.P(builder.SPAN('青南'), '你好')
 - node.append(new_node)
 - new_html = unescape(etree.tostring(node).decode())
 - print(new_html)
 
運(yùn)行效果如下圖所示:
看到這里,可能有同學(xué)會(huì)覺得我在耍無(wú)賴。這就像是讓我寫一個(gè)程序,計(jì)算斐波那契數(shù)列前5項(xiàng)的值,于是我5秒鐘寫出了答案print(1, 1, 2, 3, 5)。上面的代碼中,我直接使用builder.P(builder.SPAN('青南'), '你好'),這跟直接寫<p><span>青南</span>你好</p>有什么區(qū)別?這不是在作弊嗎?
我知道你很不服氣,但是,這就是真實(shí)的情況。通用爬蟲在做 HTML源碼改寫的時(shí)候,就是這樣做的。因?yàn)橹苯訉?duì)網(wǎng)頁(yè)的 Dom 樹進(jìn)行改寫是非常麻煩的事情。如果直接修改 Dom 樹,經(jīng)常會(huì)出現(xiàn)需要找一個(gè)節(jié)點(diǎn)的父節(jié)點(diǎn),然后再找父節(jié)點(diǎn)的兄弟節(jié)點(diǎn)的子節(jié)點(diǎn)進(jìn)行修改?;蛘咭袛嗄硞€(gè)節(jié)點(diǎn)是否有子節(jié)點(diǎn),有和沒有,需要兩種邏輯來(lái)處理,才能防止破壞 Dom 樹。
所以,我們一般不會(huì)直接修改 Dom 樹,而是一邊掃描原始的 Dom 樹,一邊使用 builder 重建一個(gè)新的 Dom 樹。重建 Dom 樹的過(guò)程比修改 Dom 樹的過(guò)程要簡(jiǎn)單很多,畢竟寫過(guò)代碼的人都知道,寫新代碼比改別人的代碼容易很多。
參考資料
[1]lxml.html.builder: https://lxml.de/api/lxml.html.builder-module.html
本文轉(zhuǎn)載自微信公眾號(hào)「未聞Code」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系未聞Code公眾號(hào)。





















 
 
 



 
 
 
 