偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<samp id="w0qa0"></samp>

<menuitem id="w0qa0"><b id="w0qa0"></b></menuitem>

<tfoot id="w0qa0"></tfoot>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

通用爬蟲技術(shù)要點(diǎn)： Dom樹的重建

作者：kingname 2020-12-08 06:19:33

開發(fā) 前端

HTML 源碼改寫這一個組件，會根據(jù)一定的策略對網(wǎng)頁源代碼進(jìn)行修改，剔除無關(guān)的節(jié)點(diǎn)，合并復(fù)雜但沒有必要的嵌套節(jié)點(diǎn)……改寫以后，輸出相對標(biāo)準(zhǔn)和統(tǒng)一的 HTML，傳給下游的信息抽取組件進(jìn)行內(nèi)容抽取。

這個問題來自于讀者交流群。原問題如下圖所示：

這個問題在通用爬蟲的開發(fā)過程中確實會涉及到。因為網(wǎng)頁的HTML 結(jié)構(gòu)千變?nèi)f化，但是，通用爬蟲需要在不預(yù)先知道目標(biāo)網(wǎng)頁結(jié)構(gòu)的情況下對其中的內(nèi)容進(jìn)行提取。

這種情況下，通用爬蟲一般會分成幾個不同的部分，如下圖所示：

其中，HTML 源碼改寫這一個組件，會根據(jù)一定的策略對網(wǎng)頁源代碼進(jìn)行修改，剔除無關(guān)的節(jié)點(diǎn)，合并復(fù)雜但沒有必要的嵌套節(jié)點(diǎn)……改寫以后，輸出相對標(biāo)準(zhǔn)和統(tǒng)一的 HTML，傳給下游的信息抽取組件進(jìn)行內(nèi)容抽取。

這位同學(xué)的問題，就涉及到對源代碼進(jìn)行改寫。實際上，使用 lxml 在 DOM 樹中插入一個節(jié)點(diǎn)，這本來根本不是什么問題。任何一個會使用 Google 的同學(xué)，只要搜索lxml html insert element，自然就能找到大量的解決方法，如下圖所示：

但是，這個問題怪就怪在，它需要在文本節(jié)點(diǎn)的前面增加子節(jié)點(diǎn)。干講可能不好描述，我用一個例子來說明這個問題。

大家先來看這段代碼：

from lxml.html import fromstring, Element, etree 
from html import unescape 
html = ''' 
<div> 
    <p>你好</p> 
</div> 
''' 
 
node = fromstring(html) 
p_node = node.find('.//p') 
element = Element('span') 
element.text = '青南' 
p_node.insert(0, element) 
new_html = unescape(etree.tostring(node).decode()) 
print(new_html)

根據(jù)我們使用 Python 列表的經(jīng)驗，如果一個列表a現(xiàn)在是['你好']，當(dāng)我們執(zhí)行a.insert(0, '青南')以后，得到的結(jié)果應(yīng)該是['青南', '你好']。但是我們來看看上面這段代碼的運(yùn)行效果：

可以看到，青南是在你好后面的。大家再看本文最開頭的圖，提問者舉出的例子中，他希望把子節(jié)點(diǎn)插入到文本之前。具體到這個例子中，應(yīng)該是青南你好。

大家可以試一試，你在 Google 上面無論怎么搜索，都找不到如何把節(jié)點(diǎn)插入到文本前面的方法。

但實際上，只要回歸官方文檔，你就會發(fā)現(xiàn)整個問題的解決方法并不困難。我們需要使用的，是lxml.html.builder[1]。

還是上面的例子，如何把 span 標(biāo)簽弄到文本前面呢?我們用 builder來實現(xiàn)：

from lxml.html import builder 
from html import unescape 
 
 
html = ''' 
<div></div> 
''' 
 
node = fromstring(html) 
new_node = builder.P(builder.SPAN('青南'), '你好') 
node.append(new_node) 
new_html = unescape(etree.tostring(node).decode()) 
print(new_html)

運(yùn)行效果如下圖所示：

看到這里，可能有同學(xué)會覺得我在耍無賴。這就像是讓我寫一個程序，計算斐波那契數(shù)列前5項的值，于是我5秒鐘寫出了答案print(1, 1, 2, 3, 5)。上面的代碼中，我直接使用builder.P(builder.SPAN('青南'), '你好')，這跟直接寫<p><span>青南</span>你好</p>有什么區(qū)別？這不是在作弊嗎？

我知道你很不服氣，但是，這就是真實的情況。通用爬蟲在做 HTML源碼改寫的時候，就是這樣做的。因為直接對網(wǎng)頁的 Dom 樹進(jìn)行改寫是非常麻煩的事情。如果直接修改 Dom 樹，經(jīng)常會出現(xiàn)需要找一個節(jié)點(diǎn)的父節(jié)點(diǎn)，然后再找父節(jié)點(diǎn)的兄弟節(jié)點(diǎn)的子節(jié)點(diǎn)進(jìn)行修改?；蛘咭袛嗄硞€節(jié)點(diǎn)是否有子節(jié)點(diǎn)，有和沒有，需要兩種邏輯來處理，才能防止破壞 Dom 樹。

所以，我們一般不會直接修改 Dom 樹，而是一邊掃描原始的 Dom 樹，一邊使用 builder 重建一個新的 Dom 樹。重建 Dom 樹的過程比修改 Dom 樹的過程要簡單很多，畢竟寫過代碼的人都知道，寫新代碼比改別人的代碼容易很多。

參考資料

[1]lxml.html.builder: https://lxml.de/api/lxml.html.builder-module.html

本文轉(zhuǎn)載自微信公眾號「未聞Code」，可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系未聞Code公眾號。

責(zé)任編輯：武曉燕來源：未聞Code

爬蟲 Dom樹組件

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="0r7gz"><acronym id="0r7gz"></acronym></center>