偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="tzchb"><tt id="tzchb"><form id="tzchb"></form></tt></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一日一技：如果你非要把HTML到數(shù)據(jù)庫，那么你應(yīng)該…

作者： kingname 2021-11-20 05:00:12

運(yùn)維數(shù)據(jù)庫運(yùn)維

在粉絲群里面，我多次強(qiáng)調(diào)爬蟲不要把網(wǎng)頁源代碼存入數(shù)據(jù)庫，但還是有很多同學(xué)這樣做。源代碼動輒幾十 KB 甚至幾 MB，存放到數(shù)據(jù)庫里面會嚴(yán)重拖慢性能。

在粉絲群里面，我多次強(qiáng)調(diào)爬蟲不要把網(wǎng)頁源代碼存入數(shù)據(jù)庫，但還是有很多同學(xué)這樣做。源代碼動輒幾十 KB 甚至幾 MB，存放到數(shù)據(jù)庫里面會嚴(yán)重拖慢性能。

如果你非要儲存源代碼，那么你可以使用 Hive 或者對象儲存來存放。

如果你被逼無奈，必須用數(shù)據(jù)庫來存放，那么你至少應(yīng)該對HTML 進(jìn)行壓縮。平時(shí)我們常常聽說使用 winrar/7zip/tar 這些壓縮工具來壓縮文件或者文件夾，那么我們?nèi)绾螇嚎s字符串呢?

Python 自帶了兩種壓縮方式：zlib和gzip。

我們先來看看我的博客首頁有多大：

import requests 
 
html = requests.get('https://www.kingname.info').text 
 
with open('kingname.html', 'w') as f: 
 
f.write(html)

生成的kingname.html文件，有82KB，如下圖所示：

現(xiàn)在，我們使用zlib來對 HTML 進(jìn)行壓縮，然后把壓縮后的內(nèi)容寫到文件，我們來看看數(shù)據(jù)有多大：

import zlib 
import requests 
 
html = requests.get('https://www.kingname.info').text 
html_compressed = zlib.compress(html.encode()) 
with open('kingname_zlib', 'wb') as f: 
    f.write(html_compressed)

生成的文件大小只有16KB，如下圖所示：

壓縮以后體積變成了原來的五分之一，節(jié)約了大量的磁盤空間。需要注意的是，zlib.compress的輸入?yún)?shù)是bytes型的數(shù)據(jù)，輸出也是bytes型的數(shù)據(jù)。并且，輸出的數(shù)據(jù)是不能解碼成字符串的，所以在寫文件的時(shí)候，必須使用wb方式寫入。如果你用的 MySQL 的話，需要把字段的類型設(shè)置成blob。

要解壓縮也非常簡單，使用zlib.decompress就可以了：

import zlib 
with open('kingname_zlib', 'rb') as f: 
    html_compressed = f.read() 
html = zlib.decompress(html_compressed).decode()

除了zlib外，我們還可以使用gzip這個(gè)自帶的模塊來壓縮字符串。用法幾乎一模一樣：

import gzip 
 
import requests 
 
html = requests.get('https://www.kingname.info').text 
 
html_compressed = gzip.compress(html.encode()) 
 
with open('kingname_gzip', 'wb') as f: 
 
f.write(html_compressed)

壓縮以后，文件大小也是16KB：

在生產(chǎn)項(xiàng)目中，除了Python自帶的這兩個(gè)壓縮模塊，還有可能會使用Snappy進(jìn)行壓縮。他的壓縮速度非?？?，比zlib和gzip都快。壓縮率也很高。但安裝起來比較麻煩，首先需要安裝Snappy程序，然后再安裝python-snappy庫才能使用。有興趣的同學(xué)可以搜索了解一下。

總結(jié)：強(qiáng)烈不建議使用數(shù)據(jù)庫來存放網(wǎng)頁整個(gè)源代碼。如果非要使用，要壓縮以后再存。

責(zé)任編輯：武曉燕來源：未聞Code

數(shù)據(jù)庫

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="rx0xv"><i id="rx0xv"><video id="rx0xv"></video></i></blockquote>

<legend id="rx0xv"><track id="rx0xv"></track></legend>