一日一技:如果你非要把HTML到數(shù)據(jù)庫,那么你應(yīng)該…
在粉絲群里面,我多次強(qiáng)調(diào)爬蟲不要把網(wǎng)頁源代碼存入數(shù)據(jù)庫,但還是有很多同學(xué)這樣做。源代碼動輒幾十 KB 甚至幾 MB,存放到數(shù)據(jù)庫里面會嚴(yán)重拖慢性能。
如果你非要儲存源代碼,那么你可以使用 Hive 或者對象儲存來存放。
如果你被逼無奈,必須用數(shù)據(jù)庫來存放,那么你至少應(yīng)該對HTML 進(jìn)行壓縮。平時(shí)我們常常聽說使用 winrar/7zip/tar 這些壓縮工具來壓縮文件或者文件夾,那么我們?nèi)绾螇嚎s字符串呢?
Python 自帶了兩種壓縮方式:zlib和gzip。
我們先來看看我的博客首頁有多大:
- import requests
 - html = requests.get('https://www.kingname.info').text
 - with open('kingname.html', 'w') as f:
 - f.write(html)
 
生成的kingname.html文件,有82KB,如下圖所示:
現(xiàn)在,我們使用zlib來對 HTML 進(jìn)行壓縮,然后把壓縮后的內(nèi)容寫到文件,我們來看看數(shù)據(jù)有多大:
- import zlib
 - import requests
 - html = requests.get('https://www.kingname.info').text
 - html_compressed = zlib.compress(html.encode())
 - with open('kingname_zlib', 'wb') as f:
 - f.write(html_compressed)
 
生成的文件大小只有16KB,如下圖所示:
壓縮以后體積變成了原來的五分之一,節(jié)約了大量的磁盤空間。需要注意的是,zlib.compress的輸入?yún)?shù)是bytes型的數(shù)據(jù),輸出也是bytes型的數(shù)據(jù)。并且,輸出的數(shù)據(jù)是不能解碼成字符串的,所以在寫文件的時(shí)候,必須使用wb方式寫入。如果你用的 MySQL 的話,需要把字段的類型設(shè)置成blob。
要解壓縮也非常簡單,使用zlib.decompress就可以了:
- import zlib
 - with open('kingname_zlib', 'rb') as f:
 - html_compressed = f.read()
 - html = zlib.decompress(html_compressed).decode()
 
除了zlib外,我們還可以使用gzip這個(gè)自帶的模塊來壓縮字符串。用法幾乎一模一樣:
- import gzip
 - import requests
 - html = requests.get('https://www.kingname.info').text
 - html_compressed = gzip.compress(html.encode())
 - with open('kingname_gzip', 'wb') as f:
 - f.write(html_compressed)
 
壓縮以后,文件大小也是16KB:
在生產(chǎn)項(xiàng)目中,除了Python自帶的這兩個(gè)壓縮模塊,還有可能會使用Snappy進(jìn)行壓縮。他的壓縮速度非???,比zlib和gzip都快。壓縮率也很高。但安裝起來比較麻煩,首先需要安裝Snappy程序,然后再安裝python-snappy庫才能使用。有興趣的同學(xué)可以搜索了解一下。
總結(jié):強(qiáng)烈不建議使用數(shù)據(jù)庫來存放網(wǎng)頁整個(gè)源代碼。如果非要使用,要壓縮以后再存。


















 
 
 








 
 
 
 