偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<meter id="9pbtq"></meter>

<var id="9pbtq"></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

深入淺出理解Python“亂碼”問題

作者：丁彥軍 2019-01-16 17:05:02

開發(fā) 后端

當(dāng)源網(wǎng)頁編碼和爬取下來后的編碼轉(zhuǎn)換不一致時，如源網(wǎng)頁為gbk編碼的字節(jié)流，而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲文件中，這必然會引起亂碼，即當(dāng)源網(wǎng)頁編碼和抓取下來后程序直接使用處理編碼一致時，則不會出現(xiàn)亂碼，此時再進(jìn)行統(tǒng)一的字符編碼也就不會出現(xiàn)亂碼了。

在爬取某網(wǎng)站時，網(wǎng)頁的源代碼出現(xiàn)了中文亂碼問題。之前關(guān)于爬蟲亂碼有各式各樣的問題，今天與大家一起總結(jié)下關(guān)于網(wǎng)絡(luò)爬蟲的亂碼處理。注意，這里不僅是中文亂碼，還包括一些如日文、韓文、俄文、藏文之類的亂碼處理，因為他們的解決方式是一致的，故在此統(tǒng)一說明。

一、亂碼問題的出現(xiàn)

就以爬取51job網(wǎng)站舉例，講講為何會出現(xiàn)“亂碼”問題，如何解決它以及其背后的機制。

代碼示例：

import requests 
 
url = "http://search.51job.com" 
res = requests.get(url) 
print(res.text)

顯示結(jié)果：

打印res.text時，發(fā)現(xiàn)了什么?中文亂碼!!!不過發(fā)現(xiàn)，網(wǎng)頁的字符集類型采用的gbk編碼格式。

我們知道Requests 會基于 HTTP 頭部對響應(yīng)的編碼作出有根據(jù)的推測。當(dāng)你訪問 r.text 之時，Requests 會使用其推測的文本編碼。你可以找出 Requests 使用了什么編碼，并且能夠使用r.encoding 屬性來改變它。

接下來，我們一起通過resquests的一些用法，來看看Requests 會基于 HTTP 頭部對響應(yīng)的編碼方式。

print(res.encoding)  #查看網(wǎng)頁返回的字符集類型 
print(res.apparent_encoding) #自動判斷字符集類型

輸出結(jié)果為：

可以發(fā)現(xiàn)Requests 推測的文本編碼(也就是網(wǎng)頁返回即爬取下來后的編碼轉(zhuǎn)換)與源網(wǎng)頁編碼不一致，由此可知其正是導(dǎo)致亂碼原因。

二、亂碼背后的奧秘

當(dāng)源網(wǎng)頁編碼和爬取下來后的編碼轉(zhuǎn)換不一致時，如源網(wǎng)頁為gbk編碼的字節(jié)流，而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲文件中，這必然會引起亂碼，即當(dāng)源網(wǎng)頁編碼和抓取下來后程序直接使用處理編碼一致時，則不會出現(xiàn)亂碼，此時再進(jìn)行統(tǒng)一的字符編碼也就不會出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁無論何種編碼格式，都轉(zhuǎn)化為utf-8格式進(jìn)行存儲。

注意：區(qū)分源網(wǎng)編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。

在此，我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區(qū)別聯(lián)系，大概如下：

最早的編碼是iso8859-1，和ascii編碼相似。但為了方便表示各種各樣的語言，逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。iso8859-1屬于單字節(jié)編碼，最多能表示的字符范圍是0-255，應(yīng)用于英文系列。很明顯，iso8859-1編碼表示的字符范圍很窄，無法表示中文字符。

1981年中國人民通過對 ASCII 編碼的中文擴充改造，產(chǎn)生了 GB2312 編碼，可以表示6000多個常用漢字。但漢字實在是太多了，包括繁體和各種字符，于是產(chǎn)生了 GBK 編碼，它包括了 GB2312 中的編碼，同時擴充了很多。中國又是個多民族國家，各個民族幾乎都有自己獨立的語言系統(tǒng)，為了表示那些字符，繼續(xù)把 GBK 編碼擴充為 GB18030 編碼。每個國家都像中國一樣，把自己的語言編碼，于是出現(xiàn)了各種各樣的編碼，如果你不安裝相應(yīng)的編碼，就無法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終于，有個叫 ISO 的組織看不下去了。他們一起創(chuàng)造了一種編碼 UNICODE ，這種編碼非常大，大到可以容納世界上任何一個文字和標(biāo)志。所以只要電腦上有 UNICODE 這種編碼系統(tǒng)，無論是全球哪種文字，只需要保存文件的時候，保存成 UNICODE 編碼就可以被其他電腦正常解釋。UNICODE 在網(wǎng)絡(luò)傳輸中，出現(xiàn)了兩個標(biāo)準(zhǔn) UTF-8 和 UTF-16，分別每次傳輸 8個位和 16個位。于是就會有人產(chǎn)生疑問，UTF-8 既然能保存那么多文字、符號，為什么國內(nèi)還有這么多使用 GBK 等編碼的人?因為 UTF-8 等編碼體積比較大，占電腦空間比較多，如果面向的使用人群絕大部分都是中國人，用 GBK 等編碼也可以。

也可以這樣來理解：字符串是由字符構(gòu)成，字符在計算機硬件中通過二進(jìn)制形式存儲，這種二進(jìn)制形式就是編碼。如果直接使用 “字符串↔️字符↔️二進(jìn)制表示(編碼)” ，會增加不同類型編碼之間轉(zhuǎn)換的復(fù)雜性。所以引入了一個抽象層，“字符串↔️字符↔️與存儲無關(guān)的表示↔️二進(jìn)制表示(編碼)” ，這樣，可以用一種與存儲無關(guān)的形式表示字符，不同的編碼之間轉(zhuǎn)換時可以先轉(zhuǎn)換到這個抽象層，然后再轉(zhuǎn)換為其他編碼形式。在這里，unicode 就是 “與存儲無關(guān)的表示”，utf—8 就是 “二進(jìn)制表示”。

三、亂碼的解決方法

根據(jù)原因來找解決方法，就非常簡單了。

方法一：直接指定res.encoding

import requests 
 
url = "http://search.51job.com" 
res = requests.get(url) 
res.encoding = "gbk" 
html = res.text 
print(html)

方法二：通過res.apparent_encoding屬性指定

import requests 
 
url = "http://search.51job.com" 
res = requests.get(url) 
res.encoding = res.apparent_encoding 
html = res.text 
print(html)

方法三：通過編碼、解碼的方式

import requests 
 
url = "http://search.51job.com" 
res = requests.get(url) 
html = res.text.encode('iso-8859-1').decode('gbk') 
print(html)

輸出結(jié)果：

基本思路三步走：確定源網(wǎng)頁的編碼A---gbk、程序通過編碼B---ISO-8859-1對源網(wǎng)頁數(shù)據(jù)還原、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。至于為啥為出現(xiàn)統(tǒng)一轉(zhuǎn)碼這一步呢? 網(wǎng)絡(luò)爬蟲系統(tǒng)數(shù)據(jù)來源很多，不可能使用數(shù)據(jù)時，再轉(zhuǎn)化為其原始的數(shù)據(jù)，假使這樣做是很廢事的。所以一般的爬蟲系統(tǒng)都要對抓取下來的結(jié)果進(jìn)行統(tǒng)一編碼，從而在使用時做到一致對外，方便使用。

比如如果我們想講網(wǎng)頁數(shù)據(jù)保存下來，則會將起轉(zhuǎn)為utf-8，代碼如下：

with open("a.txt",'w',encoding='utf-8') as f: 
    f.write(html)

四、總結(jié)

關(guān)于網(wǎng)絡(luò)爬蟲亂碼問題，本文不僅給出了一個解決方案，還深入到其中的原理，由此問題引申出很多有意思的問題，如，utf-8、gbk、gb2312的編碼方式怎樣的?為什么這樣轉(zhuǎn)化就可以解決問題?

責(zé)任編輯：武曉燕來源： Python中文社區(qū)

Python 亂碼網(wǎng)絡(luò)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="qbthk"></ruby>