Pandas可以直接讀取網(wǎng)頁(yè)html(表格)、json、csv等格式
一、前言
前幾天在Python白銀交流群【Ming】問(wèn)了一道Pandas處理html的問(wèn)題,如下圖所示。
其實(shí)也不是問(wèn),算交流。
確實(shí),Pandas可以直接讀取html,而且在網(wǎng)頁(yè)讀取的時(shí)候更加方便。
二、實(shí)現(xiàn)過(guò)程
這里大家一起討論,學(xué)習(xí)了Pandas直接讀取html的方法。
后來(lái)【null】給了一個(gè)示例代碼,及時(shí)雨。
簡(jiǎn)單的三句代碼就扒下來(lái)網(wǎng)頁(yè)數(shù)據(jù)了,并且存表格,針對(duì)表格形式的網(wǎng)頁(yè),再也不用挨個(gè)tr、td標(biāo)簽去取了,直接Pandas梭哈。
后來(lái)發(fā)現(xiàn)哥幾個(gè)竟然是湖北公安老鄉(xiāng),彼此聊得火熱。老鄉(xiāng)見(jiàn)老鄉(xiāng),一起學(xué)習(xí)更香!后來(lái)【null】多做了拓展,爬ajax加載的json格式,也可以用Pandas來(lái)實(shí)現(xiàn),這里也給出了示例。
得到的結(jié)果如下圖所示:
后來(lái)【月神】也給出了拓展,抓取csv格式也是可以的。
不得不承認(rèn),Pandas實(shí)在是太強(qiáng)大了!
三、總結(jié)
這篇文章主要盤(pán)點(diǎn)了一道Pandas處理網(wǎng)絡(luò)爬蟲(chóng)的問(wèn)題,文中針對(duì)該問(wèn)題給出了具體的解析和代碼實(shí)現(xiàn),幫助粉絲順利解決了問(wèn)題。