偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

這個(gè)用Python寫(xiě)的開(kāi)源爬蟲(chóng)網(wǎng)站 讓你秒搜所有豆瓣好書(shū)

開(kāi)發(fā) 前端
最近猿哥在GitHub上發(fā)現(xiàn)了一個(gè)網(wǎng)站,是中國(guó)科學(xué)院自動(dòng)化研究所的一大神(lanbing510)用Python寫(xiě)的一個(gè)爬蟲(chóng),他在16年的時(shí)候就爬下了豆瓣所有的讀書(shū)數(shù)據(jù)并做了個(gè)WebApp接口方來(lái)挖掘查找和閱讀好書(shū)。怪我知道的太晚

程序員在提升自己的道路,大多還是會(huì)選擇閱讀編程書(shū)籍這一途徑,但找到一本好書(shū)就沒(méi)那么容易了。

通過(guò)查看各大銷售網(wǎng)站的銷量數(shù)據(jù)和評(píng)價(jià),以及豆瓣評(píng)分和評(píng)價(jià)人數(shù),可以幫助我們更快的挖掘出經(jīng)典的計(jì)算機(jī)書(shū)籍,還有那些被人們忽視的好書(shū)。

最近猿哥在GitHub上發(fā)現(xiàn)了一個(gè)網(wǎng)站,是中國(guó)科學(xué)院自動(dòng)化研究所的一大神(lanbing510)用Python寫(xiě)的一個(gè)爬蟲(chóng),他在16年的時(shí)候就爬下了豆瓣所有的讀書(shū)數(shù)據(jù)并做了個(gè)WebApp接口方來(lái)挖掘查找和閱讀好書(shū)。怪我知道的太晚

[[265862]]

后來(lái)lanbing510再次爬了一遍豆瓣讀書(shū)的數(shù)據(jù),總共更新了3232088本圖書(shū)信息,共2138386KB,并將其開(kāi)源

為什么說(shuō)它很好用呢?猿哥演示一遍你就知道了:

這個(gè)用Python寫(xiě)的開(kāi)源爬蟲(chóng)網(wǎng)站 讓你秒搜所有豆瓣好書(shū)

可以看出這網(wǎng)站的界面非常簡(jiǎn)潔,沒(méi)有花里花哨的內(nèi)容,只有干貨,你可以直接通過(guò)關(guān)鍵字、分?jǐn)?shù)、和評(píng)價(jià)人數(shù)這三個(gè)選項(xiàng)進(jìn)行搜索,比如我們可以搜索關(guān)鍵字:編程;分?jǐn)?shù):9.0;評(píng)價(jià)人數(shù):100人以上

查找結(jié)果的顯示方式有按照分?jǐn)?shù)排序和人數(shù)排序兩種,按照分?jǐn)?shù)排序的截圖如下:

這個(gè)用Python寫(xiě)的開(kāi)源爬蟲(chóng)網(wǎng)站 讓你秒搜所有豆瓣好書(shū)

按照評(píng)價(jià)人數(shù)排序的截圖如下:

這個(gè)用Python寫(xiě)的開(kāi)源爬蟲(chóng)網(wǎng)站 讓你秒搜所有豆瓣好書(shū)

除了以上演示的操作,這個(gè)網(wǎng)站并實(shí)現(xiàn)了以下功能:

  • 可以爬下豆瓣讀書(shū)標(biāo)簽下的所有圖書(shū)
  • 按評(píng)分排名依次存儲(chǔ)
  • 存儲(chǔ)到Excel中,可方便大家篩選搜羅,比如篩選評(píng)價(jià)人數(shù)>1000的高分書(shū)籍;可依據(jù)不同的主題存儲(chǔ)到Excel不同的Sheet
  • 采用User Agent偽裝為瀏覽器進(jìn)行爬取,并加入隨機(jī)延時(shí)來(lái)更好的模仿瀏覽器行為,避免爬蟲(chóng)被封

也就是說(shuō)你不僅可以在網(wǎng)站上搜索,還能通過(guò)下載各類目下的Excel書(shū)單文件,直接在Excel中搜索

這個(gè)用Python寫(xiě)的開(kāi)源爬蟲(chóng)網(wǎng)站 讓你秒搜所有豆瓣好書(shū)

效果截圖如下:

這個(gè)用Python寫(xiě)的開(kāi)源爬蟲(chóng)網(wǎng)站 讓你秒搜所有豆瓣好書(shū)

附上網(wǎng)站地址:http://sobook.lanbing510.info

GitHub地址:https://github.com/lanbing510/DouBanSpider

 

責(zé)任編輯:未麗燕 來(lái)源: 程序員書(shū)庫(kù)
相關(guān)推薦

2021-04-19 16:15:35

開(kāi)源開(kāi)源工具

2019-10-15 15:19:59

Python爬蟲(chóng)low

2022-10-11 16:57:29

開(kāi)源工具開(kāi)源

2021-11-07 14:31:52

PythonWeb頁(yè)面

2021-06-07 17:46:31

Python 3.8Python編程語(yǔ)言

2015-12-03 09:59:00

網(wǎng)站構(gòu)建分析

2016-01-13 11:39:52

CSS邊框網(wǎng)站

2024-04-07 10:21:48

2020-04-03 14:55:39

Python 代碼編程

2011-01-13 14:38:00

JavascriptCSSWeb

2015-08-19 09:58:19

熱搜優(yōu)缺點(diǎn)

2021-03-28 16:55:11

Python工具鏈代碼

2020-03-26 14:39:03

AI 數(shù)據(jù)人工智能

2010-05-27 10:29:27

IPv6 Ready

2010-05-11 11:00:44

遺傳算法宋詞

2020-06-10 10:02:16

數(shù)據(jù)泄露安全舊手機(jī)

2015-07-09 15:08:08

2024-08-30 15:03:43

2021-04-21 10:27:17

JavaScript代碼項(xiàng)目

2010-07-27 14:00:53

Flex ComboB
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)