爬了知乎200萬(wàn)數(shù)據(jù),圖說(shuō)程序員都喜歡去哪兒工作
因?yàn)樽罱团笥殉燥?,大家都到了大三季,都在糾結(jié)自己該以哪里作為自己職業(yè)發(fā)展的起點(diǎn)?也想看看自己的背景,能不能找到靠譜的師哥師姐幫忙,那么師哥師姐都在哪里發(fā)光發(fā)亮呢?
我當(dāng)時(shí)也是午休的時(shí)候想到,知乎有那么多結(jié)構(gòu)化的好的數(shù)據(jù),不如抓取之,拿來(lái)分析可以看看名校生們都在哪?
我們行業(yè)的人都喜歡哪,哪里每年帶走一堆人?
然后花半小時(shí)寫了個(gè)多線程爬蟲,爬下來(lái)幾百萬(wàn)數(shù)據(jù)(其中每個(gè)學(xué)校的大圓圈占比代表該校學(xué)生在調(diào)研總數(shù)中的占比)
這次抓取的數(shù)據(jù)量有將近200萬(wàn),跑了一個(gè)下午,然后我把沒有公司或者教育學(xué)校的篩掉,就還剩25萬(wàn)了~