道客巴巴CTO劉斌:10億文檔的數(shù)據(jù)挖掘與應(yīng)用
原創(chuàng)2016年8月26-27日,由51CTO.com主辦的【W(wǎng)OT2016移動(dòng)互聯(lián)網(wǎng)技術(shù)峰會(huì)】在北京粵財(cái)JW萬豪酒店隆重召開。自2012年以來,WOT品牌大會(huì)秉承專注技術(shù)、服務(wù)技術(shù)人員的理念已經(jīng)成功舉辦十一屆,不僅積累了大量的專家資源,更獲得廣大IT從業(yè)者和技術(shù)愛好者的認(rèn)可和好評(píng),并成為業(yè)界重要的技術(shù)分享及人脈拓展平臺(tái)。
會(huì)議現(xiàn)場(chǎng),道客巴巴CTO劉斌接受了記者采訪,結(jié)合道客巴巴文檔分享平臺(tái)實(shí)際發(fā)展情況及現(xiàn)有技術(shù)架構(gòu),深入解析了道客巴巴對(duì)億級(jí)文檔的概念理解以及對(duì)億級(jí)文檔的數(shù)據(jù)挖掘與應(yīng)用。
道客巴巴CTO劉斌
道客巴巴:億級(jí)文檔分享平臺(tái)
作為在線文檔分享平臺(tái),道客巴巴致力于為數(shù)億互聯(lián)網(wǎng)用戶打造自由交流與平等學(xué)習(xí)的開放式互動(dòng)平臺(tái),讓更多用戶在分享知識(shí)中提升自我。經(jīng)過多年發(fā)展,用戶分享至道客巴巴的文檔數(shù)量已經(jīng)超過了10億,文檔內(nèi)容涵蓋了考試資料、教學(xué)課件、學(xué)術(shù)論文、應(yīng)用文書、企業(yè)文案、行業(yè)研究資料等幾十個(gè)領(lǐng)域。
記者了解到,在文檔分享領(lǐng)域,道客巴巴注重文檔以質(zhì)為本,服務(wù)以人為本,技術(shù)以新為本。作為國(guó)內(nèi)首家提供免費(fèi)全文閱讀的文檔分享平臺(tái),道客巴巴實(shí)現(xiàn)了從連接人與信息向連接人與服務(wù)轉(zhuǎn)換的飛躍。道客巴巴現(xiàn)有的文檔分享平臺(tái)、任務(wù)互助平臺(tái)、企業(yè)文庫(kù)等產(chǎn)品既能給用戶提供價(jià)值,同時(shí)用戶也能給產(chǎn)品提供價(jià)值,進(jìn)而用戶與用戶之間實(shí)現(xiàn)價(jià)值的交換與滿足。
安全存儲(chǔ):10億文檔的首要挑戰(zhàn)
目前,道客巴巴的文檔數(shù)量已經(jīng)達(dá)到10億,如此海量的文檔內(nèi)容,給數(shù)據(jù)存儲(chǔ)技術(shù)帶來了哪些挑戰(zhàn)?
劉斌表示,網(wǎng)站建設(shè)初期,道客巴巴采用原始的存儲(chǔ)方式,雖然采用了Raid5架構(gòu),避免了單個(gè)硬盤故障導(dǎo)致的數(shù)據(jù)丟失,但如果計(jì)算機(jī)其他硬件出現(xiàn)故障,可能導(dǎo)致該計(jì)算機(jī)上的數(shù)據(jù)短時(shí)間內(nèi)無法正常服務(wù)。為了改善這一情況,道客巴巴結(jié)合開源軟件Hadoop的分布式架構(gòu),并對(duì)小的文檔文件進(jìn)行自定義索引合并,生成適合Hadoop存儲(chǔ)的大文件,避免了Hadoop小文件過多導(dǎo)致的性能問題。同時(shí),道客巴巴通過多副本的形式進(jìn)行存儲(chǔ),以保證單臺(tái)計(jì)算機(jī)出現(xiàn)故障時(shí),其他計(jì)算機(jī)可以將故障的數(shù)據(jù)備份,從而保證數(shù)據(jù)的安全存儲(chǔ)。
文檔去重:十億文檔的冗余問題
目前,道客巴巴用戶數(shù)已達(dá)7000萬,每天上傳大量文檔,其中難免會(huì)有重復(fù)文檔,如何避免相同或相似的文檔被重復(fù)上傳并發(fā)布?對(duì)此,道客巴巴特別建立了文檔驗(yàn)重去重技術(shù)體系:積累了百億級(jí)的驗(yàn)重基礎(chǔ)數(shù)據(jù)元,采用了分布式的并行計(jì)算方式,高效的檢測(cè)出文檔是否重復(fù)并得到文檔內(nèi)容的重復(fù)率,對(duì)于相同或相似的文檔進(jìn)行了有效過濾,保證了文檔內(nèi)容的***性和優(yōu)質(zhì)性。
數(shù)據(jù)挖掘:全文檢索及智能分類
在應(yīng)對(duì)存儲(chǔ)和去重挑戰(zhàn)的同時(shí),為了給用戶提供更高質(zhì)量的服務(wù),道客巴巴對(duì)數(shù)億優(yōu)質(zhì)文檔進(jìn)行了更深入的數(shù)據(jù)挖掘,讓用戶在數(shù)億文檔中快速、精確的檢索到自己需要的內(nèi)容,同時(shí),網(wǎng)站可以根據(jù)用戶的閱讀行為,主動(dòng)為用戶推薦更加符合用戶需求的文檔。
道客巴巴采用了全文檢索技術(shù),對(duì)數(shù)億文檔內(nèi)容進(jìn)行了分詞索引,采用了數(shù)十臺(tái)高性能服務(wù)器進(jìn)行分布式并行全文檢索,將檢索結(jié)果匯總到主服務(wù)器并進(jìn)行文檔排序,將優(yōu)質(zhì)文檔毫秒級(jí)展示給用戶。
由于道客巴巴用戶的分散性,導(dǎo)致上傳的部分文檔未能精確匹配已有分類。為了提高文檔分類的準(zhǔn)確性,道客巴巴特別采用了智能分類技術(shù)解決方案。經(jīng)過多年的積累,每個(gè)分類下匯集了大量精確文檔作為計(jì)算機(jī)學(xué)習(xí)樣本,通過智能分類算法,對(duì)未知文檔進(jìn)行有效分類。
挑戰(zhàn)與機(jī)遇:文檔服務(wù)的未來
目前,大部分文檔閱讀平臺(tái)基本都采用Flash閱讀方案,隨著HTML5技術(shù)的發(fā)展,F(xiàn)lash逐漸被替代,文檔的在線閱讀方案也將面臨技術(shù)改革,陸續(xù)過渡到HTML5的閱讀方式,但由于HTML5在文檔的內(nèi)容保護(hù)方面尚存欠缺,如何保證文檔內(nèi)容的安全性,成為此次技術(shù)改革的難點(diǎn)。針對(duì)此次難點(diǎn),道客巴巴研發(fā)團(tuán)隊(duì)綜合了國(guó)內(nèi)外多方面經(jīng)驗(yàn),為下一步技術(shù)過渡打好基礎(chǔ)。另外,在搜索和驗(yàn)重方面,業(yè)內(nèi)所采用的方法很難實(shí)現(xiàn)語義上的識(shí)別,道客巴巴已經(jīng)突破了同義詞的重復(fù)識(shí)別,但是在語義分析上同樣面臨著巨大挑戰(zhàn),解決這一技術(shù)難題,是道客巴巴提升文檔服務(wù)的努力方向與重要目標(biāo)。
以上是51CTO.com記者從【W(wǎng)OT2016移動(dòng)互聯(lián)網(wǎng)技術(shù)峰會(huì)】一線為您帶來的精彩報(bào)道。更多精彩內(nèi)容報(bào)道,敬請(qǐng)持續(xù)關(guān)注!