偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

道客巴巴CTO劉斌:10億文檔的數(shù)據(jù)挖掘與應(yīng)用

原創(chuàng)
云計(jì)算
2016年8月26-27日,由51CTO.com主辦的【W(wǎng)OT2016移動(dòng)互聯(lián)網(wǎng)技術(shù)峰會(huì)】在北京粵財(cái)JW萬豪酒店隆重召開。在大會(huì)現(xiàn)場(chǎng),道客巴巴CTO劉斌接受了記者采訪,結(jié)合道客巴巴文檔分享平臺(tái)實(shí)際發(fā)展情況及現(xiàn)有技術(shù)架構(gòu),深入解析了道客巴巴對(duì)億級(jí)文檔的概念理解以及對(duì)億級(jí)文檔的數(shù)據(jù)挖掘與應(yīng)用。

2016年8月26-27日,由51CTO.com主辦的【W(wǎng)OT2016移動(dòng)互聯(lián)網(wǎng)技術(shù)峰會(huì)】在北京粵財(cái)JW萬豪酒店隆重召開。自2012年以來,WOT品牌大會(huì)秉承專注技術(shù)、服務(wù)技術(shù)人員的理念已經(jīng)成功舉辦十一屆,不僅積累了大量的專家資源,更獲得廣大IT從業(yè)者和技術(shù)愛好者的認(rèn)可和好評(píng),并成為業(yè)界重要的技術(shù)分享及人脈拓展平臺(tái)。

會(huì)議現(xiàn)場(chǎng),道客巴巴CTO劉斌接受了記者采訪,結(jié)合道客巴巴文檔分享平臺(tái)實(shí)際發(fā)展情況及現(xiàn)有技術(shù)架構(gòu),深入解析了道客巴巴對(duì)億級(jí)文檔的概念理解以及對(duì)億級(jí)文檔的數(shù)據(jù)挖掘與應(yīng)用。

 

[[170767]]

道客巴巴CTO劉斌


道客巴巴:億級(jí)文檔分享平臺(tái)

作為在線文檔分享平臺(tái),道客巴巴致力于為數(shù)億互聯(lián)網(wǎng)用戶打造自由交流與平等學(xué)習(xí)的開放式互動(dòng)平臺(tái),讓更多用戶在分享知識(shí)中提升自我。經(jīng)過多年發(fā)展,用戶分享至道客巴巴的文檔數(shù)量已經(jīng)超過了10億,文檔內(nèi)容涵蓋了考試資料、教學(xué)課件、學(xué)術(shù)論文、應(yīng)用文書、企業(yè)文案、行業(yè)研究資料等幾十個(gè)領(lǐng)域。

記者了解到,在文檔分享領(lǐng)域,道客巴巴注重文檔以質(zhì)為本,服務(wù)以人為本,技術(shù)以新為本。作為國(guó)內(nèi)首家提供免費(fèi)全文閱讀的文檔分享平臺(tái),道客巴巴實(shí)現(xiàn)了從連接人與信息向連接人與服務(wù)轉(zhuǎn)換的飛躍。道客巴巴現(xiàn)有的文檔分享平臺(tái)、任務(wù)互助平臺(tái)、企業(yè)文庫(kù)等產(chǎn)品既能給用戶提供價(jià)值,同時(shí)用戶也能給產(chǎn)品提供價(jià)值,進(jìn)而用戶與用戶之間實(shí)現(xiàn)價(jià)值的交換與滿足。

安全存儲(chǔ):10億文檔的首要挑戰(zhàn)

目前,道客巴巴的文檔數(shù)量已經(jīng)達(dá)到10億,如此海量的文檔內(nèi)容,給數(shù)據(jù)存儲(chǔ)技術(shù)帶來了哪些挑戰(zhàn)?

劉斌表示,網(wǎng)站建設(shè)初期,道客巴巴采用原始的存儲(chǔ)方式,雖然采用了Raid5架構(gòu),避免了單個(gè)硬盤故障導(dǎo)致的數(shù)據(jù)丟失,但如果計(jì)算機(jī)其他硬件出現(xiàn)故障,可能導(dǎo)致該計(jì)算機(jī)上的數(shù)據(jù)短時(shí)間內(nèi)無法正常服務(wù)。為了改善這一情況,道客巴巴結(jié)合開源軟件Hadoop的分布式架構(gòu),并對(duì)小的文檔文件進(jìn)行自定義索引合并,生成適合Hadoop存儲(chǔ)的大文件,避免了Hadoop小文件過多導(dǎo)致的性能問題。同時(shí),道客巴巴通過多副本的形式進(jìn)行存儲(chǔ),以保證單臺(tái)計(jì)算機(jī)出現(xiàn)故障時(shí),其他計(jì)算機(jī)可以將故障的數(shù)據(jù)備份,從而保證數(shù)據(jù)的安全存儲(chǔ)。

文檔去重:十億文檔的冗余問題

目前,道客巴巴用戶數(shù)已達(dá)7000萬,每天上傳大量文檔,其中難免會(huì)有重復(fù)文檔,如何避免相同或相似的文檔被重復(fù)上傳并發(fā)布?對(duì)此,道客巴巴特別建立了文檔驗(yàn)重去重技術(shù)體系:積累了百億級(jí)的驗(yàn)重基礎(chǔ)數(shù)據(jù)元,采用了分布式的并行計(jì)算方式,高效的檢測(cè)出文檔是否重復(fù)并得到文檔內(nèi)容的重復(fù)率,對(duì)于相同或相似的文檔進(jìn)行了有效過濾,保證了文檔內(nèi)容的***性和優(yōu)質(zhì)性。

數(shù)據(jù)挖掘:全文檢索及智能分類

在應(yīng)對(duì)存儲(chǔ)和去重挑戰(zhàn)的同時(shí),為了給用戶提供更高質(zhì)量的服務(wù),道客巴巴對(duì)數(shù)億優(yōu)質(zhì)文檔進(jìn)行了更深入的數(shù)據(jù)挖掘,讓用戶在數(shù)億文檔中快速、精確的檢索到自己需要的內(nèi)容,同時(shí),網(wǎng)站可以根據(jù)用戶的閱讀行為,主動(dòng)為用戶推薦更加符合用戶需求的文檔。

道客巴巴采用了全文檢索技術(shù),對(duì)數(shù)億文檔內(nèi)容進(jìn)行了分詞索引,采用了數(shù)十臺(tái)高性能服務(wù)器進(jìn)行分布式并行全文檢索,將檢索結(jié)果匯總到主服務(wù)器并進(jìn)行文檔排序,將優(yōu)質(zhì)文檔毫秒級(jí)展示給用戶。

由于道客巴巴用戶的分散性,導(dǎo)致上傳的部分文檔未能精確匹配已有分類。為了提高文檔分類的準(zhǔn)確性,道客巴巴特別采用了智能分類技術(shù)解決方案。經(jīng)過多年的積累,每個(gè)分類下匯集了大量精確文檔作為計(jì)算機(jī)學(xué)習(xí)樣本,通過智能分類算法,對(duì)未知文檔進(jìn)行有效分類。

挑戰(zhàn)與機(jī)遇:文檔服務(wù)的未來

目前,大部分文檔閱讀平臺(tái)基本都采用Flash閱讀方案,隨著HTML5技術(shù)的發(fā)展,F(xiàn)lash逐漸被替代,文檔的在線閱讀方案也將面臨技術(shù)改革,陸續(xù)過渡到HTML5的閱讀方式,但由于HTML5在文檔的內(nèi)容保護(hù)方面尚存欠缺,如何保證文檔內(nèi)容的安全性,成為此次技術(shù)改革的難點(diǎn)。針對(duì)此次難點(diǎn),道客巴巴研發(fā)團(tuán)隊(duì)綜合了國(guó)內(nèi)外多方面經(jīng)驗(yàn),為下一步技術(shù)過渡打好基礎(chǔ)。另外,在搜索和驗(yàn)重方面,業(yè)內(nèi)所采用的方法很難實(shí)現(xiàn)語義上的識(shí)別,道客巴巴已經(jīng)突破了同義詞的重復(fù)識(shí)別,但是在語義分析上同樣面臨著巨大挑戰(zhàn),解決這一技術(shù)難題,是道客巴巴提升文檔服務(wù)的努力方向與重要目標(biāo)。

以上是51CTO.com記者從【W(wǎng)OT2016移動(dòng)互聯(lián)網(wǎng)技術(shù)峰會(huì)】一線為您帶來的精彩報(bào)道。更多精彩內(nèi)容報(bào)道,敬請(qǐng)持續(xù)關(guān)注!

責(zé)任編輯:鳶瑋 來源: 51cto
相關(guān)推薦

2016-10-31 11:38:36

文檔數(shù)據(jù)

2012-05-23 09:40:09

HTML5

2022-04-27 07:37:42

ReactReact18

2012-06-27 09:45:41

ibmdw

2018-05-23 09:03:36

2009-03-05 11:02:12

NTP列式壓縮云計(jì)算

2015-07-17 15:56:33

Office2007

2015-09-21 09:20:55

2009-01-19 16:44:31

數(shù)據(jù)挖掘沃爾瑪應(yīng)用

2012-07-06 16:19:23

華為服務(wù)器

2015-10-15 17:58:29

阿里云大數(shù)據(jù)云棲大會(huì)

2011-07-29 15:22:05

XCode4 Cocos2D 文檔集成

2011-05-16 11:14:28

惠普掃描儀評(píng)測(cè)

2016-10-17 16:19:43

數(shù)據(jù)挖掘問題

2016-05-23 15:42:07

數(shù)據(jù)挖掘

2014-08-06 09:00:55

2018-09-07 18:25:47

2014-03-10 17:00:31

2020-09-28 10:05:57

數(shù)據(jù)工具技術(shù)

2018-08-27 14:44:42

文檔云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)