偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="ncc1t"></table>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

第22期百度技術(shù)沙龍總結(jié)：數(shù)據(jù)挖掘的價(jià)值

原創(chuàng)

作者：楊賽 2012-01-10 09:10:03

本周六下午的百度技術(shù)沙龍將主題定為《海量用戶的數(shù)據(jù)挖掘與行為分析》，兩個(gè)主講人分別來自百度與人人網(wǎng)，話題分別專注于搜索引擎算法的評(píng)估以及社交網(wǎng)絡(luò)推薦算法的評(píng)估。數(shù)據(jù)挖掘本身其實(shí)是個(gè)相當(dāng)古老的學(xué)科，在科研領(lǐng)域一直是必備技能之一。

【51CTO報(bào)道】一群傳統(tǒng)行業(yè)的從業(yè)者們和一群互聯(lián)網(wǎng)人聚在一起，討論的不再是企業(yè)信息化的問題，而是數(shù)據(jù)挖掘的話題。

2012年1月7日下午的百度技術(shù)沙龍將主題定為《海量用戶的數(shù)據(jù)挖掘與行為分析》，兩個(gè)主講人分別來自百度與人人網(wǎng)，話題分別專注于搜索引擎算法的評(píng)估以及社交網(wǎng)絡(luò)推薦算法的評(píng)估。

相對(duì)于軟件開發(fā)和服務(wù)運(yùn)維等“傳統(tǒng)”IT技術(shù)而言，數(shù)據(jù)挖掘是一個(gè)完全不同的學(xué)科。百度技術(shù)沙龍的兩個(gè)分享者的話題，一個(gè)偏重于方法論，一個(gè)偏重統(tǒng)計(jì)學(xué)，令當(dāng)天的不少聽眾感覺有一些理解上的門檻；但數(shù)據(jù)挖掘本身其實(shí)是個(gè)相當(dāng)古老的學(xué)科，在科研領(lǐng)域一直是必備技能之一?？蒲蓄I(lǐng)域之外，數(shù)據(jù)挖掘早期主要應(yīng)用于金融行業(yè)的客戶需求預(yù)測(cè)、保險(xiǎn)行業(yè)的客戶風(fēng)險(xiǎn)分析等情景，因?yàn)榻鹑谛袠I(yè)在當(dāng)時(shí)是數(shù)據(jù)積累最為密集、對(duì)數(shù)據(jù)需求最高的行業(yè)。

隨著互聯(lián)網(wǎng)服務(wù)規(guī)模的擴(kuò)大，有心人為了改進(jìn)服務(wù)、增強(qiáng)競爭力以及其他一些原因而早早開始有意識(shí)的跟蹤搜集用戶使用服務(wù)過程中的一些數(shù)據(jù)。在這個(gè)過程中，越來越多的泛對(duì)象服務(wù)轉(zhuǎn)變成為有針對(duì)性的個(gè)性化服務(wù)。最容易理解的場(chǎng)景是電子商務(wù)：個(gè)性化推薦服務(wù)目前已經(jīng)可以媲美很多商場(chǎng)里的導(dǎo)購小姐。網(wǎng)絡(luò)營銷與廣告系統(tǒng)的場(chǎng)景需求與電子商務(wù)的情景類似。傳統(tǒng)行業(yè)方面也有很多潛在的需求，比如醫(yī)療方面，不同個(gè)體的病史數(shù)據(jù)對(duì)于其下一步治療應(yīng)該采取哪些方案有極為重大的參考意義；傳統(tǒng)的商場(chǎng)，需要評(píng)估柜臺(tái)貨架如何擺放能夠達(dá)到最高的效率；制造業(yè)領(lǐng)域，需要評(píng)估怎樣的材料、怎樣的環(huán)境和怎樣的流程能夠更高效的制造質(zhì)量更好的產(chǎn)品。

任何領(lǐng)域的數(shù)據(jù)挖掘都面臨兩大問題：一，你并不完全知道應(yīng)該去收集哪些數(shù)據(jù)，而你能夠收集的數(shù)據(jù)終究是有限的；二，你通過數(shù)據(jù)挖掘分析得出了一些結(jié)論，但是這個(gè)結(jié)論并不容易證實(shí)或證偽。在實(shí)驗(yàn)結(jié)果可靠性高的領(lǐng)域，這個(gè)問題相對(duì)容易，比如你想知道一個(gè)鉛球掉到地上能砸出多大個(gè)坑，你多少知道應(yīng)該去測(cè)量鉛球的尺寸和質(zhì)量，它下落的高度和角度等參數(shù)，并通過實(shí)踐來推算；然而在大多數(shù)場(chǎng)景，需要考慮的參數(shù)是很多的，而設(shè)計(jì)再精良的實(shí)驗(yàn)也只能給你一個(gè)不怎么精確的結(jié)論。

[[55536]]
百度網(wǎng)頁搜索部彭滔

作為搜索引擎，百度的目的是要讓搜索結(jié)果的呈現(xiàn)次序更好。何謂更好？這是設(shè)計(jì)任何算法之前必須考慮好的問題。“好”必須變成一個(gè)可以量化的指標(biāo)。來自百度網(wǎng)頁搜索部的彭滔就跟我們介紹了他們的經(jīng)驗(yàn)。在百度搜索的發(fā)展歷程中，“好”的評(píng)估方式大致被分為三個(gè)階段。彭滔取了一個(gè)query用作例子：“給我一片關(guān)于春天的作文，要長的，快點(diǎn)”。這個(gè)例子的目的性很強(qiáng)，評(píng)判的主要標(biāo)準(zhǔn)在于解決特定問題。

第一個(gè)階段，是由PM來給搜索排序中的第一頁的結(jié)果打分，0分是最差，4分是最好。如果4分結(jié)果靠前，這個(gè)算法在這個(gè)query上就被定義為一個(gè)較好的算法：

第二個(gè)階段是第一個(gè)階段的多人版，即抽取較多的query，從外包公司請(qǐng)來一大批兼職人員（evaluator）來評(píng)分，然后取平均值。對(duì)于正確率高的evaluator給予獎(jiǎng)勵(lì)，即可以認(rèn)領(lǐng)更多的任務(wù)。

第三個(gè)階段徹底改變了“好”的定義：直接在線上環(huán)境進(jìn)行AB testing，根據(jù)首次點(diǎn)擊的上升/下降情況，以及用戶翻頁的次數(shù)等指標(biāo)來評(píng)估。為了減少隨機(jī)性對(duì)實(shí)驗(yàn)結(jié)果的影響，還采取了空轉(zhuǎn)、反轉(zhuǎn)等步驟來加固實(shí)驗(yàn)。

究竟百度這樣的評(píng)估方法是否給我們帶來了一個(gè)越來越好的搜索引擎？相信每個(gè)用戶心里，都會(huì)對(duì)“好的搜索引擎”有不同的定義；而由于每個(gè)用戶的query不同，結(jié)論的偏差肯定是有的。最后，彭滔也提出了對(duì)個(gè)性化搜索的展望，相信這個(gè)領(lǐng)域仍有非常大的挖掘空間。

人人網(wǎng)是一個(gè)社交網(wǎng)站。本次進(jìn)行分享的是人人網(wǎng)Social Graph的算法工程師張葉銀，他的目的則是要讓每個(gè)用戶主頁那有限的幾十個(gè)推薦位上出現(xiàn)盡可能多的讓用戶感興趣的朋友、話題、游戲等內(nèi)容。

社會(huì)化網(wǎng)絡(luò)就好比一個(gè)社會(huì)一般。這個(gè)推薦系統(tǒng)就好比在海淀區(qū)這么大一塊地方上方出現(xiàn)一個(gè)爪子，這個(gè)爪子從什么地方拎起一個(gè)人放在我的面前，它要如何知道我會(huì)對(duì)這個(gè)人感興趣？他和我有共同的朋友嗎？他和我有共同的話題嗎？他和我喜歡同一個(gè)明星或商品嗎？

張葉銀的分享中，列出了一些通用的量化指標(biāo)：年齡，學(xué)校，地域，性別；訪問了誰的個(gè)人主頁、相冊(cè)，給誰分享過信息，給誰留言或評(píng)論過……很顯然，這些指標(biāo)的數(shù)量很多，而且一眼看上去很難評(píng)判哪些是更加重要的指標(biāo)。所以，推薦算法的設(shè)計(jì)可以說是一個(gè)漫長的試錯(cuò)過程：

而目前可以依賴的實(shí)驗(yàn)結(jié)果，就是用戶最終在這幾十個(gè)推薦位中接受了多少個(gè)推薦。

所有這些數(shù)據(jù)挖掘的情景，算法的改良，大多不會(huì)是一個(gè)突變的過程，很可能只是精確度提升了0.1%甚至更低。然而對(duì)于百度和人人網(wǎng)的規(guī)模，0.1%的改良是值得去做的：數(shù)據(jù)的規(guī)模決定了數(shù)據(jù)挖掘的價(jià)值。隨著大數(shù)據(jù)時(shí)代來臨，數(shù)據(jù)挖掘的價(jià)值也將水漲船高，這是一個(gè)極好的機(jī)會(huì)。如果你對(duì)數(shù)據(jù)挖掘感興趣，那么建議你打好算法和統(tǒng)計(jì)學(xué)的基本功，多多關(guān)注數(shù)據(jù)挖掘的各種需求場(chǎng)景，好趕上這次發(fā)展的大潮。

有關(guān)百度技術(shù)沙龍（官方網(wǎng)站地址）：“暢想•交流•爭鳴•聚會(huì)”是百度技術(shù)沙龍的宗旨。百度技術(shù)沙龍是由百度與InfoQ中文站定期組織的線下技術(shù)交流活動(dòng)。目的是讓中高端技術(shù)人員有一個(gè)相對(duì)自由的思想交流和交友溝通的平臺(tái)。

責(zé)任編輯：yangsai 來源： 51CTO.com

百度技術(shù)沙龍數(shù)據(jù)挖掘

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<big id="7a12r"><source id="7a12r"></source></big>

<wbr id="7a12r"></wbr>