偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

獨家直播雙11全網(wǎng)動態(tài)?前黑客“勞改”帶你玩轉大數(shù)據(jù)

新聞
本期邀請星圖數(shù)據(jù)CTO崔侖帶來“獨家直播雙十一全網(wǎng)動態(tài)?前黑客“勞改”帶你玩轉大數(shù)據(jù) ”的主題分享。

本期邀請星圖數(shù)據(jù)CTO崔侖帶來“獨家直播雙十一全網(wǎng)動態(tài)?前黑客“勞改”帶你玩轉大數(shù)據(jù) ”的主題分享。

[[157005]]

分享嘉賓:星圖數(shù)據(jù)CTO 崔侖

嘉賓簡介:崔侖,知名“黑客”,搜索引擎及信息安全專家,10年互聯(lián)網(wǎng)、軟件研發(fā)經(jīng)驗。曾在阿里巴巴設計并主導開發(fā)淘寶及天貓若干一線數(shù)據(jù)產(chǎn)品,包括站內(nèi)搜索、一淘、阿里媽媽廣告引擎等。在此之前,曾任瑞星科技高級軟件工程師以及TOM軟件工程師。精通搜索引擎及高并發(fā)數(shù)據(jù)服務的架構設計研發(fā),對大數(shù)據(jù)及云計算領域有深入研究。
公司簡介:星圖數(shù)據(jù)(Syntun)是消費領域?qū)I(yè)的大數(shù)據(jù)產(chǎn)品、服務和解決方案提供商;專注為企業(yè)、互聯(lián)網(wǎng)平臺及消費者提供全方位專業(yè)數(shù)據(jù)服務。使用自主研發(fā)的大數(shù)據(jù)技術,并依靠長期積累的行業(yè)零售研究、用戶研究及數(shù)據(jù)處理經(jīng)驗,以及獨到的大數(shù)據(jù)分析體系和云計算處理技術,打造了一條為品牌制造企業(yè)、線上流通平臺以及網(wǎng)購消費者提供全方位專業(yè)數(shù)據(jù)服務的消費領域大數(shù)據(jù)服務產(chǎn)業(yè)鏈。

主要產(chǎn)品:

D-Matrix(數(shù)據(jù)矩陣)大數(shù)據(jù)分析系統(tǒng):為品牌企業(yè)提供豐富、直觀的數(shù)據(jù)查詢、分析與預測功能。D-Matrix是基于iNebula(分布式大數(shù)據(jù)獲取與存儲系統(tǒng))與WarpEngine(大數(shù)據(jù)處理與分析引擎),集成了搜索引擎、分布式計算、機器自學習算法等大數(shù)據(jù)領域的領先技術,為品牌企業(yè)提供豐富、直觀的數(shù)據(jù)查詢、分析與預測功能。
SkyScope(天鏡)線上渠道巡檢系統(tǒng):幫助企業(yè)及時了解渠道的經(jīng)營狀況、實時進行渠道巡查、發(fā)現(xiàn)和查處渠道的違規(guī)行為。SkyScope線上渠道巡檢系統(tǒng),通過搜索引擎、數(shù)據(jù)挖掘等技術,為品牌企業(yè)提供實時的渠道監(jiān)控與管理工具。幫助企業(yè)及時了解渠道的經(jīng)營狀況、實時進行渠道巡查、發(fā)現(xiàn)和查處渠道的違規(guī)行為,并以短信、郵件、APP推送等方式,實現(xiàn)實時預警。

AtomPower(原子力)SKU單品分析系統(tǒng):為企業(yè)提供單品監(jiān)控與管理工具,幫助企業(yè)及時了解單品的銷售市場狀況。AtomPower SKU單品分析系統(tǒng)擁有及時、細致的龐大的基礎數(shù)據(jù)資源。能夠?qū)崿F(xiàn)數(shù)據(jù)每日更新。強大的大數(shù)據(jù)引擎,可以實現(xiàn)快速、自由的數(shù)據(jù)展現(xiàn)、分析與追溯,以及海量的數(shù)據(jù)整理和挖掘。

以下是11月20日CTO講堂現(xiàn)場完整速記:

主持人:今天講堂開始啦,歡迎星圖數(shù)據(jù)CTO崔侖,請您跟大家介紹下自己吧。

崔侖:hi,大家好。我是星圖數(shù)據(jù)的技術負責人崔侖。我先自我介紹一下,我是2005年本科畢業(yè)參加工作的,至今剛好10年。從小就喜歡折騰電腦,大學學的電氣工程的強電方向,和計算機硬件優(yōu)點相關。畢業(yè)之后,進入了一個互聯(lián)網(wǎng)公司,tom.com。當年還能排得上號兒的一個門戶網(wǎng)站。

后來公司的SP業(yè)務下降很厲害,公司轉型,收購了ebay中國。我也是機緣巧合,被抽調(diào)去做ebay中國的站內(nèi)商品搜索。折騰了半年,也算是進入了搜索這個行業(yè),了解了搜索引擎是怎么回事,在呢么個運作原理。后來ebay業(yè)務被淘寶沖擊得比較厲害,自己做出來的東西也沒什么成就感,決定趁著年輕,換換口味,就在2007年離開了tom.com。

我相信很多做技術的人都夢想著有朝一日當一個神出鬼沒的黑客, 我也想去安全行業(yè)見識一下。于是就去了瑞星的網(wǎng)絡安全部。當時瑞星的這個部門并不做pc端的軟件,主要做一些放在機房里的設備。我們主要負責的是一個叫“防毒墻”的產(chǎn)品,就是架設在企業(yè)網(wǎng)關或者用橋模式架設在主干上的一個設備,可以過濾不加密的http協(xié)議的內(nèi)容,當然,主要是查病毒和木馬,不涉及內(nèi)容過濾。之后還有一些企業(yè)網(wǎng)站防護的產(chǎn)品,通過反向代理的方式阻擋對http服務器的攻擊。2010年,殺毒軟件的免費大戰(zhàn)之后,我離開了瑞星,加入淘寶,算是回到了搜索行業(yè)。插播一個廣告,我當時的老板叫馬杰,混跡安全行業(yè)很多很多年,在我離職后,他下海創(chuàng)業(yè),經(jīng)歷5年,被百度收購,產(chǎn)品叫《安全寶》。

離開瑞星,我去了阿里巴巴,算是重新回到了搜索行業(yè)。在阿里巴巴主要都是搜索相關的工作。

主持人:看您曾在阿里巴巴設計并主導開發(fā)淘寶及天貓若干一線數(shù)據(jù)產(chǎn)品,可否介紹一下?

崔侖:我是2010年加入阿里巴巴,2015年離開,將近5年的時間,在阿里把把內(nèi)經(jīng)歷了3個部門。第一個是當時叫做淘寶研發(fā)部搜索中心,我們組的名字叫新引擎技術。我去入職的時候這個組只有一個leader,我是第1個組員,在我填寫入職表格時,第2個組員也來報到了。這倆人現(xiàn)在一個是蘿卜兔的CEO,一個是51offer的CTO。
在搜索中心主要做了2個比較大的項目,一個是淘寶的店鋪內(nèi)搜索,就是在淘寶店鋪內(nèi)的一切瀏覽操作,都要過這個搜索引擎。包括各種分類,過濾,按關鍵字搜索。在我們改進之前,這套系統(tǒng)用了大概150臺服務器實現(xiàn),替換成我們的系統(tǒng)之后,僅用了不到30臺服務器。主要是實現(xiàn)了性能的提升。

之后,我們的隊伍不斷壯大,從三個人的團隊,一直到十多人的豪華陣容,開始改進替換淘寶網(wǎng)的搜索引擎(淘寶都管它叫主搜索)。同樣,一年之后,主搜索的性能也大大的提升。在搜索中心,每天主要是跟磁盤/內(nèi)存/cpu死磕,想方設法的榨干服務器的每一點資源。但是,當時的數(shù)據(jù)量雖然很大,我們這一幫做c語言出身的人,并沒有使用任何的云計算技術。每天任務最繁重的索引Build工作,雖說是在多機的集群中完成的,但調(diào)度基本靠腳本+nfs。

之后,2013年,抽調(diào)了一部分人去阿里媽媽事業(yè)部,去改進淘寶直通車的引擎。直通車的引擎跟搜索引擎非常相似,但是沒有分詞,內(nèi)容update頻率很高,可靠性要求也相對于搜索引擎更高(因為涉及到錢)。這次,我們在重新設計引擎,提升性能的同時,也讓我開始接觸到了云計算。首先,離線build工作在hadoop上用streaming job方式實現(xiàn),build速度實現(xiàn)了質(zhì)的提升。另外,也讓我見識到了在hadoop、odps、storm等大數(shù)據(jù)處理框架的實力。就拿索引更新來說,在2013年時,廣告引擎的實時更新,已經(jīng)可以做到秒級。同時,也讓我從側面見識到了云平臺的潛力,比如對點擊日志的分析,復雜的模型,數(shù)千臺服務器,運行好幾個小時,計算出的結果對直通車引擎的效果提升奠定了堅實的基礎。

主持人:您決定加入星圖數(shù)據(jù)開始數(shù)據(jù)方面的創(chuàng)業(yè)是看到了什么發(fā)展機遇么?最初的想法是怎樣的?

崔侖:我和星圖數(shù)據(jù)的一個創(chuàng)始人(Melvin)中學6年是同學。他在2013年底就找我想一起出來創(chuàng)個業(yè),但那時我因為個人原因,無法從阿里出來,于是就幫忙介紹之前的朋友,同事,希望能來跟他一起做。但是一直沒有能夠?qū)ι涎蹆旱?。反倒是我自己,在不停的接觸中,了解了星圖數(shù)據(jù),知道了他們是怎樣一批人,在做怎樣的事情,偶爾還會來跟星圖的工程師一起討論、解決些問題。當時,我在阿里也剛剛接觸到大數(shù)據(jù)的概念,覺得這個東西挺有意思的,自己也有一些云計算的開發(fā)經(jīng)驗,所以一直關注著星圖。
2015年初,我跟另外一個中學同學,決定一起出來做一些事情,于是立即從阿里辭職出來。但我們都沒有運營公司運轉的經(jīng)驗,于是毫無懸念的失敗了。同時也發(fā)現(xiàn),目前大部分火熱的互聯(lián)網(wǎng)產(chǎn)品,至少在初期,技術只是輔助,產(chǎn)品和運營才是最重要的,而我作為一個開發(fā)了10年底層應用的程序員,能夠讓我發(fā)揮價值的初期項目是在是太少了。這時我意識到,星圖就是這樣一個技術導向,有一定基礎,又跟著大數(shù)據(jù)的概念,能夠體現(xiàn)我的價值的公司。于是很快,就加入了星圖數(shù)據(jù)。

主持人:目前星圖數(shù)據(jù)的情況以及技術團隊構成,請介紹一下。

崔侖:星圖數(shù)據(jù)從創(chuàng)立到現(xiàn)在大約2年時間,目前團隊有50人。我們以大數(shù)據(jù)產(chǎn)品為媒介,幫助每一個企業(yè)和海量信息對接,提供場景化的數(shù)據(jù)應用。現(xiàn)在我們的主要客戶集中在傳統(tǒng)制造企業(yè),以及一些零售流通企業(yè)。我們現(xiàn)在提供的產(chǎn)品有三個應用方向,DaaS,供應鏈金融,C2B解決方案。
目前星圖數(shù)據(jù)技術團隊大約占7成,戰(zhàn)斗力很強。大家在官網(wǎng)上看到的產(chǎn)品目前都使用php開發(fā),簡單而高效。后臺的離線數(shù)據(jù)處理部分用到了不少目前比較流行的框架,比如hadoop /kafka/spark/spark streaming之類。我們的數(shù)據(jù)處理集群,目前有超過100臺服務器,并且在未來一年內(nèi),這個數(shù)字預計還會翻番。

主持人:麻煩您簡單介紹下星圖數(shù)據(jù)目前提供的產(chǎn)品吧。并從具體產(chǎn)品適用場景來闡述一下。

崔侖:我們現(xiàn)在主要有幾個業(yè)務方向,其中已經(jīng)產(chǎn)品化的是DaaS產(chǎn)品線,以不同的數(shù)據(jù)應用在不同的場景解決商業(yè)問題。我們提供了3個在線DaaS產(chǎn)品。D-Matrix、AtomPower 、SkyScope。分別用于宏觀數(shù)據(jù)分析,微觀數(shù)據(jù)分析,線上渠道巡檢。為決策團隊,營銷團隊,渠道管理團隊提供不同場景的數(shù)據(jù)服務。
另一個方向是供應鏈金融方向。就是零售商信用評級和貨品估值服務,幫助零售商獲得供應鏈融資。這個在媒體上已經(jīng)有所報道,我們已經(jīng)開始在和京東金融合作。
第三個方向是C2B解決方案。就是消費者驅(qū)動的產(chǎn)品設計以及精準至個體的回溯式營銷。現(xiàn)在市場上有很多廠商都正在嘗試C2B模式的產(chǎn)品設計,但是我們可以很負責任的說,我們已經(jīng)和知名的多家制造業(yè)巨頭合作將C2B產(chǎn)品落地,預計明年就會面世,大家可以期待一下。

主持人:星圖的產(chǎn)品有什么獨特之處?也就是和同類產(chǎn)品競爭優(yōu)勢有哪些?

崔侖:首先,線上零售數(shù)據(jù)領域,沒有我們同類的產(chǎn)品。

傳統(tǒng)的線下咨詢和市場調(diào)研公司和我們一樣,也會提供市場信息的線下采樣數(shù)據(jù)報告,而我們提供的是線上全網(wǎng)實時動態(tài)數(shù)據(jù)。宏觀可至市場份額,微觀可至單SKU的量價額單用戶的個人偏好。

另一方面,我們和新興的互聯(lián)網(wǎng)數(shù)據(jù)公司也不一樣,我們的所有產(chǎn)品服務都帶有行業(yè)邏輯,因為我們的創(chuàng)始人團隊都在零售行業(yè)混跡多年,非常了解傳統(tǒng)企業(yè)的痛點。于是我們的產(chǎn)品都設計成面向業(yè)務決策人員,無需單獨部署的云端數(shù)據(jù)應用。

主持人:請介紹一下雙十一你們做了哪些監(jiān)測?從雙十一的活動數(shù)據(jù)中,得出了哪些有意思的結論么?

崔侖:今年雙十一當天,我們監(jiān)測了全網(wǎng)18家主流B2C平臺的銷售情況數(shù)據(jù)。其實這也是我們平時監(jiān)測的數(shù)據(jù),只是在雙十一當天,我們將監(jiān)測頻率提高,進行直播。直播時,我們的監(jiān)測數(shù)據(jù)大約延遲2小時。

我們監(jiān)測到今年雙十一線上銷售總額1229.4億。我們也看到了一些有意思的現(xiàn)象。比如我們發(fā)現(xiàn)很多新興互聯(lián)網(wǎng)品牌正在崛起,發(fā)展趨勢非??植溃芸赡茉诓痪玫膶?,某些新興品牌可以和現(xiàn)在的知名品牌一爭高下。

同時,我們發(fā)現(xiàn)相比2014年雙十一,客單價下降了10%,這表明網(wǎng)購的趨勢呈上升的態(tài)勢,用戶的消費習慣更向線上轉移。

今年雙十一全網(wǎng)銷量最高的品類是手機,賣出了712萬臺,10年以前,手機僅僅作為一個日常使用的工具,電話短信。而現(xiàn)在,手機的更新?lián)Q代速度很快,使其已經(jīng)顯示出了快速消費品的特性。712萬臺手機是什么概念,從這些手機里提煉黃金,能提煉出200公斤。

還有一些有趣的數(shù)據(jù),在之前星圖雙十一直播發(fā)布的大圖中展示了,大家可以去搜索一下。

主持人:雙十一的直播僅有星圖一家在做?技術與去年雙十一相比有哪些提升?

崔侖:雙十一的數(shù)據(jù)直播,除了天貓做了自己平臺的,全網(wǎng)的數(shù)據(jù)直播只有我們星圖數(shù)據(jù)在做,并且今年已經(jīng)是第二年做這個事情了。

今年雙十一,首先我們監(jiān)測的平臺增加,需要分析的數(shù)據(jù)量增加。2015年互聯(lián)網(wǎng)創(chuàng)業(yè)非?;馃?,也出現(xiàn)了很多新晉的電商平臺,我們在雙十一直播時,也將這些平臺納入我們的數(shù)據(jù)源,同時,網(wǎng)購消費的上漲趨勢我們也納入了更多的熱點品類。總體采集的數(shù)據(jù)量比去年翻了幾倍。(目前我們?nèi)粘2杉刻?T,雙十一采集的數(shù)據(jù)相對較少,每一輪大約400-500G,但是輪數(shù)很多)

另外,我們對數(shù)據(jù)的處理效率大大提升了。在今年,我們的系統(tǒng)進行了很大的改進,引入了很多目前比較先進的技術。比如Kafka,Spark,同時,之前使用的hadoop 系統(tǒng),也進行了很大的優(yōu)化,這直接導致我們的數(shù)據(jù)處理效率大大提高。去年這個時間點需要計算兩小時的數(shù)據(jù),在今年只需要10到15分鐘。

最后,今年雙十一對數(shù)據(jù)的采集頻率變高。去年我們采集的頻率大概為1天8次。今年,因為數(shù)據(jù)處理效率大大提高,雖然采集數(shù)據(jù)量翻了幾倍,我們?nèi)匀荒軌蛱岣卟杉念l率,達到了12-15次。

主持人:那么流化數(shù)據(jù)處理體系有什么樣的優(yōu)勢呢?

崔侖:在今年,星圖的數(shù)據(jù)處理架構進行了比較大的改進。主要是引入了kafka消息隊列和Spark Streaming框架。整個數(shù)據(jù)處理過程,實現(xiàn)了流水線作業(yè)。我來介紹一下完整的數(shù)據(jù)處理流程。

首先,我們有一個url地址庫,里面保存的是所有單品的url,每一輪的采集,都由這個地址庫觸發(fā)。這里解釋一下,各平臺的列表頁是單獨維護的,并不在常規(guī)的采集系統(tǒng)內(nèi),這是為了確保采集系統(tǒng)能夠定時定量完成采集。

之后,是一個URL采集調(diào)度系統(tǒng),每次啟動時,從URL庫中加載所有要采集的地址,并根據(jù)采集總時間,URL所屬的域名進行分布打散,形成一個列表,哪個時間點,要采集哪些URL。 然后根據(jù)這個列表,按時將需要采集的URL送入Kafka中的URL隊列。

Spider程序通過Kafka的URL隊列消息,能夠立即獲取到需要采集的URL,下載頁面。經(jīng)過簡單的轉碼、壓縮等操作,附加上采集的時間狀態(tài)等信息,將這些信息送入Kafka中的另一個Page隊列。

對于Page隊列的處理,有兩個分支。都運行在Spark Streaming中。

其中一個分支負責生成下級的url。比如現(xiàn)在很多的網(wǎng)站大量的采用了AJAX,那么單品頁很可能不包含某些關鍵信息,比如價格、促銷等。那么在這里,需要計算生成單品的價格促銷頁面的url,送入Kafka的url隊列中,供spider程序抓取。

另一個分支從Page隊列獲得網(wǎng)頁原始信息,準實時地保存到hdfs上。

之后,運行在hadoop和spark上的數(shù)據(jù)處理ETL流程會定時啟動,將采集系統(tǒng)獲取的數(shù)據(jù)統(tǒng)一處理,各種統(tǒng)計分析,生成最終的結果。

主持人:iNebula(數(shù)據(jù)采集系統(tǒng))和WarpEngine(數(shù)據(jù)處理系統(tǒng))的效率提升了多少倍?

崔侖:數(shù)據(jù)采集系統(tǒng),在雙十一直播中,如果只從采集時間上看,提升了5倍以上。我們將網(wǎng)絡出口進行了統(tǒng)一管理,充分利用了我們的網(wǎng)絡帶寬。并且在提高效率的同時,還大大精簡了服務器的數(shù)量。

數(shù)據(jù)處理系統(tǒng)效率大約提升了8-10倍。這個原因也有很多方面。首先,最簡單直接的是在星圖在這一年,隨著公司不停的發(fā)展,服務器數(shù)量翻了一番。另外,今年雙十一的數(shù)據(jù)處理,已經(jīng)100%在云計算框架下運行,得益于hadoop和spark的高效,使我們有了這樣的成績。

主持人:技術方面,為什么采用Kafka?優(yōu)勢是什么?

崔侖:Kafka很適合在我們的流水線中作為“線”來使用,作為各個模塊之間的數(shù)據(jù)交互工具。它的吞吐率非常高。并且,Kafka還具有水平擴展能力,可以按需求增加節(jié)點,擴充容量,或進一步提高吞吐率。

同時,Kafka對于現(xiàn)有的流行的分布式處理系統(tǒng)都有非常好的兼容性,比如在Spark、Storm應用中,都只需要很少的代碼就能夠與Kafka完美地集成。

主持人:每日完成對5TB數(shù)據(jù)的處理背后的技術支撐是什么?
崔侖:首先,我們的技術團隊非常給力,能夠使內(nèi)部的產(chǎn)品、工具快速升級迭代。同時,大家對現(xiàn)有的先進技術,都會去接觸嘗試,如果有適合我們的東西,都愿意拿到我們的系統(tǒng)里來。

像Spark Streaming,Kafka這樣的東西就是這樣引入的。

有人會問為什么不用Storm,而選擇Spark Streaming。Storm 處理數(shù)據(jù)更實時一些,可以做到1秒以內(nèi)的延遲。但是星圖目前的使用場景,都是離線數(shù)據(jù)處理,對數(shù)據(jù)延遲的要求并沒有那么高。另外,在使用Spark Streaming之前,我們就有Spark集群在用于生產(chǎn)服務。主要是做一些情感分析,模型推演等算法相關的事情。所以,最終選擇了Spark Streaming,對數(shù)據(jù)進行“準實時”處理。

主持人:對于數(shù)據(jù)挖掘領域的未來發(fā)展前景,會是怎樣的,談談您的看法?

崔侖:我覺得大數(shù)據(jù)未來的發(fā)展方向應該是行業(yè)垂直化。在去年到現(xiàn)在的O2O大戰(zhàn)下,租車、約車、美甲、按摩、家教、外賣,這些以前同城交易網(wǎng)站通吃的類目,都被不同的垂直APP切了下來,一個APP只做一個品類,所有的需求都按照這個品類的行業(yè)特性去訂制,給用戶極致的使用體驗。我們認為數(shù)據(jù)挖掘領域未來也會更加垂直化。

我們做電商行業(yè)的數(shù)據(jù)挖掘,把線上大量的不同數(shù)據(jù)源匯聚到一起,然后有在零售咨詢行業(yè)經(jīng)驗豐富的數(shù)據(jù)科學家?guī)ьI分析團隊,根據(jù)零售業(yè)的特性,設計模型,分析數(shù)據(jù),得出最靠譜的結論。10多年前,百度有個電視廣告,唐伯虎對著一個老外說“百度更懂中文”。我相信我們現(xiàn)在可以對一些線上數(shù)據(jù)挖掘公司說“我們更懂零售”,同時,也可以對傳統(tǒng)的咨詢公司說,“我們更懂互聯(lián)網(wǎng)”。

主持人:看到您對于數(shù)據(jù)挖掘及安全等方面都有多年的技術一線經(jīng)歷,請結合您自己這一路技術之路上的提升談談技術人該如何做到高效學習和提升技能?

崔侖:我一直認為做技術是一個靠經(jīng)驗吃飯的活兒,沒有什么速成之道。之前在阿里巴巴的時候,每年校招都很熱鬧,但最終能夠面試通過留下的,總是那么一兩個學校占了很大比例。我也經(jīng)常和他們聊,他們在學校的時候,都有大量的項目實踐經(jīng)驗,甚至本科都有實際的項目。項目經(jīng)驗加上學校里那種學術氣氛,讓他們迅速的積累了經(jīng)驗,進入公司能夠很快上手,馬上投入生產(chǎn)。

我覺得學習技術上,有些細節(jié)的東西,需要深入研究。比如精通C語言的人,一定非常清楚數(shù)據(jù)結構在內(nèi)存里是什么樣子的;做通信模塊的人,一定對select/epoll的原理及優(yōu)缺點非常了解;做互聯(lián)網(wǎng)前后端的人,我相信都對HTTP協(xié)議非常了解,都能夠用telnet訪問一個不加密的web服務器吧。雖說有這么多方向,但這些技術其實都是相通的,不會說我花了很多時間精通了這樣一個東西,以后萬一跳槽或者轉型就沒用了。

另外,現(xiàn)在有很多新鮮的平臺、工具。像Spark,看到網(wǎng)上很多人拿出來說我們用了它,但是真正自己用的時候,又發(fā)現(xiàn)網(wǎng)上的資料很少,或者說都是些太基礎的,甚至僅僅是個HelloWorld。我覺得這樣的新鮮事物需要拿過來自己動手試一下,這些都是別人為我們做好的工具,嘗試了才知道怎么用,遇到場境,才能自然而然的想到用它們。

主持人:請結合您的切身體會談談一名合格的CTO或技術團隊管理者應該是怎樣的?

崔侖:我覺得技術團隊的小伙伴們都比較單純,所以和它們首先要以一種隊友的心態(tài)去相處。作為一個團隊的帶頭人,首先要對所有的產(chǎn)品線都深入了解,根據(jù)產(chǎn)品的使用場景,時效性要求,穩(wěn)定性要求等方面,選取最適合的技術模型。其次,要能夠給團隊明確的指出方向。當然,不是每一次的決策都是正確的或者是最優(yōu)的,失敗了勇于承擔責任,對于個人來說,這也是一種經(jīng)驗,一種技術積累。

另外,對系統(tǒng)的可讀性可維護性還有文檔不能放寬要求。很多人都能感受到,尤其是在創(chuàng)業(yè)公司中,人員的流動性相對于BAT來說,要高很多。每一次工作交接,都認真對待,仍然難免有遺漏,在員工離職后還需要麻煩人家講解系統(tǒng)中的一些細節(jié)。

最后,還要有一些長遠的考慮。雖然我們不能像那些國際巨頭一樣,一個系統(tǒng)做出來,幾年都不需要重構,但看到產(chǎn)品半年的發(fā)展應該還是可以的,該預留的接口預留出來,不能頻繁的對系統(tǒng)重構。

主持人:技術團隊的績效該怎么做才相對合理?能結合您過往的一些經(jīng)歷展開談談么?

崔侖:星圖數(shù)據(jù)目前沒有嚴格的績效考核標準,我覺得目前高速發(fā)展的狀態(tài)不應該再給團隊成員更大的壓力。小伙伴們都很拼,勞逸結合。比如雙十一之前大家都很忙,各種為雙十一訂制的系統(tǒng)和工具需要開發(fā)和完善的測試?,F(xiàn)在雙十一過了,工作任務相對來說輕松一些,讓大家有時間靜下心來,研究一下自己感興趣的技術。

我在來星圖之前,在三家公司工作過,感覺績效考核最嚴格的是阿里。原則上是強制的2-7-1分配,即2成超出預期,7成符合預期,1成未達到預期。雖說有些嚴苛,但是也給了大家動力,制造一種緊張競爭的氛圍。但是我覺得在規(guī)模較小的公司里這樣的規(guī)則并不很合適。對于正處在高速發(fā)展期的公司來說,人才是最寶貴的,并且我一直認為,相對于大團隊來說,小團隊的工作效率更高,凝聚力更強,相對的產(chǎn)出比也就更高。所以我覺得在創(chuàng)業(yè)公司,績效需要人性化一些,靈活一些,以鼓勵和引導為主,畢竟大家都是做了那么多年技術過來的,誰沒有個犯懶的時候。

主持人:對想在技術路線上走得更遠的人,您都有什么建議和忠告?推薦一些您覺得非常不錯的資料或者書籍吧。

崔侖:走技術路線,我想大家都會有一個自己的目標或者說是夢想。有人研究網(wǎng)絡安全,夢想就是當一個黑客;有人研究底層的破解調(diào)試技術,可能是夢想著能夠在內(nèi)存和匯編代碼中游走;有人研究各種前端技術,夢想著做出最炫酷的界面。我想說的是,大家做技術這行,必須要問問自己,真的喜歡做技術嗎?還是因為這個行業(yè)工作好找,薪水不錯,所以硬擠進來的。
我在阿里的時候,因為有了創(chuàng)業(yè)的想法,曾經(jīng)去某培訓機構咨詢過IOS/Android開發(fā)的速成班。發(fā)現(xiàn)他們標榜的就是只要培訓班畢業(yè)了,就能找到月薪多少的工作。我覺得這是不靠譜的。沒有興趣,沒有目標,為了拿工資而做技術,是沒有發(fā)展前景的。所以我想說,要做技術,堅定的走這條路,首先問問自己,想要成為一個什么樣的人。

對于書籍和資料,現(xiàn)在技術類的資料在網(wǎng)上非常多,但個人感覺在檢索資料,尤其是代碼相關的資料時,百度不太好用。百度很懂中文,但英文和代碼它不太懂。試試google和bing吧。另外,我不太建議直接拿資料來看。通常,我要是初步了解某一個新鮮的技術,會先看看資料,對功能特性有些大概的了解。如果在項目中使用,會先做一些測試程序,在實踐的過程中再去查資料,我感覺這樣效率更高。

在網(wǎng)上找資料,其實基本靠搜索引擎和論壇。10年前有個技術論壇叫“大富翁論壇”,當時感覺很有意思,以delphi為主,純做技術的討論,讓我印象深刻。但是后來delphi不行了,論壇也隨著衰敗了,慢慢被CSDN這樣的綜合技術社區(qū)取代。另外,還出現(xiàn)了一些像stackoverflow, segmentfault這樣名字蛋疼但是專門解決問題的論壇,很多開發(fā)過程中遇到的問題都能夠找到答案。

關于書籍,其實近幾年看得很少,一是線上資料越來越豐富,再一個是現(xiàn)在的新興技術,書籍出版往往會落后于線上穩(wěn)定版本,看書的話總是看到舊的東西。所以新技術主要還是靠網(wǎng)上的資料,和跟其他使用者的交流。如果看書的話,我覺得還是看些基礎的,持續(xù)時間比較長的。

最后,我為剛剛走入技術領域,準備未來在技術領域一直走下去的同學推薦一本書吧——《Unix網(wǎng)絡編程》,一般大家都管它叫UNP。我工作10年,大部分時間是和C語言還有l(wèi)inux打交道。我現(xiàn)在還清楚的記得,10年前,在tom.com的辦公室,桌上放著幾本公用的《寶典》。現(xiàn)在的網(wǎng)絡服務器是linux的天下,不管你是做內(nèi)核,做通信,做算法,做后臺,通讀寶典,受益終身。

互動環(huán)節(jié):感謝崔大牛! 首先很贊您說的做技術的態(tài)度。然后我想問幾個問題, 您還記得當時你們榨干機器的每一滴內(nèi)存的一個例子嗎?很感興趣! 另外, 很多信息在網(wǎng)頁上是沒有的, 比如交易量, 你們是單獨靠淘寶網(wǎng)頁上那個賣出多少來計算嗎? 還有每個網(wǎng)頁結構也可能變化, 是怎么知道哪一個dom是放你們所需要的信息的? 另外,這次雙十一有沒有出現(xiàn)系統(tǒng)意外,大家零時救火?謝謝!

崔侖:當時我們在做搜索引擎的時候,因為淘寶的站內(nèi)搜索,相對于網(wǎng)頁搜索更新速度非常高,所以基本上全靠服務器的cpu和內(nèi)存,而同時又需要做持久化的工作。所以使用了mmap,并且調(diào)整了內(nèi)核參數(shù),將數(shù)據(jù)鎖定在內(nèi)存中,不換出。另外,使用了各種調(diào)優(yōu)工具,測試cpu cache命中率等參數(shù),一點一點調(diào)整程序結構,作出最優(yōu)的方案。

星圖采集的數(shù)據(jù)不僅僅有網(wǎng)頁內(nèi)容,還會有一些其它的手段,比如分析用戶的評論時間,通過模型獲得交易量等網(wǎng)頁上沒有顯現(xiàn)出來的信息。我們在公司內(nèi)部有一套分析頁面和選取dom或者說 xpath的工具,能讓模版維護人員很方便的選取需要的html 節(jié)點,對分析系統(tǒng)的模版實時更新。這個目前已經(jīng)是很成熟完善的技術了。今年雙十一技術部門雖然值班了50多個小時,但是系統(tǒng)總體表現(xiàn)比較淡定,沒有出現(xiàn)什么意外情況。因為大家做足了準備。

互動環(huán)節(jié):傳統(tǒng)制造業(yè)應該通過哪些方面和大數(shù)據(jù)對接???

崔侖:傳統(tǒng)制造業(yè)外部需要鏈接海量的市場信息,但是海量信息價值密度非常低,需要用大數(shù)據(jù)驅(qū)動的工具幫助他們抽取信息中有價值的部分。當然這對于每個業(yè)務部門都不同,所以需要根據(jù)業(yè)務邏輯來為他們提供場景化的數(shù)據(jù)應用。

互動環(huán)節(jié):想問下下分布式數(shù)據(jù)結構在零售上的應用。

崔侖:零售是指線上交易嗎?阿里的所有交易系統(tǒng),在好幾年前就已經(jīng)運行在分布式系統(tǒng)了。分布式系統(tǒng)對于實時處理海量的實時交易是必不可少的。

互動環(huán)節(jié):雙十一全網(wǎng)銷量最高的品類是手機?完全沒想到。

崔侖:按照我們的品類劃分,和監(jiān)測狀況,數(shù)據(jù)分析的結果排名第一確實是手機類目。家電這個大品類的銷售比手機略高。但是家電的子類目太多。

互動環(huán)節(jié):對技術有興趣,但是小公司業(yè)務還不需要那些大型的架構系統(tǒng),就算簡單了解學習了高新技術也沒有實戰(zhàn)的平臺,也難有深造。這點對我們技術方向的來說怎么去衡量,屬于技術職業(yè)發(fā)展的問題。

崔侖:確實,創(chuàng)業(yè)公司能夠接觸到海量數(shù)據(jù)的不多。但是隨著業(yè)務發(fā)展大數(shù)據(jù)的處理必不可少。對于個人來說,可以去BAT,或者到星圖這樣有大數(shù)據(jù)氛圍的公司嘗試一下。
阿里和支付寶的交易系統(tǒng)都是自主開發(fā)的定制系統(tǒng),云計算平臺,消息流處理,都非常復雜,可以查閱一下阿里相關的資料。

責任編輯:鳶瑋 來源: CSDN
相關推薦

2020-10-26 09:19:41

大數(shù)據(jù)雙11淘寶

2013-09-03 10:18:48

大數(shù)據(jù)

2017-11-02 10:04:09

天貓

2009-11-09 11:30:11

Virtualizatvmware大會云計算

2015-03-17 10:24:38

2013-10-21 10:56:48

微軟大數(shù)據(jù)中國石化

2024-09-20 14:57:40

2018-11-12 10:12:45

星圖數(shù)據(jù)

2013-11-18 10:22:41

大數(shù)據(jù)雙十一

2014-11-21 15:07:01

阿里巴巴雙11

2013-07-30 14:21:28

大數(shù)據(jù)

2019-11-22 20:23:57

戴爾

2017-11-16 13:31:41

大數(shù)據(jù)淘寶雙11

2017-01-04 10:45:26

大數(shù)據(jù)商業(yè)銀行應用

2015-08-25 09:45:06

2013-05-27 09:59:55

2019-12-31 14:17:17

大數(shù)據(jù)工具開發(fā)

2021-07-30 16:01:05

大數(shù)據(jù)技術應用

2012-10-22 11:16:42

商業(yè)大數(shù)據(jù)云計算
點贊
收藏

51CTO技術棧公眾號