偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

梁堰波:數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法

原創(chuàng)
數(shù)據(jù)庫 算法
本屆WOT軟件技術(shù)峰會(huì)特邀小象科技作為大會(huì)特邀合作伙伴,匯集大數(shù)據(jù)社區(qū)技術(shù)精英,于7月27日舉辦大數(shù)據(jù)專場培訓(xùn)。本次培訓(xùn)主要討論如何建立用戶標(biāo)簽系統(tǒng)和如何使用這些標(biāo)簽系統(tǒng)實(shí)現(xiàn)商業(yè)價(jià)值。

無論是電商還是互聯(lián)網(wǎng)廣告,直接面對(duì)的是用戶,用戶的屬性決定了他會(huì)購買哪些商品或者點(diǎn)擊哪些廣告。那么建立用戶標(biāo)簽系統(tǒng)對(duì)于這些企業(yè)非常重要。

本屆WOT軟件技術(shù)峰會(huì)特邀小象科技作為大會(huì)特邀合作伙伴,匯集大數(shù)據(jù)社區(qū)技術(shù)精英,于7月27日舉辦大數(shù)據(jù)專場培訓(xùn)。本次培訓(xùn)主要討論如何建立用戶標(biāo)簽系統(tǒng)和如何使用這些標(biāo)簽系統(tǒng)實(shí)現(xiàn)商業(yè)價(jià)值。

[[116386]]

梁堰波

ChinaHadoop小象社區(qū)核心成員

講師介紹:美團(tuán)網(wǎng),數(shù)據(jù)開發(fā)與數(shù)據(jù)挖掘;北京航空航天大學(xué),計(jì)算機(jī)碩士;法國電信研發(fā)中心,云計(jì)算與大數(shù)據(jù)研究員;百度基礎(chǔ)架構(gòu)部存儲(chǔ)組,軟件開發(fā)實(shí)習(xí)生;VMware中國研發(fā)中心Big Data & Cloud組,研發(fā)實(shí)習(xí)生。

 

1.  從技術(shù)來說,您認(rèn)為大數(shù)據(jù)在今年還會(huì)有什么革新?總體感覺,如何與行業(yè)應(yīng)用結(jié)合?

今年大數(shù)據(jù)的革新從技術(shù)的角度來看主要體現(xiàn)在幾個(gè)方面,包括Spark生態(tài)系統(tǒng)的崛起,Hadoop生態(tài)系統(tǒng)越來越多地朝著實(shí)時(shí)的方向改進(jìn),以及各大企業(yè)對(duì)這些系統(tǒng)和數(shù)據(jù)基礎(chǔ)設(shè)施的使用和改進(jìn)不斷深入,這個(gè)可以從今年已經(jīng)召開的Hadoop Summit(http://hadoopsummit.org/)和Spark Summit(http://spark-summit.org/2014)上看出一些趨勢(shì)。從行業(yè)應(yīng)用上來看,越來越多的行業(yè)和企業(yè)開始使用這些技術(shù)解決他們遇到的問題。從目前來看主要還是集中在互聯(lián)網(wǎng)廣告、電子商務(wù)、搜索引擎、推薦系統(tǒng)、游戲等一些大數(shù)據(jù)應(yīng)用的常規(guī)領(lǐng)域。但是隨著今年互聯(lián)網(wǎng)金融等新興領(lǐng)域的發(fā)展,這些領(lǐng)域也越來越多的使用大數(shù)據(jù)的技術(shù)和方法解決他們遇到的問題。

2.行業(yè)大數(shù)據(jù)其實(shí)早就存在,但對(duì)此認(rèn)知并不一樣,您認(rèn)為這種差異性表現(xiàn)在哪里?

大數(shù)據(jù)的行業(yè)應(yīng)用是大數(shù)據(jù)產(chǎn)生價(jià)值的關(guān)鍵。我們經(jīng)常提到的Hadoop、Spark等各種系統(tǒng)是數(shù)據(jù)基礎(chǔ)設(shè)施,各個(gè)行業(yè)利用這些基礎(chǔ)設(shè)施存儲(chǔ)和積累了很多數(shù)據(jù)。對(duì)于企業(yè)來說積累這些數(shù)據(jù)的目的就是要產(chǎn)生商業(yè)價(jià)值,那么從存儲(chǔ)在Hadoop等系統(tǒng)里的數(shù)據(jù)到商業(yè)價(jià)值的轉(zhuǎn)換就是各個(gè)行業(yè)的Data Scientist所需要探索的,而且這個(gè)變現(xiàn)或者價(jià)值實(shí)現(xiàn)點(diǎn)就是在大數(shù)據(jù)時(shí)代一個(gè)行業(yè)的核心和關(guān)鍵。我認(rèn)為行業(yè)大數(shù)據(jù)重點(diǎn)在于用大數(shù)據(jù)的方法把握住這個(gè)行業(yè)的信息制高點(diǎn)和核心問題。

3.行業(yè)大數(shù)據(jù)的實(shí)施,您認(rèn)為技術(shù)難點(diǎn)在哪里?

行業(yè)大數(shù)據(jù)的實(shí)施目前的難點(diǎn)在于人才的缺乏。行業(yè)大數(shù)據(jù)的實(shí)施需要的人才要求對(duì)所在的行業(yè)領(lǐng)域知識(shí)有所了解和涉獵,掌握數(shù)據(jù)化的思考問題的思維和方法,會(huì)用統(tǒng)計(jì)、計(jì)算機(jī)等系統(tǒng)和工具解決問題。所以本質(zhì)上行業(yè)大數(shù)據(jù)對(duì)人才的需求是復(fù)合型的,而且對(duì)經(jīng)驗(yàn)的要求比較高。對(duì)于這樣一個(gè)比較新的領(lǐng)域來說,市場上對(duì)于這方面的人才還是相當(dāng)缺乏的。

 4.  請(qǐng)分享一個(gè)您參與的傳統(tǒng)企業(yè)大數(shù)據(jù)項(xiàng)目。這個(gè)項(xiàng)目大致分幾個(gè)階段?

我目前主要還是以互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)項(xiàng)目經(jīng)驗(yàn)為主

5. 大數(shù)據(jù)項(xiàng)目的實(shí)施,對(duì)已經(jīng)存在的業(yè)務(wù)分析架構(gòu),會(huì)帶來怎樣的影響?

大數(shù)據(jù)項(xiàng)目的實(shí)施,對(duì)已經(jīng)存在的業(yè)務(wù)分析架構(gòu)產(chǎn)生的影響還是比較大的。這個(gè)也是傳統(tǒng)企業(yè)利用大數(shù)據(jù)的主要的困難所在。一個(gè)是既有IT基礎(chǔ)設(shè)施不能適應(yīng)大數(shù)據(jù)時(shí)代的分析和挖掘的需求,另外就是既有的分析師還保持著傳統(tǒng)的分析的思路??梢耘e幾個(gè)例子簡單說明下這個(gè)不同,過去的企業(yè)的CRM系統(tǒng)只能記錄下用戶的交易信息,雖然交易信息是用戶的最重要的行為,但是影響用戶產(chǎn)生一次交易行為所涉及到的信息非常多,例如用戶瀏覽了什么、篩選了哪些類型的商品、搜索過什么、收藏過哪些商品等等。所以在互聯(lián)網(wǎng)上可以記錄的用戶的行為非常廣泛,這些數(shù)據(jù)對(duì)于企業(yè)實(shí)現(xiàn)商業(yè)價(jià)值也有非常大的影響,所以對(duì)于數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)也提出了新的挑戰(zhàn),很多傳統(tǒng)的系統(tǒng)和軟件架構(gòu)已經(jīng)不能滿足新的業(yè)務(wù)需求,對(duì)于大多數(shù)企業(yè)構(gòu)建大數(shù)據(jù)基礎(chǔ)設(shè)施來說開源的Hadoop生態(tài)系統(tǒng)是一個(gè)不錯(cuò)的選擇。

 6.大數(shù)據(jù)應(yīng)用工具的大量出現(xiàn),會(huì)取代數(shù)據(jù)分析人員的位置嗎?

大數(shù)據(jù)應(yīng)用工具的大量出現(xiàn)不會(huì)取代數(shù)據(jù)分析人員,而且對(duì)數(shù)據(jù)分析人員提出了更新的需求和挑戰(zhàn)。需要數(shù)據(jù)分析人員使用這些工具結(jié)合業(yè)務(wù)思考實(shí)現(xiàn)商業(yè)價(jià)值,這個(gè)也就是我們經(jīng)常提到的Data Scientist的作用。工具和分析師的作用是相輔相成的,使用大數(shù)據(jù)的思維解決這些商業(yè)問題是與具體的行業(yè)有緊密聯(lián)系的,而工具是沒有特別多的行業(yè)屬性的,所以就需要分析師/數(shù)據(jù)科學(xué)家做好這個(gè)橋梁工作,把枯燥的數(shù)據(jù)和計(jì)算機(jī)工具利用起來,結(jié)合行業(yè)規(guī)則和業(yè)務(wù)特點(diǎn)實(shí)現(xiàn)商業(yè)價(jià)值。

 7.數(shù)據(jù)是傳統(tǒng)企業(yè)最核心的資產(chǎn)。我們?cè)诖髷?shù)據(jù)的分布式處理方式下,該如何保證數(shù)據(jù)的安全性和完整性?

數(shù)據(jù)的安全性和完整性是目前許多傳統(tǒng)企業(yè)使用大數(shù)據(jù)的主要擔(dān)憂點(diǎn)。傳統(tǒng)行業(yè)普遍對(duì)數(shù)據(jù)安全性要求比較高,例如金融、電信等領(lǐng)域,所以這些領(lǐng)域?qū)Υ髷?shù)據(jù)系統(tǒng)和基礎(chǔ)設(shè)施提出的要求也比較高。在開源Hadoop社區(qū)也在不斷完善和安全相關(guān)的一些feature和組件。例如對(duì)HDFS和HBase在安全和權(quán)限管理方面的不斷增強(qiáng),Cloudera開源的Sentry提供了豐富的安全、權(quán)限管理和認(rèn)證機(jī)制等方面的特征,這些都為企業(yè)使用Hadoop生態(tài)系統(tǒng)作為大數(shù)據(jù)基礎(chǔ)設(shè)施掃清了障礙。

 8.在51CTO舉辦的WOT軟件技術(shù)峰會(huì)上,會(huì)有大數(shù)據(jù)專場培訓(xùn)。這里面會(huì)涉及哪些方面的內(nèi)容?這些培訓(xùn)適合哪些技術(shù)人員?

這個(gè)培訓(xùn)主要涉及到如何用大數(shù)據(jù)的方法解決實(shí)際商業(yè)社會(huì)的問題,是通過一個(gè)電子商務(wù)用戶標(biāo)簽系統(tǒng)的案例給大家展開的。主要涉及到一些數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法、工具、分布式實(shí)現(xiàn),數(shù)據(jù)團(tuán)隊(duì)的建設(shè)與構(gòu)成,用戶數(shù)據(jù)建模,以及一些相關(guān)的案例。這些案例相對(duì)比較基礎(chǔ),但是在很多行業(yè)又比較常見,希望能夠?qū)Υ蠹业男袠I(yè)和業(yè)務(wù)中應(yīng)用大數(shù)據(jù)有所幫助。

責(zé)任編輯:彭凡 來源: 51CTO
相關(guān)推薦

2018-04-23 11:11:52

數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)Python

2019-11-21 14:01:37

Python數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)

2016-11-15 14:08:02

機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘

2015-07-28 15:41:06

機(jī)器學(xué)習(xí)算法數(shù)據(jù)挖掘

2016-04-11 14:35:59

機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘數(shù)據(jù)模型

2016-04-12 17:12:29

機(jī)器學(xué)習(xí)數(shù)據(jù)清洗美團(tuán)

2024-03-04 08:00:00

PythonOrange3機(jī)器學(xué)習(xí)

2023-03-10 08:57:31

機(jī)器學(xué)習(xí)電商數(shù)據(jù)挖掘

2017-11-22 12:44:14

機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘

2020-07-13 14:50:51

機(jī)器學(xué)習(xí)模型算法

2016-11-15 15:02:00

機(jī)器學(xué)習(xí)算法

2025-04-29 09:26:34

Orange交互式數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)

2013-10-29 09:13:14

程序員數(shù)據(jù)挖掘

2020-12-16 15:56:26

機(jī)器學(xué)習(xí)人工智能Python

2021-04-11 18:09:57

機(jī)器學(xué)習(xí)業(yè)務(wù)價(jià)值人工智能

2013-04-27 10:52:09

大數(shù)據(jù)全球技術(shù)峰會(huì)

2024-05-27 00:05:00

2018-06-25 11:35:01

2020-09-26 21:42:37

開源數(shù)據(jù)挖掘工具

2020-06-18 16:05:20

機(jī)器學(xué)習(xí)人工智能算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)