機(jī)器學(xué)習(xí)簡(jiǎn)介
一、機(jī)器學(xué)習(xí)的定義
機(jī)器學(xué)習(xí)(Machine Learning)是計(jì)算機(jī)科學(xué)的子領(lǐng)域,也是人工智能的一個(gè)分支和實(shí)現(xiàn)方式。機(jī)器學(xué)習(xí)所關(guān)注的是計(jì)算機(jī)程序如何隨著經(jīng)驗(yàn)積累自動(dòng)提高性能。機(jī)器學(xué)習(xí)的形式化描述: 對(duì)于某類任務(wù)T和性能度量P,如果一個(gè)計(jì)算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而自我完善,那么就稱這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn)E學(xué)習(xí)。
機(jī)器學(xué)習(xí)主要的理論基礎(chǔ)涉及到概率論、數(shù)理統(tǒng)計(jì)、數(shù)值逼近、最優(yōu)化理論、計(jì)算復(fù) 雜理論等,核心要素是數(shù)據(jù)、算法和模型。
二、機(jī)器學(xué)習(xí)的發(fā)展
機(jī)器學(xué)習(xí)的發(fā)展分為知識(shí)推理期、知識(shí)工程期、淺層學(xué)習(xí)和深度學(xué)習(xí)幾個(gè)階段。在機(jī)器學(xué)習(xí)的發(fā)展過程中,隨著人們對(duì)智能的理解和現(xiàn)實(shí)問題的解決方法演變,大致出現(xiàn)了符號(hào)主義、貝葉斯、聯(lián)結(jié)主義、進(jìn)化主義、行為類推主義五大流派。
三、機(jī)器學(xué)習(xí)的演化
四、機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù)挖掘
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它是實(shí)現(xiàn)人工智能的一個(gè)核心技術(shù),即以機(jī)器學(xué)習(xí)為手段解決人工智能中的問題。機(jī)器學(xué)習(xí)是通過一些讓計(jì)算機(jī)可以自動(dòng)“學(xué)習(xí)”的算法并從數(shù)據(jù)中分析獲得規(guī)律,然后利用規(guī)律對(duì)新樣本進(jìn)行預(yù)測(cè)。
數(shù)據(jù)挖掘是從大量的業(yè)務(wù)數(shù)據(jù)中挖掘隱藏、有用的、正確的知識(shí)促進(jìn)決策的執(zhí)行。數(shù)據(jù)挖掘的很多算法都來自于機(jī)器學(xué)習(xí),并在實(shí)際應(yīng)用中進(jìn)行優(yōu)化。機(jī)器學(xué)習(xí)最近幾年也逐漸跳出實(shí)驗(yàn)室, 解決從實(shí)際的數(shù)據(jù)中學(xué)習(xí)模式,解決實(shí)際問題。數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的交集越來越大。
五、機(jī)器學(xué)習(xí)典型應(yīng)用領(lǐng)域
- 藝術(shù)創(chuàng)作
 - 金融領(lǐng)域
 - 醫(yī)療領(lǐng)域
 - 自然語言處理
 - 網(wǎng)絡(luò)安全
 - 工業(yè)領(lǐng)域
 - 娛樂行業(yè)
 
六、機(jī)器學(xué)習(xí)應(yīng)用
- 人機(jī)大戰(zhàn)
 
AlphaGo是深度卷積神經(jīng)網(wǎng)絡(luò)CNN、加強(qiáng) 學(xué)習(xí)RL、蒙特卡洛樹搜索MCTS三者相結(jié)合的產(chǎn)物
- 趨勢(shì)預(yù)測(cè)
 
Google流感趨勢(shì)預(yù)測(cè) 
- 社保欺詐
 
反垃圾郵件系統(tǒng)
- 個(gè)性化推薦
 
七、機(jī)器學(xué)習(xí)流程
- 機(jī)器學(xué)習(xí)是一門入門容易但精通難的學(xué)科
 - 機(jī)器學(xué)習(xí)分析人員需要掌握行業(yè)知識(shí)以了解業(yè)務(wù)流程、理解數(shù)據(jù)背后的隱含信息以合理解讀數(shù)據(jù)、從變化的角度和時(shí)間維度把握需求以確定使用哪些數(shù)據(jù),這是數(shù)據(jù)分析的基礎(chǔ)
 - 機(jī)器學(xué)習(xí)的主要流程是明確分析目標(biāo)、數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、建模分析、結(jié)果評(píng)估、部署使用以及學(xué)習(xí)更新。
 
八、機(jī)器學(xué)習(xí)怎么做
- 明確數(shù)據(jù)分析目標(biāo):明確數(shù)據(jù)分析目標(biāo)是機(jī)器學(xué)習(xí)首要的重要步驟,這個(gè)步驟需 要與用戶進(jìn)行充分的溝通。
 - 數(shù)據(jù)收集:充足、全面的高質(zhì)量數(shù)據(jù)是機(jī)器學(xué)習(xí)的基礎(chǔ)。
 - 數(shù)據(jù)預(yù)處理:數(shù)據(jù)清理,為保證數(shù)據(jù)的質(zhì)量,必要的數(shù)據(jù)治理是需要的。
 - 數(shù)據(jù)建模:算法本身沒有絕對(duì)的好壞,不同的機(jī)器學(xué)習(xí)算法都有各自的使用范圍。選擇合適的建模方法或算法,算法的好壞需要實(shí)驗(yàn)比較確定。此階段是機(jī)器學(xué)習(xí)的核心部分,使用精巧復(fù)雜的分析方法從 數(shù)據(jù)中提取知識(shí),包括選擇建模技術(shù)、生成測(cè)試設(shè)計(jì)以及構(gòu) 建和評(píng)估模型。算法調(diào)優(yōu)(包括參數(shù)或結(jié)構(gòu)等方面),機(jī)器學(xué)習(xí)算法是科學(xué),應(yīng)用是藝術(shù)。
 - 效果評(píng)估:選定模型之后,就可以評(píng)估機(jī)器學(xué)習(xí)結(jié)果在多大程度上能夠 幫助實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。此階段的要素包括評(píng)估學(xué)習(xí)結(jié)果,以便 為機(jī)器學(xué)習(xí)的過程提供反饋。
 - 部署使用 更新:有效的機(jī)器學(xué)習(xí)結(jié)果會(huì)改善客戶業(yè)務(wù)決策的效果,給客戶帶來價(jià)值。因?yàn)闃I(yè)務(wù)可能發(fā)生變化,在部署過程中需要更新機(jī)器學(xué)習(xí)的模型等。機(jī)器學(xué)習(xí)不是一勞永逸的事情(遞增式學(xué)習(xí))。
 
九、機(jī)器學(xué)習(xí)常用算法
- 監(jiān)督學(xué)習(xí):支持向量機(jī)SVM、決策樹、樸素貝葉斯分類、k-近鄰算法KNN
 - 非監(jiān)督學(xué)習(xí):主成分分析、奇異值分解、K-均值聚類
 - 強(qiáng)化學(xué)習(xí):Q-learning
 - 聚類算法
 - 分類算法
 - 回歸分析
 - 關(guān)聯(lián)分析
 
十、數(shù)據(jù)挖掘常用算法
- 推薦算法
 - 社會(huì)網(wǎng)絡(luò)分析-文本分析
 - 十一、機(jī)器學(xué)習(xí)常見問題
 - 數(shù)據(jù)質(zhì)量問題與預(yù)處理
 - 數(shù)據(jù)量較少
 - 數(shù)據(jù)量過多
 - 維度災(zāi)難
 - 數(shù)據(jù)不完整
 - 異常數(shù)據(jù)
 
十二、數(shù)據(jù)分析常見陷阱
1、錯(cuò)誤理解相關(guān)關(guān)系
- 事物間的相關(guān)性并不意味著存在因果關(guān)系,或者有可能其因果關(guān)系顛倒了
 - 需要深入理解業(yè)務(wù),規(guī)避大部分錯(cuò)誤
 - 需要分析是否由第三方變量同時(shí)引起兩種變量的變化,找出其原因
 
2、錯(cuò)誤的比較對(duì)象
- 機(jī)器學(xué)習(xí)中的結(jié)果或效果進(jìn)行比較時(shí),容易將不同樣本集進(jìn)行結(jié)果比較,比較對(duì)象不合理,其結(jié)果自然無效,結(jié)論便不能成立
 
3、數(shù)據(jù)抽樣
- 數(shù)據(jù)抽樣時(shí)如果出現(xiàn)偏差可能會(huì)影響分析結(jié)果
 - 需要考慮采樣標(biāo)準(zhǔn)
 
4、忽略或關(guān)注極值
- 忽視極值可能失去某類樣本或丟失某項(xiàng)重要特征
 - 過于關(guān)注極值可能會(huì)對(duì)結(jié)果造成偏差,影響結(jié)論
 
5、相信巧合數(shù)據(jù)
- 實(shí)驗(yàn)中多次重復(fù)實(shí)驗(yàn)可避免巧合數(shù)據(jù)的出現(xiàn)
 
6、數(shù)據(jù)未做歸一化
- 兩個(gè)數(shù)據(jù)進(jìn)行比較時(shí),容易進(jìn)行總數(shù)比較,而忽視比例的比較
 
7、忽視第三方數(shù)據(jù)
- 搜集或使用爬蟲獲得更多數(shù)據(jù)使數(shù)據(jù)源更豐富
 
8、過度關(guān)心統(tǒng)計(jì)指標(biāo)
- 可能會(huì)忽視某些方法或結(jié)論成立的前提條件
 - 十二、機(jī)器學(xué)習(xí)方法的選擇
 - 理解目標(biāo)要求是機(jī)器學(xué)習(xí)方法選擇的關(guān)鍵,首先要 對(duì)問題進(jìn)行分類,如果數(shù)據(jù)集中有標(biāo)簽則可進(jìn)行監(jiān) 督式學(xué)習(xí),反之可應(yīng)用無監(jiān)督學(xué)習(xí)
 - 熟悉各類機(jī)器學(xué)習(xí)方法的特性是分析方法選擇的基 礎(chǔ),不僅需要了解如何使用各類分析算法,還要了解其實(shí)現(xiàn)的原理
 - 在選擇模型前,要對(duì)數(shù)據(jù)進(jìn)行探索性分析
 - 機(jī)器學(xué)習(xí)方法選擇過程中可在幾個(gè)可能模型中分析選出較優(yōu)的模型
 - 選擇模型后,比較不同模型的擬合程度,反復(fù)調(diào)整參數(shù)使模型結(jié)果趨于穩(wěn)定
 
十三、機(jī)器學(xué)習(xí)項(xiàng)目團(tuán)隊(duì)的組建
- 職能崗位
 - 項(xiàng)目經(jīng)理
 - 業(yè)務(wù)專家
 - 機(jī)器學(xué)習(xí)工程師
 - 數(shù)據(jù)建模人員
 - 可視化人員
 - 評(píng)估人員
 - 其他
 
十四、機(jī)器學(xué)習(xí)人才培養(yǎng)的難題
- 數(shù)理要求高
 - 學(xué)習(xí)成本高
 - 跨學(xué)科綜合能力
 - 實(shí)踐機(jī)會(huì)少
 
十五、機(jī)器學(xué)習(xí)技能要求
十六、常見的機(jī)器學(xué)習(xí)平臺(tái)
- Python
 - R
 - TensorFlow
 - Caffe
 - 開源社區(qū)Github
 























 
 
 






 
 
 
 