偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

你需了解的機(jī)器學(xué)習(xí)算法、如何開發(fā)機(jī)器學(xué)習(xí)模型？

作者：Yael Gavish 2017-08-25 14:05:01

人工智能機(jī)器學(xué)習(xí) 算法

創(chuàng)建一個(gè)優(yōu)秀的機(jī)器學(xué)習(xí)模型跟創(chuàng)建其他產(chǎn)品是一樣的：首先從構(gòu)思開始，把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向，就可以對(duì)解決方案進(jìn)行原型化，然后對(duì)它進(jìn)行測試以確定是否滿足需求，不妨看看本文是如何一步一步實(shí)現(xiàn)的。

習(xí)概念及其對(duì)業(yè)務(wù)目標(biāo)的影響是非常重要的。

算法的選擇

在問題定義上的一個(gè)小變動(dòng)可能需要有一個(gè)完全不同的算法來解決，或者至少要使用不同的數(shù)據(jù)輸入來構(gòu)建不同的模型。一個(gè)能夠?yàn)橛脩糇R(shí)別照片類型的約會(huì)網(wǎng)站可以使用無監(jiān)督學(xué)習(xí)技術(shù)(比如聚類)來識(shí)別常見的主題。而如果要向特定的某個(gè)人推薦潛在的約會(huì)對(duì)象，則網(wǎng)站可能要使用基于輸入的監(jiān)督學(xué)習(xí)，輸入數(shù)據(jù)需具體到個(gè)人，例如他們已經(jīng)看過的照片。

特征的選擇

機(jī)器學(xué)習(xí)模型識(shí)別數(shù)據(jù)中的模式。輸入到模型中的數(shù)據(jù)被組織成特征(也稱為變量或?qū)傩?：這些特征都是相關(guān)的、大部分獨(dú)立的數(shù)據(jù)片段，描述了你想要預(yù)測或識(shí)別的現(xiàn)象的某些方面。

以前文提到的那家希望優(yōu)先考慮貸款申請(qǐng)人外展服務(wù)的公司為例。如果我們將問題定義為“根據(jù)客戶轉(zhuǎn)換的可能性優(yōu)先考慮”，我們將會(huì)得到包括類似客戶對(duì)公司各種外展活動(dòng)的響應(yīng)率等特征。如果我們將問題定義為“優(yōu)先考慮最可能償還貸款的客戶”，我們就不會(huì)得到這些特征，因?yàn)樗鼈兣c評(píng)估客戶的可能性無關(guān)。

目標(biāo)函數(shù)的選擇

目標(biāo)函數(shù)是你要優(yōu)化的目標(biāo)，或者是模型試圖預(yù)測的結(jié)果。例如，如果你向用戶推薦他們可能感興趣的商品，則模型的輸出可能是用戶在看到商品時(shí)點(diǎn)擊該商品的概率，也可能是用戶購買商品的概率。目標(biāo)函數(shù)的選擇主要取決于業(yè)務(wù)目標(biāo)，在這個(gè)例子中，你對(duì)用戶的參與感興趣(目標(biāo)函數(shù)可能是點(diǎn)擊或停留的時(shí)間)還是對(duì)營業(yè)收入感興趣(目標(biāo)函數(shù)是購買)?另一個(gè)要考慮的關(guān)鍵因素是數(shù)據(jù)的可用性：對(duì)于要學(xué)習(xí)的算法，你必須提供大量“標(biāo)記”為正(用戶看到并點(diǎn)擊的產(chǎn)品)或負(fù)(用戶看到的產(chǎn)品，但沒有點(diǎn)擊)的數(shù)據(jù)點(diǎn)。

二、如何開發(fā)機(jī)器學(xué)習(xí)模型?

摘要：創(chuàng)建一個(gè)優(yōu)秀的機(jī)器學(xué)習(xí)模型跟創(chuàng)建其他產(chǎn)品是一樣的：首先從構(gòu)思開始，把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向，就可以對(duì)解決方案進(jìn)行原型化，然后對(duì)它進(jìn)行測試以確定是否滿足需求，不妨看看本文是如何一步一步實(shí)現(xiàn)的。

建模步驟一覽

從較高的層次上來講，創(chuàng)建一個(gè)優(yōu)秀的機(jī)器學(xué)習(xí)模型跟創(chuàng)建其他任何產(chǎn)品是一樣的：首先從構(gòu)思開始，把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向，就可以對(duì)解決方案進(jìn)行原型化，然后對(duì)它進(jìn)行測試以確定是否滿足需求。你需要在構(gòu)思、原型設(shè)計(jì)和測試之間不斷地迭代，直到你的解決方案足夠好，并能夠投入市場，此時(shí)你就可以將其產(chǎn)品化，并發(fā)布出去?，F(xiàn)在，我們來看看每個(gè)階段的細(xì)節(jié)吧。

由于數(shù)據(jù)是機(jī)器學(xué)習(xí)的重要組成部分，因此我們需要在產(chǎn)品開發(fā)過程之上進(jìn)行數(shù)據(jù)分層，因此我們的流程如下所示：

構(gòu)思。讓待解決的關(guān)鍵問題和針對(duì)解決方案的潛在數(shù)據(jù)輸入保持一致。
數(shù)據(jù)準(zhǔn)備。以一種有用的格式收集和獲取數(shù)據(jù)，以便對(duì)模型進(jìn)行理解和學(xué)習(xí)。
原型與測試。建立一個(gè)或一組模型來解決問題，測試它們執(zhí)行和迭代的程度，直到有一個(gè)模型能得到令人滿意的結(jié)果。
產(chǎn)品化。讓模型以及數(shù)據(jù)收集與處理穩(wěn)定化、規(guī)?；员阍谏a(chǎn)環(huán)境中生成有用的輸出。

構(gòu)思

這個(gè)階段的目標(biāo)是要讓模型解決的關(guān)鍵問題、目標(biāo)函數(shù)和潛在的輸入作為一個(gè)整體與模型保持一致。

與問題保持一致。如前所述，機(jī)器學(xué)習(xí)可用于解決真正的業(yè)務(wù)問題。請(qǐng)確保你的團(tuán)隊(duì)和公司中的所有利益相關(guān)者就你正在解決的問題以及如何使用解決方案達(dá)成一致。
選擇目標(biāo)函數(shù)。待解決的問題決定了模型的目標(biāo)是什么。模型試圖預(yù)測的目標(biāo)函數(shù)是什么?你是否在查找數(shù)據(jù)中的模式?例如，將照片集按照某種特征分成多個(gè)組。
定義質(zhì)量指標(biāo)。你如何衡量模型的質(zhì)量?在沒有看到真正結(jié)果的時(shí)候，一般很難預(yù)見可接受的質(zhì)量，但目標(biāo)的定向性對(duì)此是有幫助的。
集思廣益所有可能的輸入。你的目標(biāo)是確定哪些數(shù)據(jù)可以幫你解決問題或者做出決定。最有幫助的問題是：“專家會(huì)如何處理這個(gè)問題”?？紤]一下解決方案將以什么樣的變量或者數(shù)據(jù)為基礎(chǔ)。每一個(gè)可能影響人類判斷的因素是否都應(yīng)該測試。請(qǐng)盡可能廣泛地搜集這些問題的答案。了解關(guān)鍵因素可能需要有商業(yè)方面專業(yè)的知識(shí)，這是企業(yè)或者產(chǎn)品人員需要在此階段中頻繁參與的重要原因之一。數(shù)據(jù)團(tuán)隊(duì)將不得不將這些潛在的輸入轉(zhuǎn)化為模型特征。請(qǐng)注意，為了將輸入轉(zhuǎn)換為特征，可能需要額外的處理，后面我們會(huì)詳細(xì)討論這個(gè)。

數(shù)據(jù)準(zhǔn)備

本階段的目標(biāo)是收集原始數(shù)據(jù)，并將其作為原型模型的輸入。你可能需要對(duì)原始數(shù)據(jù)進(jìn)行復(fù)雜的轉(zhuǎn)換才能使其成為輸入數(shù)據(jù)。例如，假設(shè)你的某個(gè)特征是消費(fèi)者對(duì)品牌的看法：你首先需要找到消費(fèi)者談?wù)撈放频南嚓P(guān)來源。如果品牌名稱包括常用詞(例如“蘋果”)，則需要將品牌名稱與一般情況下的含義(與水果有關(guān))區(qū)分開來，然后再通過觀點(diǎn)分析模型來運(yùn)行，所有這些都要在構(gòu)建原型之前完成。并非所有的特征構(gòu)建起來都很復(fù)雜，但有些可能需要耗費(fèi)大量的工作。

讓我們來更詳細(xì)地了解一下這個(gè)階段需要做什么：

以最快的速度收集數(shù)據(jù)。首先，確定缺少了哪些數(shù)據(jù)。在某些情況下，你可能需要對(duì)必要的輸入分解到“構(gòu)建塊”級(jí)別，或者是到代理級(jí)別，這樣才能更方便地獲取到數(shù)據(jù)。一旦確定下來缺少哪些數(shù)據(jù)，就要以最快捷、最簡單的方法去獲取。對(duì)于不可擴(kuò)展的方法，比如手工下載或購買數(shù)據(jù)樣本，即使代價(jià)有點(diǎn)高但可能卻是最實(shí)際的方法。在這個(gè)階段采集太多的數(shù)據(jù)通常沒有太大的意義，因?yàn)槟悴涣私鈹?shù)據(jù)是否有用，哪種格式***，等等。商業(yè)人士應(yīng)該參與到這個(gè)階段中來，因?yàn)樗麄兛梢詤f(xié)助數(shù)據(jù)專家們從大量的渠道獲取到原本不太容易獲取的數(shù)據(jù)。請(qǐng)注意，在監(jiān)督學(xué)習(xí)算法中，你不僅需要用于模型特征的數(shù)據(jù)，你還需要為模型的目標(biāo)函數(shù)提供數(shù)據(jù)點(diǎn)，以進(jìn)行訓(xùn)練、驗(yàn)證以及測試模型?；氐椒績r(jià)那個(gè)例子，為了建立一個(gè)預(yù)測房價(jià)的模型，你需要一些包含房價(jià)的房屋信息!
數(shù)據(jù)清洗與規(guī)范化。在這個(gè)階段中，數(shù)據(jù)科學(xué)或工程團(tuán)隊(duì)將承擔(dān)起主要的工作職責(zé)。他們將投入大部分的精力把構(gòu)思和原始數(shù)據(jù)轉(zhuǎn)化為實(shí)際的模型。數(shù)據(jù)集需要進(jìn)行檢查和清洗，以避免使用不良數(shù)據(jù)以及不相關(guān)的異常值等等。同時(shí)，數(shù)據(jù)還可能會(huì)以不同的比例進(jìn)行轉(zhuǎn)換，以使其更容易地與其他數(shù)據(jù)集一致，并能一起使用。特別是在處理文字和圖像的時(shí)候，通常需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，以提取相關(guān)的信息。例如，將太多太大的圖像插入模型可能會(huì)導(dǎo)致信息過量而無法處理，因此你可能需要降低圖片的質(zhì)量、使用圖像的其中一部分或僅使用對(duì)象輪廓。對(duì)于文本，你可能需要檢測與文本相關(guān)的實(shí)體，進(jìn)行觀點(diǎn)分析，查找常用的n-gram(經(jīng)常用于表示一定數(shù)量單詞的序列)或執(zhí)行各種其他的轉(zhuǎn)換。這些通?？捎涩F(xiàn)成的庫來實(shí)現(xiàn)，無需重新發(fā)明輪子。

原型與測試

這個(gè)階段的目標(biāo)是獲得一個(gè)模型的原型，測試并對(duì)它進(jìn)行迭代，直到能夠得到一個(gè)足夠好并且能夠用于生產(chǎn)的的模型。

構(gòu)建原型。一旦數(shù)據(jù)準(zhǔn)備完畢，數(shù)據(jù)科學(xué)團(tuán)隊(duì)就可以開始研究實(shí)際的模型了。這個(gè)階段涉及到大量的實(shí)驗(yàn)，比如選擇最相關(guān)的特征、測試多種算法等。這并不是一個(gè)簡單的任務(wù)，獲得用于生產(chǎn)模型在時(shí)間計(jì)劃上并不好把控。
驗(yàn)證和測試原型。在這個(gè)階段中，數(shù)據(jù)科學(xué)家的職責(zé)就是要確保最終生成的模型盡可能的好。他們將根據(jù)預(yù)定義的質(zhì)量度量標(biāo)準(zhǔn)來評(píng)估模型的性能，比較不同算法下模型的性能，調(diào)整各種參數(shù)并對(duì)最終的模型進(jìn)行性能測試。對(duì)于監(jiān)督學(xué)習(xí)，需要確定模型預(yù)測的結(jié)果是否能夠滿足你的需求。對(duì)于無監(jiān)督學(xué)習(xí)，根據(jù)問題的不同，有多種不同的性能評(píng)估技術(shù)。以聚類為例，你可以輕松地繪制出在多個(gè)維度上聚類的對(duì)象。如果算法使用了關(guān)鍵字來標(biāo)記文檔，那么關(guān)鍵字是否有意義呢?在打標(biāo)記失敗或重要用例丟失的情況下，是否有明顯的差距呢?這并不能代替更加科學(xué)的方法，但在實(shí)踐上有助于快速改進(jìn)。
迭代。此時(shí)，你需要與團(tuán)隊(duì)一起來決定是否需要進(jìn)一步的迭代。該模型與你的預(yù)期有多少相符?它是否表現(xiàn)得足夠好，讓你目前的業(yè)務(wù)狀況得到顯著的改善?是否有特別薄弱的方面?是否需要更多的數(shù)據(jù)點(diǎn)?你能想到其他特征來提高性能嗎?是否有替代數(shù)據(jù)源可以提高模型的輸入質(zhì)量?等等。這些都需要集思廣益。

產(chǎn)品化

當(dāng)原型模型能夠很好地解決業(yè)務(wù)問題，并能進(jìn)入生產(chǎn)的時(shí)候，你就來到了這個(gè)階段。請(qǐng)注意，如果尚未準(zhǔn)備好進(jìn)行全面的產(chǎn)品化，你需要首先確定模型要擴(kuò)展的比例。比如說，對(duì)于一個(gè)電影推薦工具：你可能是先對(duì)少數(shù)用戶提供推薦服務(wù)，但要為每個(gè)用戶提供完整的使用體驗(yàn)，在這種情況下，模型就要根據(jù)每個(gè)用戶的相關(guān)性對(duì)數(shù)據(jù)庫中的每個(gè)電影進(jìn)行排序。與僅推薦動(dòng)作電影相比，這是另一個(gè)不同的擴(kuò)展要求。

現(xiàn)在，我們來探討一下有關(guān)將模型生產(chǎn)化的更多的技術(shù)細(xì)節(jié)：

增加數(shù)據(jù)覆蓋率。在很多情況下，你可以用比生產(chǎn)中更少更有限的數(shù)據(jù)來構(gòu)建原型。例如，你可以根據(jù)特定客戶來構(gòu)建原型，然后將其擴(kuò)展到整個(gè)客戶群。
擴(kuò)展數(shù)據(jù)收集。一旦驗(yàn)證了哪些數(shù)據(jù)對(duì)模型有用，你需要構(gòu)建一種可擴(kuò)展的方式來收集和獲取數(shù)據(jù)。在原型設(shè)計(jì)階段，以手動(dòng)方式來收集數(shù)據(jù)還是可以的，但是對(duì)于生產(chǎn)，你應(yīng)該盡可能地自動(dòng)化。
刷新數(shù)據(jù)。創(chuàng)建一個(gè)隨時(shí)間刷新數(shù)據(jù)的機(jī)制，以更新現(xiàn)有值或添加新信息。除非由于某種原因不能保留歷史數(shù)據(jù)，否則系統(tǒng)應(yīng)該要以某種方式來持續(xù)積累更多的數(shù)據(jù)。
擴(kuò)展模型。這個(gè)包含了數(shù)據(jù)科學(xué)和工程學(xué)兩個(gè)方面的內(nèi)容。從數(shù)據(jù)科學(xué)的角度來講，如果你更改了基礎(chǔ)數(shù)據(jù)，例如擴(kuò)大了客戶群的數(shù)量，就需要重新訓(xùn)練和測試模型。在特定數(shù)據(jù)集上工作良好的模型并不一定能適用于更廣泛或其他不同的數(shù)據(jù)集。從架構(gòu)上來講，模型需要能夠在數(shù)據(jù)不斷增長的基礎(chǔ)上及時(shí)擴(kuò)展以進(jìn)行更頻繁地運(yùn)行。在電影推薦示例中，可能會(huì)有更多的用戶、更多的電影以及有關(guān)每個(gè)用戶喜好的更多信息。
檢查特殊值。雖然模型也許在整體上可以很好地?cái)U(kuò)展，但在某些很小但很重要的情況下可能就無法正常工作了。例如，電影推薦的平均使用效果可能還不錯(cuò)，但對(duì)于家長來說，如果他們用自己的賬號(hào)為孩子選擇了電影，那么推薦系統(tǒng)就會(huì)顯示兒童電影。這是一個(gè)產(chǎn)品設(shè)計(jì)問題，你需要在產(chǎn)品中將父母自己的建議與為孩子的建議分開來，但是，這并不是模型可以告訴你的。

到目前為止，我所描述的是一個(gè)概念性的流程。在現(xiàn)實(shí)中，界限一般比較模糊，你經(jīng)常需要在不同階段之間來回走動(dòng)。你可能會(huì)對(duì)數(shù)據(jù)的供給不滿意，從而考慮重來，或者在模型產(chǎn)品化之后，你發(fā)現(xiàn)模型并不能很好的工作，你不得不退回去重新構(gòu)建原型。

責(zé)任編輯：龐桂玉來源： 36大數(shù)據(jù)

機(jī)器學(xué)習(xí)算法模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="9163l"><tfoot id="9163l"></tfoot></sub>

<style id="9163l"></style>

<cite id="9163l"></cite>