偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

你需了解的機(jī)器學(xué)習(xí)算法、如何開發(fā)機(jī)器學(xué)習(xí)模型?

人工智能 機(jī)器學(xué)習(xí) 算法
創(chuàng)建一個(gè)優(yōu)秀的機(jī)器學(xué)習(xí)模型跟創(chuàng)建其他產(chǎn)品是一樣的:首先從構(gòu)思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對(duì)解決方案進(jìn)行原型化,然后對(duì)它進(jìn)行測(cè)試以確定是否滿足需求,不妨看看本文是如何一步一步實(shí)現(xiàn)的。

[[201235]]

習(xí)概念及其對(duì)業(yè)務(wù)目標(biāo)的影響是非常重要的。

算法的選擇

在問題定義上的一個(gè)小變動(dòng)可能需要有一個(gè)完全不同的算法來解決,或者至少要使用不同的數(shù)據(jù)輸入來構(gòu)建不同的模型。一個(gè)能夠?yàn)橛脩糇R(shí)別照片類型的約會(huì)網(wǎng)站可以使用無監(jiān)督學(xué)習(xí)技術(shù)(比如聚類)來識(shí)別常見的主題。而如果要向特定的某個(gè)人推薦潛在的約會(huì)對(duì)象,則網(wǎng)站可能要使用基于輸入的監(jiān)督學(xué)習(xí),輸入數(shù)據(jù)需具體到個(gè)人,例如他們已經(jīng)看過的照片。

特征的選擇

機(jī)器學(xué)習(xí)模型識(shí)別數(shù)據(jù)中的模式。輸入到模型中的數(shù)據(jù)被組織成特征(也稱為變量或?qū)傩?:這些特征都是相關(guān)的、大部分獨(dú)立的數(shù)據(jù)片段,描述了你想要預(yù)測(cè)或識(shí)別的現(xiàn)象的某些方面。

以前文提到的那家希望優(yōu)先考慮貸款申請(qǐng)人外展服務(wù)的公司為例。如果我們將問題定義為“根據(jù)客戶轉(zhuǎn)換的可能性優(yōu)先考慮”,我們將會(huì)得到包括類似客戶對(duì)公司各種外展活動(dòng)的響應(yīng)率等特征。如果我們將問題定義為“優(yōu)先考慮最可能償還貸款的客戶”,我們就不會(huì)得到這些特征,因?yàn)樗鼈兣c評(píng)估客戶的可能性無關(guān)。

目標(biāo)函數(shù)的選擇

目標(biāo)函數(shù)是你要優(yōu)化的目標(biāo),或者是模型試圖預(yù)測(cè)的結(jié)果。例如,如果你向用戶推薦他們可能感興趣的商品,則模型的輸出可能是用戶在看到商品時(shí)點(diǎn)擊該商品的概率,也可能是用戶購買商品的概率。目標(biāo)函數(shù)的選擇主要取決于業(yè)務(wù)目標(biāo),在這個(gè)例子中,你對(duì)用戶的參與感興趣(目標(biāo)函數(shù)可能是點(diǎn)擊或停留的時(shí)間)還是對(duì)營業(yè)收入感興趣(目標(biāo)函數(shù)是購買)?另一個(gè)要考慮的關(guān)鍵因素是數(shù)據(jù)的可用性:對(duì)于要學(xué)習(xí)的算法,你必須提供大量“標(biāo)記”為正(用戶看到并點(diǎn)擊的產(chǎn)品)或負(fù)(用戶看到的產(chǎn)品,但沒有點(diǎn)擊)的數(shù)據(jù)點(diǎn)。

二、如何開發(fā)機(jī)器學(xué)習(xí)模型?

摘要: 創(chuàng)建一個(gè)優(yōu)秀的機(jī)器學(xué)習(xí)模型跟創(chuàng)建其他產(chǎn)品是一樣的:首先從構(gòu)思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對(duì)解決方案進(jìn)行原型化,然后對(duì)它進(jìn)行測(cè)試以確定是否滿足需求,不妨看看本文是如何一步一步實(shí)現(xiàn)的。

建模步驟一覽

從較高的層次上來講,創(chuàng)建一個(gè)優(yōu)秀的機(jī)器學(xué)習(xí)模型跟創(chuàng)建其他任何產(chǎn)品是一樣的:首先從構(gòu)思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對(duì)解決方案進(jìn)行原型化,然后對(duì)它進(jìn)行測(cè)試以確定是否滿足需求。你需要在構(gòu)思、原型設(shè)計(jì)和測(cè)試之間不斷地迭代,直到你的解決方案足夠好,并能夠投入市場(chǎng),此時(shí)你就可以將其產(chǎn)品化,并發(fā)布出去?,F(xiàn)在,我們來看看每個(gè)階段的細(xì)節(jié)吧。

由于數(shù)據(jù)是機(jī)器學(xué)習(xí)的重要組成部分,因此我們需要在產(chǎn)品開發(fā)過程之上進(jìn)行數(shù)據(jù)分層,因此我們的流程如下所示:

  • 構(gòu)思。讓待解決的關(guān)鍵問題和針對(duì)解決方案的潛在數(shù)據(jù)輸入保持一致。
  • 數(shù)據(jù)準(zhǔn)備。以一種有用的格式收集和獲取數(shù)據(jù),以便對(duì)模型進(jìn)行理解和學(xué)習(xí)。
  • 原型與測(cè)試。建立一個(gè)或一組模型來解決問題,測(cè)試它們執(zhí)行和迭代的程度,直到有一個(gè)模型能得到令人滿意的結(jié)果。
  • 產(chǎn)品化。讓模型以及數(shù)據(jù)收集與處理穩(wěn)定化、規(guī)?;?,以便在生產(chǎn)環(huán)境中生成有用的輸出。

構(gòu)思

這個(gè)階段的目標(biāo)是要讓模型解決的關(guān)鍵問題、目標(biāo)函數(shù)和潛在的輸入作為一個(gè)整體與模型保持一致。

  • 與問題保持一致。如前所述,機(jī)器學(xué)習(xí)可用于解決真正的業(yè)務(wù)問題。請(qǐng)確保你的團(tuán)隊(duì)和公司中的所有利益相關(guān)者就你正在解決的問題以及如何使用解決方案達(dá)成一致。
  • 選擇目標(biāo)函數(shù)。待解決的問題決定了模型的目標(biāo)是什么。模型試圖預(yù)測(cè)的目標(biāo)函數(shù)是什么?你是否在查找數(shù)據(jù)中的模式?例如,將照片集按照某種特征分成多個(gè)組。
  • 定義質(zhì)量指標(biāo)。你如何衡量模型的質(zhì)量?在沒有看到真正結(jié)果的時(shí)候,一般很難預(yù)見可接受的質(zhì)量,但目標(biāo)的定向性對(duì)此是有幫助的。
  • 集思廣益所有可能的輸入。你的目標(biāo)是確定哪些數(shù)據(jù)可以幫你解決問題或者做出決定。最有幫助的問題是:“專家會(huì)如何處理這個(gè)問題”。考慮一下解決方案將以什么樣的變量或者數(shù)據(jù)為基礎(chǔ)。每一個(gè)可能影響人類判斷的因素是否都應(yīng)該測(cè)試。請(qǐng)盡可能廣泛地搜集這些問題的答案。了解關(guān)鍵因素可能需要有商業(yè)方面專業(yè)的知識(shí),這是企業(yè)或者產(chǎn)品人員需要在此階段中頻繁參與的重要原因之一。數(shù)據(jù)團(tuán)隊(duì)將不得不將這些潛在的輸入轉(zhuǎn)化為模型特征。請(qǐng)注意,為了將輸入轉(zhuǎn)換為特征,可能需要額外的處理,后面我們會(huì)詳細(xì)討論這個(gè)。

數(shù)據(jù)準(zhǔn)備

本階段的目標(biāo)是收集原始數(shù)據(jù),并將其作為原型模型的輸入。你可能需要對(duì)原始數(shù)據(jù)進(jìn)行復(fù)雜的轉(zhuǎn)換才能使其成為輸入數(shù)據(jù)。例如,假設(shè)你的某個(gè)特征是消費(fèi)者對(duì)品牌的看法:你首先需要找到消費(fèi)者談?wù)撈放频南嚓P(guān)來源。如果品牌名稱包括常用詞(例如“蘋果”),則需要將品牌名稱與一般情況下的含義(與水果有關(guān))區(qū)分開來,然后再通過觀點(diǎn)分析模型來運(yùn)行,所有這些都要在構(gòu)建原型之前完成。并非所有的特征構(gòu)建起來都很復(fù)雜,但有些可能需要耗費(fèi)大量的工作。

讓我們來更詳細(xì)地了解一下這個(gè)階段需要做什么:

  • 以最快的速度收集數(shù)據(jù)。首先,確定缺少了哪些數(shù)據(jù)。在某些情況下,你可能需要對(duì)必要的輸入分解到“構(gòu)建塊”級(jí)別,或者是到代理級(jí)別,這樣才能更方便地獲取到數(shù)據(jù)。一旦確定下來缺少哪些數(shù)據(jù),就要以最快捷、最簡(jiǎn)單的方法去獲取。對(duì)于不可擴(kuò)展的方法,比如手工下載或購買數(shù)據(jù)樣本,即使代價(jià)有點(diǎn)高但可能卻是最實(shí)際的方法。在這個(gè)階段采集太多的數(shù)據(jù)通常沒有太大的意義,因?yàn)槟悴涣私鈹?shù)據(jù)是否有用,哪種格式***,等等。商業(yè)人士應(yīng)該參與到這個(gè)階段中來,因?yàn)樗麄兛梢詤f(xié)助數(shù)據(jù)專家們從大量的渠道獲取到原本不太容易獲取的數(shù)據(jù)。請(qǐng)注意,在監(jiān)督學(xué)習(xí)算法中,你不僅需要用于模型特征的數(shù)據(jù),你還需要為模型的目標(biāo)函數(shù)提供數(shù)據(jù)點(diǎn),以進(jìn)行訓(xùn)練、驗(yàn)證以及測(cè)試模型?;氐椒?jī)r(jià)那個(gè)例子,為了建立一個(gè)預(yù)測(cè)房?jī)r(jià)的模型,你需要一些包含房?jī)r(jià)的房屋信息!
  • 數(shù)據(jù)清洗與規(guī)范化。在這個(gè)階段中,數(shù)據(jù)科學(xué)或工程團(tuán)隊(duì)將承擔(dān)起主要的工作職責(zé)。他們將投入大部分的精力把構(gòu)思和原始數(shù)據(jù)轉(zhuǎn)化為實(shí)際的模型。數(shù)據(jù)集需要進(jìn)行檢查和清洗,以避免使用不良數(shù)據(jù)以及不相關(guān)的異常值等等。同時(shí),數(shù)據(jù)還可能會(huì)以不同的比例進(jìn)行轉(zhuǎn)換,以使其更容易地與其他數(shù)據(jù)集一致,并能一起使用。特別是在處理文字和圖像的時(shí)候,通常需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以提取相關(guān)的信息。例如,將太多太大的圖像插入模型可能會(huì)導(dǎo)致信息過量而無法處理,因此你可能需要降低圖片的質(zhì)量、使用圖像的其中一部分或僅使用對(duì)象輪廓。對(duì)于文本,你可能需要檢測(cè)與文本相關(guān)的實(shí)體,進(jìn)行觀點(diǎn)分析,查找常用的n-gram(經(jīng)常用于表示一定數(shù)量單詞的序列)或執(zhí)行各種其他的轉(zhuǎn)換。這些通??捎涩F(xiàn)成的庫來實(shí)現(xiàn),無需重新發(fā)明輪子。

原型與測(cè)試

這個(gè)階段的目標(biāo)是獲得一個(gè)模型的原型,測(cè)試并對(duì)它進(jìn)行迭代,直到能夠得到一個(gè)足夠好并且能夠用于生產(chǎn)的的模型。

  • 構(gòu)建原型。一旦數(shù)據(jù)準(zhǔn)備完畢,數(shù)據(jù)科學(xué)團(tuán)隊(duì)就可以開始研究實(shí)際的模型了。這個(gè)階段涉及到大量的實(shí)驗(yàn),比如選擇最相關(guān)的特征、測(cè)試多種算法等。這并不是一個(gè)簡(jiǎn)單的任務(wù),獲得用于生產(chǎn)模型在時(shí)間計(jì)劃上并不好把控。
  • 驗(yàn)證和測(cè)試原型。在這個(gè)階段中,數(shù)據(jù)科學(xué)家的職責(zé)就是要確保最終生成的模型盡可能的好。他們將根據(jù)預(yù)定義的質(zhì)量度量標(biāo)準(zhǔn)來評(píng)估模型的性能,比較不同算法下模型的性能,調(diào)整各種參數(shù)并對(duì)最終的模型進(jìn)行性能測(cè)試。對(duì)于監(jiān)督學(xué)習(xí),需要確定模型預(yù)測(cè)的結(jié)果是否能夠滿足你的需求。對(duì)于無監(jiān)督學(xué)習(xí),根據(jù)問題的不同,有多種不同的性能評(píng)估技術(shù)。以聚類為例,你可以輕松地繪制出在多個(gè)維度上聚類的對(duì)象。如果算法使用了關(guān)鍵字來標(biāo)記文檔,那么關(guān)鍵字是否有意義呢?在打標(biāo)記失敗或重要用例丟失的情況下,是否有明顯的差距呢?這并不能代替更加科學(xué)的方法,但在實(shí)踐上有助于快速改進(jìn)。
  • 迭代。此時(shí),你需要與團(tuán)隊(duì)一起來決定是否需要進(jìn)一步的迭代。該模型與你的預(yù)期有多少相符?它是否表現(xiàn)得足夠好,讓你目前的業(yè)務(wù)狀況得到顯著的改善?是否有特別薄弱的方面?是否需要更多的數(shù)據(jù)點(diǎn)?你能想到其他特征來提高性能嗎?是否有替代數(shù)據(jù)源可以提高模型的輸入質(zhì)量?等等。這些都需要集思廣益。

產(chǎn)品化

當(dāng)原型模型能夠很好地解決業(yè)務(wù)問題,并能進(jìn)入生產(chǎn)的時(shí)候,你就來到了這個(gè)階段。請(qǐng)注意,如果尚未準(zhǔn)備好進(jìn)行全面的產(chǎn)品化,你需要首先確定模型要擴(kuò)展的比例。比如說,對(duì)于一個(gè)電影推薦工具:你可能是先對(duì)少數(shù)用戶提供推薦服務(wù),但要為每個(gè)用戶提供完整的使用體驗(yàn),在這種情況下,模型就要根據(jù)每個(gè)用戶的相關(guān)性對(duì)數(shù)據(jù)庫中的每個(gè)電影進(jìn)行排序。與僅推薦動(dòng)作電影相比,這是另一個(gè)不同的擴(kuò)展要求。

現(xiàn)在,我們來探討一下有關(guān)將模型生產(chǎn)化的更多的技術(shù)細(xì)節(jié):

  • 增加數(shù)據(jù)覆蓋率。在很多情況下,你可以用比生產(chǎn)中更少更有限的數(shù)據(jù)來構(gòu)建原型。例如,你可以根據(jù)特定客戶來構(gòu)建原型,然后將其擴(kuò)展到整個(gè)客戶群。
  • 擴(kuò)展數(shù)據(jù)收集。一旦驗(yàn)證了哪些數(shù)據(jù)對(duì)模型有用,你需要構(gòu)建一種可擴(kuò)展的方式來收集和獲取數(shù)據(jù)。在原型設(shè)計(jì)階段,以手動(dòng)方式來收集數(shù)據(jù)還是可以的,但是對(duì)于生產(chǎn),你應(yīng)該盡可能地自動(dòng)化。
  • 刷新數(shù)據(jù)。創(chuàng)建一個(gè)隨時(shí)間刷新數(shù)據(jù)的機(jī)制,以更新現(xiàn)有值或添加新信息。除非由于某種原因不能保留歷史數(shù)據(jù),否則系統(tǒng)應(yīng)該要以某種方式來持續(xù)積累更多的數(shù)據(jù)。
  • 擴(kuò)展模型。這個(gè)包含了數(shù)據(jù)科學(xué)和工程學(xué)兩個(gè)方面的內(nèi)容。從數(shù)據(jù)科學(xué)的角度來講,如果你更改了基礎(chǔ)數(shù)據(jù),例如擴(kuò)大了客戶群的數(shù)量,就需要重新訓(xùn)練和測(cè)試模型。在特定數(shù)據(jù)集上工作良好的模型并不一定能適用于更廣泛或其他不同的數(shù)據(jù)集。從架構(gòu)上來講,模型需要能夠在數(shù)據(jù)不斷增長的基礎(chǔ)上及時(shí)擴(kuò)展以進(jìn)行更頻繁地運(yùn)行。在電影推薦示例中,可能會(huì)有更多的用戶、更多的電影以及有關(guān)每個(gè)用戶喜好的更多信息。
  • 檢查特殊值。雖然模型也許在整體上可以很好地?cái)U(kuò)展,但在某些很小但很重要的情況下可能就無法正常工作了。例如,電影推薦的平均使用效果可能還不錯(cuò),但對(duì)于家長來說,如果他們用自己的賬號(hào)為孩子選擇了電影,那么推薦系統(tǒng)就會(huì)顯示兒童電影。這是一個(gè)產(chǎn)品設(shè)計(jì)問題,你需要在產(chǎn)品中將父母自己的建議與為孩子的建議分開來,但是,這并不是模型可以告訴你的。

到目前為止,我所描述的是一個(gè)概念性的流程。在現(xiàn)實(shí)中,界限一般比較模糊,你經(jīng)常需要在不同階段之間來回走動(dòng)。你可能會(huì)對(duì)數(shù)據(jù)的供給不滿意,從而考慮重來,或者在模型產(chǎn)品化之后,你發(fā)現(xiàn)模型并不能很好的工作,你不得不退回去重新構(gòu)建原型。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2020-12-31 08:00:00

機(jī)器學(xué)習(xí)人工智能工程師

2020-07-13 14:50:51

機(jī)器學(xué)習(xí)模型算法

2020-09-22 14:59:52

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2017-07-13 10:12:58

機(jī)器學(xué)習(xí)

2016-11-15 15:02:00

機(jī)器學(xué)習(xí)算法

2022-05-18 16:24:36

PythonPyCaret機(jī)器學(xué)習(xí)

2020-12-16 15:56:26

機(jī)器學(xué)習(xí)人工智能Python

2021-01-25 09:00:00

機(jī)器學(xué)習(xí)人工智能算法

2017-07-07 14:41:13

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)JavaScript

2021-11-02 09:40:50

TensorFlow機(jī)器學(xué)習(xí)人工智能

2022-06-02 15:42:05

Python機(jī)器學(xué)習(xí)

2024-05-23 16:48:42

機(jī)器學(xué)習(xí)算法人工智能

2017-05-05 09:56:08

神經(jīng)網(wǎng)絡(luò)模型繪畫

2017-03-24 15:58:46

互聯(lián)網(wǎng)

2018-09-10 11:40:26

機(jī)器學(xué)習(xí)數(shù)據(jù)準(zhǔn)備算法

2020-06-18 16:05:20

機(jī)器學(xué)習(xí)人工智能算法

2018-11-14 07:41:58

機(jī)器學(xué)習(xí)算法感知器

2024-05-27 00:05:00

2018-08-03 10:30:16

算法回歸機(jī)器學(xué)習(xí)

2023-11-02 08:32:11

機(jī)器學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)