偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

掌握這六步,搭建機(jī)器學(xué)習(xí)項(xiàng)目

人工智能
機(jī)器學(xué)習(xí)覆蓋的范圍十分廣泛。這篇文章將整體描述機(jī)器學(xué)習(xí)適用的典型問(wèn)題,提供實(shí)現(xiàn)機(jī)器學(xué)習(xí)項(xiàng)目雛形的框架。

上圖白板展示了一系列機(jī)器學(xué)習(xí)項(xiàng)目啟動(dòng)

機(jī)器學(xué)習(xí)覆蓋的范圍十分廣泛。這篇文章將整體描述機(jī)器學(xué)習(xí)適用的典型問(wèn)題,提供實(shí)現(xiàn)機(jī)器學(xué)習(xí)項(xiàng)目雛形的框架。

首先厘清一些定義。

機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù)科學(xué)區(qū)別何在?

這三個(gè)主題沒(méi)有明確的定義,因而有些難以理解。為防止誤解,我們將問(wèn)題簡(jiǎn)化。讀者可以認(rèn)為本文提到的機(jī)器學(xué)習(xí)就是發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律,以理解某些問(wèn)題或者預(yù)測(cè)未來(lái)事件。

希望讀者在閱讀以下步驟時(shí)能邊學(xué)邊做,檢驗(yàn)結(jié)果。在實(shí)踐中學(xué)習(xí)。

一條機(jī)器學(xué)習(xí)管道可以被分解成三個(gè)主要步驟:數(shù)據(jù)收集、數(shù)據(jù)建模和模型運(yùn)用。這三個(gè)步驟相互影響、環(huán)環(huán)相扣。

啟動(dòng)項(xiàng)目時(shí),你可能走入如下循環(huán):收集數(shù)據(jù),對(duì)其建模,發(fā)現(xiàn)收集到的數(shù)據(jù)質(zhì)量較差,重新收集數(shù)據(jù),建模,運(yùn)用這一模型,發(fā)現(xiàn)它并不管用,重新建模,運(yùn)用,發(fā)現(xiàn)新模型仍然沒(méi)用,再次收集數(shù)據(jù)……

等等,模型是什么?運(yùn)用又是什么?如何收集數(shù)據(jù)?

好問(wèn)題。

收集數(shù)據(jù)的方式取決于問(wèn)題。下文將展示一些例子,讀者也可以看看電子表中的顧客購(gòu)買(mǎi)記錄。

建模就是運(yùn)用機(jī)器學(xué)習(xí)算法從收集到的數(shù)據(jù)中尋找知識(shí)。

普通算法和機(jī)器學(xué)習(xí)算法的區(qū)別是什么?

普通的算法就像菜譜,是把原料轉(zhuǎn)換為美味菜肴的一系列指令。

機(jī)器學(xué)習(xí)的特殊之處在于,原始條件是材料和菜肴,而非指令。機(jī)器學(xué)習(xí)算法研究原料和菜肴,給出轉(zhuǎn)換所需的指令。

機(jī)器學(xué)習(xí)算法多種多樣,不同算法解決不同問(wèn)題的性能不同,但是它們的目標(biāo)一致,即尋找數(shù)據(jù)中的模式或者指令集。

運(yùn)用就是實(shí)際應(yīng)用找到的指令集。運(yùn)用的形式多種多樣,既可以是在網(wǎng)絡(luò)商店中向顧客推薦商品,也可以是為醫(yī)療機(jī)構(gòu)尋找更好的疾病檢測(cè)方案。

不同項(xiàng)目中每個(gè)步驟的具體細(xì)節(jié)不盡相同,但是原理基本相似。

本文重點(diǎn)講解數(shù)據(jù)建模。假設(shè)讀者已經(jīng)收集到了數(shù)據(jù),正準(zhǔn)備用它構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型。這個(gè)過(guò)程可以分為以下幾步:

 

掌握這六步,搭建<span><span><span><i style=完美的機(jī)器學(xué)習(xí)項(xiàng)目" src="http://p9.pstatp.com/large/pgc-image/278cd0d2bfac4070a450306dc3ae8b4c" width="640" height="251">

 

機(jī)器學(xué)習(xí)項(xiàng)目可以分為三步,數(shù)據(jù)收集,建模和模型運(yùn)用。本文主要關(guān)注建模階段,并假設(shè)讀者已經(jīng)擁有數(shù)據(jù)。

1. 問(wèn)題定義——要解決的商業(yè)問(wèn)題是什么?如何把它轉(zhuǎn)化為機(jī)器學(xué)習(xí)問(wèn)題?

2. 數(shù)據(jù)——既然機(jī)器學(xué)習(xí)是在數(shù)據(jù)中洞察規(guī)律,那么數(shù)據(jù)是什么類(lèi)型的?它如何與問(wèn)題產(chǎn)生關(guān)聯(lián)?數(shù)據(jù)是結(jié)構(gòu)性的還是無(wú)結(jié)構(gòu)的?靜態(tài)的還是動(dòng)態(tài)的?

3. 模型評(píng)估——怎么樣才算成功?準(zhǔn)確率95%的機(jī)器學(xué)習(xí)模型夠好嗎?

4. 變量——需要使用哪一部分?jǐn)?shù)據(jù)?已知信息如何影響數(shù)據(jù)使用?

5. 建模——選擇哪個(gè)模型?如何改進(jìn)?如何比較不同模型的性能?

6. 實(shí)驗(yàn)——還可以做什么嘗試?模型的表現(xiàn)符合預(yù)期嗎?已知信息如何影響其他步驟?

下面深入討論上述問(wèn)題。

 

1. 問(wèn)題定義——把商業(yè)問(wèn)題改寫(xiě)成機(jī)器學(xué)習(xí)問(wèn)題

判斷能否運(yùn)用機(jī)器學(xué)習(xí),第一步是把待解決的商業(yè)問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)問(wèn)題。

有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)和強(qiáng)化學(xué)習(xí)是四種主要的機(jī)器學(xué)習(xí)技術(shù)(此處為了行文簡(jiǎn)單,省略了半監(jiān)督學(xué)習(xí))。其中監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)最常應(yīng)用于商業(yè)項(xiàng)目。

有監(jiān)督學(xué)習(xí)

  1. 已知數(shù)據(jù)和類(lèi)標(biāo)的機(jī)器學(xué)習(xí)稱(chēng)為監(jiān)督學(xué)習(xí)。機(jī)器學(xué)習(xí)算法旨在研究影響類(lèi)標(biāo)的因素。監(jiān)督發(fā)生在訓(xùn)練階段。如果算法猜錯(cuò)了類(lèi)標(biāo),它會(huì)嘗試自我修正。
  2. 比如,如果試圖檢測(cè)某人是否患有心臟病,可以把100份匿名病歷作為數(shù)據(jù),是否患有心臟病作為類(lèi)標(biāo)。
  3. 機(jī)器學(xué)習(xí)算法可以研究病歷(輸入)以及病人是否患有心臟病(輸出),然后判斷病歷中的哪些指標(biāo)導(dǎo)致心臟病。
  4. 訓(xùn)練好算法之后,就可以把新病歷(輸入)傳給算法,算法將預(yù)測(cè)患者是否患有心臟病(輸出)。算法返回的結(jié)果只是患病概率的大小,它并不絕對(duì)。
  5. 算法會(huì)告訴你:“基于觀察,這個(gè)人的病歷和心臟病人的病歷相似度達(dá)到70%。”

無(wú)監(jiān)督學(xué)習(xí)

有數(shù)據(jù)而沒(méi)有類(lèi)標(biāo)的機(jī)器學(xué)習(xí)稱(chēng)為無(wú)監(jiān)督學(xué)習(xí)。以在線電子游戲商店的顧客支付記錄為例。可能希望使用這些數(shù)據(jù)將顧客分組,從而提供個(gè)性化服務(wù)??梢允褂脵C(jī)器學(xué)習(xí)算法來(lái)完成這一任務(wù)。

觀察分組之后人為給出類(lèi)標(biāo)。有些組可能對(duì)電腦游戲感興趣,有些組則更喜歡獨(dú)立游戲,還有的組只購(gòu)買(mǎi)打折游戲。這一過(guò)程稱(chēng)為聚類(lèi)。

一定要記住算法不提供類(lèi)標(biāo),它只是尋找相似顧客間的規(guī)律。類(lèi)標(biāo)需要專(zhuān)業(yè)人士運(yùn)用專(zhuān)業(yè)知識(shí)給出。

遷移學(xué)習(xí)

遷移學(xué)習(xí)改進(jìn)已有機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)的規(guī)律,將其用于學(xué)習(xí)新問(wèn)題。

從零開(kāi)始訓(xùn)練機(jī)器學(xué)習(xí)模型可能浪費(fèi)大量金錢(qián)和時(shí)間。好在并不總是需要自己搭建模型。有時(shí)機(jī)器學(xué)習(xí)算法在一類(lèi)數(shù)據(jù)中找到的規(guī)律可以用于另一類(lèi)數(shù)據(jù)。

比如一家汽車(chē)保險(xiǎn)公司想要搭建一個(gè)文本分類(lèi)模型,以判斷保險(xiǎn)申請(qǐng)人是否需要承擔(dān)事故責(zé)任。

可以使用一個(gè)通讀過(guò)維基百科并且記住了單詞間規(guī)律(比如哪些詞可能搭配出現(xiàn))的已有模型。使用保險(xiǎn)申請(qǐng)書(shū)(數(shù)據(jù))及其結(jié)果(類(lèi)標(biāo))對(duì)模型進(jìn)行微調(diào),就可以把它運(yùn)用于你的問(wèn)題。

商業(yè)項(xiàng)目中所用到的機(jī)器學(xué)習(xí)技術(shù)很可能屬于以上三個(gè)類(lèi)別。

接下來(lái)再把它們細(xì)分為分類(lèi)、回歸和推薦。

  • 分類(lèi)——預(yù)測(cè)事物所屬的類(lèi)別。比如顧客是否會(huì)購(gòu)買(mǎi)某種商品,或者某人是否患有心臟病。注意,類(lèi)別可以多于兩種。把事物分為兩類(lèi)稱(chēng)為二元分類(lèi),分為三類(lèi)及以上稱(chēng)為多元分類(lèi)。多標(biāo)簽指的是同一事物可以同時(shí)屬于多類(lèi)。
  • 回歸——預(yù)測(cè)具體數(shù)值。比如房屋的售價(jià),或者下個(gè)月訪問(wèn)網(wǎng)站的人數(shù)。
  • 推薦——向某人推薦某物。比如基于購(gòu)買(mǎi)記錄為顧客推薦商品,或者基于閱讀記錄向讀者推薦書(shū)目。

了解了這些,下一步就是用機(jī)器學(xué)習(xí)術(shù)語(yǔ)描述商業(yè)問(wèn)題。

沿用剛才的汽車(chē)保險(xiǎn)案例。保險(xiǎn)公司的員工每天需要閱讀成千上萬(wàn)的申請(qǐng)書(shū),并判斷申請(qǐng)人是否應(yīng)該承擔(dān)事故責(zé)任。

但現(xiàn)在申請(qǐng)的數(shù)量逐漸超出員工處理能力。而公司擁有成千上萬(wàn)的申請(qǐng)書(shū)記錄,每一份都標(biāo)注了申請(qǐng)人是否應(yīng)負(fù)事故責(zé)任。

機(jī)器學(xué)習(xí)能派上用場(chǎng)嗎?

讀者想必已經(jīng)知道答案。但還是來(lái)驗(yàn)證一下。這一問(wèn)題能歸到上述的三類(lèi)問(wèn)題——分類(lèi)、回歸或者聚類(lèi)之中嗎?

重新描述這一問(wèn)題。

一家汽車(chē)保險(xiǎn)公司希望把收到的保險(xiǎn)申請(qǐng)分為申請(qǐng)人應(yīng)負(fù)責(zé)任和申請(qǐng)人無(wú)責(zé)任兩類(lèi)。

看到分類(lèi)這個(gè)關(guān)鍵詞了嗎?

分析結(jié)果是,這可能是個(gè)潛在的機(jī)器學(xué)習(xí)分類(lèi)問(wèn)題。“潛在”是因?yàn)闄C(jī)器學(xué)習(xí)也可能無(wú)法解決這個(gè)問(wèn)題。

把商業(yè)問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)問(wèn)題時(shí),盡量由淺入深。在起始階段,超過(guò)一個(gè)句子的問(wèn)題描述都是多余的。必要時(shí)再把問(wèn)題復(fù)雜化。

 

2. 數(shù)據(jù)——數(shù)據(jù)是什么類(lèi)型的?它如何與問(wèn)題產(chǎn)生關(guān)聯(lián)?

已擁有或者需要收集的數(shù)據(jù)取決于待解決的問(wèn)題。

已有的數(shù)據(jù)可能是結(jié)構(gòu)數(shù)據(jù)或者非結(jié)構(gòu)數(shù)據(jù)。這兩種數(shù)據(jù)又可以分別分為靜態(tài)或動(dòng)態(tài)數(shù)據(jù)。

  • 結(jié)構(gòu)數(shù)據(jù)——比如由許多行和列構(gòu)成的表格,記錄顧客交易信息的電子表,存儲(chǔ)病歷的數(shù)據(jù)庫(kù)。數(shù)據(jù)可能是數(shù)值,比如平均心率;也可能是類(lèi)別,比如性別;或者等級(jí),比如胸痛程度。
  • 非結(jié)構(gòu)數(shù)據(jù)——無(wú)法被簡(jiǎn)單地制成表格的數(shù)據(jù),比如圖片、音頻文件和自然語(yǔ)言文本。
  • 靜態(tài)數(shù)據(jù)——現(xiàn)存的、無(wú)法改變的歷史數(shù)據(jù)。比如顧客購(gòu)買(mǎi)記錄。
  • 動(dòng)態(tài)數(shù)據(jù)——經(jīng)常更新的數(shù)據(jù),可能更改舊紀(jì)錄或不斷添加新紀(jì)錄。

這四類(lèi)數(shù)據(jù)可能彼此重疊。

靜態(tài)的結(jié)構(gòu)化信息表也可能包含不斷更新的文本和照片。

用于預(yù)測(cè)心臟病的數(shù)據(jù)表中可能包含性別、平均心率、平均血壓和胸痛程度。

在保險(xiǎn)申請(qǐng)書(shū)的例子中,可能有一項(xiàng)數(shù)據(jù)是發(fā)送的文本,另一項(xiàng)是照片,最后是申請(qǐng)結(jié)果。隨著新申請(qǐng)的輸入和舊申請(qǐng)的更改,表格將不斷更新。

 

掌握這六步,搭建<span><span><span><i style=完美的機(jī)器學(xué)習(xí)項(xiàng)目" src="http://p3.pstatp.com/large/pgc-image/7570d203ba3b4389b8b41c5a4687576e" width="640" height="295">

 

兩種不同類(lèi)型的結(jié)構(gòu)數(shù)據(jù)。表格1.0包含數(shù)值和類(lèi)別數(shù)據(jù)。表格2.0以結(jié)構(gòu)化形式包含圖片和自然語(yǔ)言文本等非結(jié)構(gòu)數(shù)據(jù)。

兩種不同類(lèi)型的結(jié)構(gòu)數(shù)據(jù)。表格1.0包含數(shù)值和類(lèi)別數(shù)據(jù)。表格2.0以結(jié)構(gòu)化形式包含圖片和自然語(yǔ)言文本等非結(jié)構(gòu)數(shù)據(jù)。

盡管數(shù)據(jù)種類(lèi)不同,原則都是一致的,那就是使用數(shù)據(jù)以獲取知識(shí)或者預(yù)測(cè)事件。

有監(jiān)督學(xué)習(xí)使用特征變量來(lái)預(yù)測(cè)目標(biāo)變量。預(yù)測(cè)心臟病可能需要用到性別這一特征變量,目標(biāo)變量可能是病人是否患有心臟病。

 

掌握這六步,搭建<span><span><span><i style=完美的機(jī)器學(xué)習(xí)項(xiàng)目" src="http://p1.pstatp.com/large/pgc-image/41fbf39eb8e24400819ac79544aaf435" width="640" height="410">

 

表格1.0分成ID欄(黃色部分,不用于構(gòu)建機(jī)器學(xué)習(xí)模型),特征變量(橘色部分)和目標(biāo)變量(綠色)。機(jī)器學(xué)習(xí)模型識(shí)別出特征變量中的規(guī)律,用它來(lái)預(yù)測(cè)目標(biāo)變量。

無(wú)監(jiān)督學(xué)習(xí)沒(méi)有類(lèi)標(biāo),但仍然需要發(fā)現(xiàn)規(guī)律。這意味著把相近的樣本分為一類(lèi),并找出離群值。

遷移學(xué)習(xí)和有監(jiān)督學(xué)習(xí)需要解決相同的問(wèn)題,除非要自行改變從別處得到的機(jī)器學(xué)習(xí)算法。

記住,使用客戶數(shù)據(jù)來(lái)改進(jìn)商業(yè)模式或者服務(wù)質(zhì)量時(shí),一定要讓他們知情。這就是為什么到處都能看到“本網(wǎng)站使用cookies”的提示。這些網(wǎng)站研究用戶的瀏覽習(xí)慣,使用機(jī)器學(xué)習(xí)來(lái)改進(jìn)服務(wù)。

 

3. 評(píng)估——如何定義成功的機(jī)器學(xué)習(xí)模型?準(zhǔn)確率95%足夠好嗎?

已經(jīng)把商業(yè)問(wèn)題轉(zhuǎn)化成機(jī)器學(xué)習(xí)問(wèn)題,也已經(jīng)擁有數(shù)據(jù)。接下來(lái)考慮如何判斷模型是否成功。

分類(lèi)、回歸和推薦問(wèn)題的評(píng)價(jià)標(biāo)準(zhǔn)不同。選擇何種標(biāo)準(zhǔn)取決于問(wèn)題類(lèi)別。

要讓這個(gè)項(xiàng)目成功,模型的準(zhǔn)確率至少需要達(dá)到95%。

用準(zhǔn)確率95%的模型分析保險(xiǎn)申請(qǐng)的責(zé)任人或許綽綽有余。但是心臟疾病檢測(cè)可能需要更精確的結(jié)果。

下面是分類(lèi)問(wèn)題中需要考慮的其他事項(xiàng)。

  • 假陰性——模型預(yù)測(cè)結(jié)果為陰性,但結(jié)果實(shí)際上為陽(yáng)性。對(duì)于預(yù)測(cè)垃圾郵件這樣的問(wèn)題來(lái)說(shuō),假陰性可能無(wú)關(guān)緊要。但如果自動(dòng)駕駛車(chē)輛的計(jì)算機(jī)視覺(jué)系統(tǒng)沒(méi)有檢測(cè)到行人,就可能釀成大禍。
  • 假陽(yáng)性——模型預(yù)測(cè)結(jié)果為陽(yáng)性,但結(jié)果實(shí)際上為陰性。某人被診斷患有心臟病而實(shí)際上并未患病。只要沒(méi)有對(duì)病人的生活習(xí)慣造成不良影響或者進(jìn)行無(wú)謂的治療,這樣的錯(cuò)誤可能無(wú)關(guān)緊要。
  • 真陰性——模型預(yù)測(cè)結(jié)果為陰性,真實(shí)結(jié)果也為陰性。這是理想的結(jié)果。
  • 真陽(yáng)性——模型預(yù)測(cè)結(jié)果為陽(yáng)性,真實(shí)結(jié)果也為陽(yáng)性。這也是理想的結(jié)果。
  • 準(zhǔn)確率——符合真實(shí)結(jié)果的陽(yáng)性預(yù)測(cè)的比例。一個(gè)沒(méi)有產(chǎn)生假陽(yáng)性結(jié)果的模型準(zhǔn)確率為1.0。
  • 查全率——檢測(cè)出的陽(yáng)性結(jié)果占所有陽(yáng)性結(jié)果的比值。一個(gè)沒(méi)有產(chǎn)生假陰性結(jié)果的模型查全率為1.0。
  • F1值——準(zhǔn)確率和查全率的綜合結(jié)果,數(shù)值越接近1越好。
  • 接收者操作特征(ROC)曲線和曲線下面積(AUC)——ROC曲線的圖像用于比較真陽(yáng)性和假陽(yáng)性率。AUC是ROC曲線下的區(qū)域。完全錯(cuò)誤的模型AUC為0.0,完全正確的模型AUC為1.0。

回歸問(wèn)題(關(guān)于數(shù)值預(yù)測(cè))需要降低預(yù)測(cè)結(jié)果和真實(shí)值之間的誤差。預(yù)測(cè)房屋售價(jià)時(shí),模型的預(yù)測(cè)結(jié)果越接近實(shí)際價(jià)格越好。使用MAE或者RMSE來(lái)度量這一誤差。

  • 平均絕對(duì)誤差(MAE)——模型預(yù)測(cè)結(jié)果和實(shí)際值間的平均誤差。
  • 根均方誤差(RMSE)——模型預(yù)測(cè)結(jié)果和實(shí)際值間的平均方差

如果想讓數(shù)值大的錯(cuò)誤更加顯著就使用RMSE來(lái)度量。比如預(yù)測(cè)為20萬(wàn)美元的房子實(shí)際價(jià)格為30萬(wàn)美元,差值為10萬(wàn)比差值為5萬(wàn)的結(jié)果要壞一倍以上。如果差值為10萬(wàn)比差值為5萬(wàn)壞一倍,那就使用MAE來(lái)度量。

推薦問(wèn)題的解決方案更難測(cè)試。一種方式是在建模時(shí)隱藏部分?jǐn)?shù)據(jù)。建模完成后再預(yù)測(cè)這部分?jǐn)?shù)據(jù)的推薦結(jié)果,觀察它與實(shí)際結(jié)果的相關(guān)性。

比如為顧客推薦網(wǎng)店商品時(shí),已知2010至2019年度的購(gòu)買(mǎi)記錄。可以使用2010至2018年的數(shù)據(jù)來(lái)構(gòu)建模型,然后用模型來(lái)預(yù)測(cè)2019年的情況。這樣就把問(wèn)題轉(zhuǎn)化為了分類(lèi),因?yàn)槟繕?biāo)變?yōu)榱舜_認(rèn)某人是否可能購(gòu)買(mǎi)某件商品。

然而,傳統(tǒng)的分類(lèi)方法并不是推薦問(wèn)題的最優(yōu)解。準(zhǔn)確率和查全率沒(méi)有級(jí)別區(qū)分。

如果機(jī)器學(xué)習(xí)模型推薦了十個(gè)商品,你肯定希望頁(yè)面上首先顯示最符合顧客需求的商品,對(duì)吧?

  • 準(zhǔn)確率@k——和一般的準(zhǔn)確率原理相同,但只在符合要求的項(xiàng)目中選擇k個(gè)。比如,k取5意味著只選出最好的五個(gè)推薦項(xiàng)??赡苡?0000種商品,但不可能把它們?nèi)客扑]給顧客。

 

特征——數(shù)據(jù)有哪些特征?哪些特征可以用來(lái)搭建模型?

數(shù)據(jù)各不相同。特征指的是數(shù)據(jù)集中不同種類(lèi)的數(shù)據(jù)。

特征主要可以分為類(lèi)別型,連續(xù)型(數(shù)值型)和衍生型。

  • 類(lèi)別型特征——特征值可以被劃分為不同的種類(lèi)。比如心臟病預(yù)測(cè)問(wèn)題中患者的性別?;蛘呔W(wǎng)店問(wèn)題中某人是否購(gòu)買(mǎi)了商品。
  • 連續(xù)型(或數(shù)值型)特征——平均心率或者登錄次數(shù)這類(lèi)可以用數(shù)值度量的特征。
  • 衍生特征——從數(shù)據(jù)中派生出的特征,常被稱(chēng)為特征工程。特征工程就是某個(gè)領(lǐng)域的專(zhuān)家運(yùn)用知識(shí)生成數(shù)據(jù)。比如把登錄次數(shù)和時(shí)間戳結(jié)合起來(lái),計(jì)算出距上次登錄時(shí)間這一新特征?;蛘甙讶掌谵D(zhuǎn)換為是否為工作日這一新特征。

文本、圖像,任何東西都可能是特征。任何特征都需要轉(zhuǎn)換成數(shù)值才能被機(jī)器學(xué)習(xí)算法用于構(gòu)建模型。

以下是一些關(guān)于特征的注意事項(xiàng)。

  • 保證特征在訓(xùn)練和測(cè)試過(guò)程中一致——應(yīng)該盡量使用接近真實(shí)系統(tǒng)中的特征來(lái)訓(xùn)練模型。
  • 和該領(lǐng)域的專(zhuān)家合作——已知信息有哪些,它們?nèi)绾斡绊戇x擇使用的特征?與機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家分享這些信息。
  • 特征是否有價(jià)值?——如果只有10%的樣本含有這一特征,它適合用于建模嗎?優(yōu)先選擇覆蓋面最廣的特征,也就是說(shuō),大多數(shù)樣本都包含這些特征的對(duì)應(yīng)數(shù)據(jù)。
  • 完美意味著錯(cuò)誤——準(zhǔn)確率百分之百的模型往往是錯(cuò)把訓(xùn)練數(shù)據(jù)用于測(cè)試產(chǎn)生的。沒(méi)有十全十美的模型。

可以簡(jiǎn)單地使用特征設(shè)立基本標(biāo)準(zhǔn)??蛻袅魇Х矫娴膶?zhuān)家可能知道,三周沒(méi)有登錄的顧客有80%的幾率會(huì)注銷(xiāo)會(huì)員。

或者,房產(chǎn)中介可能知道,臥室多于5個(gè)并且衛(wèi)生間多于5個(gè)的房屋售價(jià)高于50萬(wàn)美元。

這些標(biāo)準(zhǔn)經(jīng)過(guò)了簡(jiǎn)化,而且無(wú)需太精確。但你可以嘗試用它們來(lái)改進(jìn)機(jī)器學(xué)習(xí)模型。

 

5. 建模——應(yīng)該選擇哪個(gè)模型?如何改進(jìn)模型?如何比較不同模型?

定義好問(wèn)題、確定好數(shù)據(jù)、評(píng)價(jià)標(biāo)準(zhǔn)和特征之后,就可以開(kāi)始建模了。

建模分為三部分,選擇模型,改進(jìn)模型和比較模型。

選擇模型

選擇模型時(shí)需要考慮可讀性,可維護(hù)性,數(shù)據(jù)量以及訓(xùn)練和預(yù)測(cè)方面的限制。

  • 可讀性和可維護(hù)性——模型如何做出決策?如何修復(fù)錯(cuò)誤?
  • 數(shù)據(jù)量——數(shù)據(jù)的規(guī)模有多大?數(shù)據(jù)規(guī)模會(huì)改變嗎?
  • 訓(xùn)練和預(yù)測(cè)方面的限制——這一項(xiàng)與上兩項(xiàng)息息相關(guān),有多少時(shí)間和資源可投入訓(xùn)練和預(yù)測(cè)?

首先,簡(jiǎn)化這些問(wèn)題。一個(gè)藝術(shù)品般完美的模型可能很有誘惑力。但是如果2%的性能改善需要耗費(fèi)10倍的計(jì)算資源和5倍的時(shí)間,或許不做改進(jìn)為好。

邏輯回歸之類(lèi)的線性模型通常易于理解,訓(xùn)練和預(yù)測(cè)速度也比神經(jīng)網(wǎng)絡(luò)等深度模型要快。

但是真實(shí)世界中獲取的數(shù)據(jù)不總是線性的。

那怎么辦?

決策樹(shù)集成和梯度提升算法用于處理excel表和數(shù)據(jù)幀之類(lèi)的結(jié)構(gòu)數(shù)據(jù)效果最好。了解隨機(jī)森林、XGBoost和CatBoost算法。

神經(jīng)網(wǎng)絡(luò)之類(lèi)的深度學(xué)習(xí)模型適用于圖片、音頻文件和自然語(yǔ)言文本。代價(jià)是它們需要更長(zhǎng)的訓(xùn)練和預(yù)測(cè)時(shí)間,并且更難調(diào)試。但這不意味著不應(yīng)該使用它們。

遷移學(xué)習(xí)結(jié)合了深度學(xué)習(xí)模型和線性模型的優(yōu)點(diǎn)。它使用預(yù)先訓(xùn)練好的深度學(xué)習(xí)模型,將其識(shí)別出的模式輸入線性模型。這將極大節(jié)約訓(xùn)練時(shí)間。

哪里可以找到預(yù)先訓(xùn)練好的模型?

預(yù)訓(xùn)練模型可以在PyTorch hub, TensorFlow hub, model zoo和fast.ai framework等網(wǎng)站上找到。

那其他種類(lèi)的模型呢?

搭建模型雛形時(shí)無(wú)需自行搭建機(jī)器學(xué)習(xí)模型。前人已經(jīng)留下了模型代碼。

重要的是處理輸入和輸出,使其適應(yīng)已有模型。這意味著嚴(yán)格定義模型和類(lèi)標(biāo),理解需要解決的問(wèn)題。

 

掌握這六步,搭建<span><span><span><i style=完美的機(jī)器學(xué)習(xí)項(xiàng)目" src="http://p1.pstatp.com/large/pgc-image/b6745e88d4ed4fc089c605f982299942" width="692" height="208">

 

首先,主要工作是確保輸入(數(shù)據(jù))和已有模型相匹配。下一步是確保輸出符合問(wèn)題定義和評(píng)價(jià)標(biāo)準(zhǔn)。

微調(diào)和改進(jìn)模型

模型的最初結(jié)果并不意味著一切??梢韵裾{(diào)試一輛汽車(chē)一樣調(diào)試并改進(jìn)機(jī)器學(xué)習(xí)模型。

微調(diào)模型需要改變超參數(shù),比如調(diào)整學(xué)習(xí)率或者優(yōu)化器?;蛘呤瞧渌囟P椭械慕?gòu)因素,比如隨機(jī)森林中樹(shù)的數(shù)量以及神經(jīng)網(wǎng)絡(luò)的層數(shù)。

這一調(diào)整過(guò)程曾經(jīng)是人工的,如今逐漸走向自動(dòng)化,并將無(wú)處不在。

通過(guò)遷移學(xué)習(xí)調(diào)用預(yù)訓(xùn)練模型能夠綜合前述步驟的優(yōu)勢(shì)。

調(diào)試模型時(shí)應(yīng)優(yōu)先考慮可復(fù)制性和效率。其他人應(yīng)該能夠重現(xiàn)你的步驟來(lái)改進(jìn)他們的模型。由于主要目標(biāo)是減少訓(xùn)練時(shí)間而不是提出新的思路,調(diào)試過(guò)程應(yīng)該是效率導(dǎo)向的。

比較模型

把蘋(píng)果與蘋(píng)果比較。

使用數(shù)據(jù)X訓(xùn)練模型1,使用數(shù)據(jù)Y來(lái)評(píng)測(cè)

使用數(shù)據(jù)X訓(xùn)練模型2,使用數(shù)據(jù)Y來(lái)評(píng)測(cè)

必須使用同樣的數(shù)據(jù)訓(xùn)練和評(píng)測(cè)不同模型。模型1和2是可變的,而數(shù)據(jù)X, Y則不然。

 

6. 實(shí)驗(yàn)——還可以嘗試什么方法?我們的發(fā)現(xiàn)如何影響其他步驟?模型是否表現(xiàn)得符合預(yù)期?

這一步包含了其他所有步驟。因?yàn)闄C(jī)器學(xué)習(xí)是個(gè)高度迭代的過(guò)程,必須確保實(shí)驗(yàn)可以執(zhí)行。

首要目標(biāo)是要盡量縮小線下實(shí)驗(yàn)和線上實(shí)驗(yàn)間的時(shí)間差。

線下實(shí)驗(yàn)發(fā)生在項(xiàng)目還沒(méi)有向用戶開(kāi)放時(shí)。線上實(shí)驗(yàn)發(fā)生在機(jī)器學(xué)習(xí)模型開(kāi)始批量生產(chǎn)之后。

每一次實(shí)驗(yàn)必須使用數(shù)據(jù)的不同部分。

  • 訓(xùn)練數(shù)據(jù)集——使用它來(lái)訓(xùn)練模型,一般占整個(gè)數(shù)據(jù)集的70%-80%。
  • 驗(yàn)證/開(kāi)發(fā)數(shù)據(jù)集——使用它來(lái)微調(diào)模型,一般占整個(gè)數(shù)據(jù)集的10%-15%。
  • 測(cè)試數(shù)據(jù)集——使用它來(lái)測(cè)試和比較模型,一般占整個(gè)數(shù)據(jù)集的10%-15%。

這些數(shù)據(jù)集的數(shù)據(jù)量可以根據(jù)問(wèn)題和數(shù)據(jù)的類(lèi)型略微浮動(dòng)。

如果模型在訓(xùn)練集上表現(xiàn)不佳,意味著它沒(méi)有很好地學(xué)習(xí)。解決方案是嘗試不同的模型、改進(jìn)現(xiàn)有的模型或者收集更多高質(zhì)量數(shù)據(jù)。

如果模型在測(cè)試集上表現(xiàn)不佳,意味著它難以推廣。模型可能發(fā)生了過(guò)擬合。使用一個(gè)更簡(jiǎn)單的模型或者收集更多數(shù)據(jù)。

如果模型在真實(shí)數(shù)據(jù)上表現(xiàn)不佳,意味著真實(shí)數(shù)據(jù)和訓(xùn)練集與數(shù)據(jù)集之間差異較大。重復(fù)前面兩步。確保數(shù)據(jù)與待解決的問(wèn)題相符。

嘗試大幅改變時(shí),記錄內(nèi)容和原因。記住,就像在模型微調(diào)中一樣,所有人,包括未來(lái)的你自己,都應(yīng)該能夠重復(fù)你的操作。

這意味著需要定期保存最新的模型和數(shù)據(jù)集。

結(jié)合上述步驟,做出項(xiàng)目雛形

許多企業(yè)對(duì)機(jī)器學(xué)習(xí)略知一二,但不知道如何開(kāi)始運(yùn)用。最好通過(guò)上面六步做出概念模型。

此類(lèi)嘗試的目的不在于從根本上改變商業(yè)運(yùn)營(yíng)模式,只是探索使用機(jī)器學(xué)習(xí)為公司增添商業(yè)價(jià)值的可能性。

畢竟,目標(biāo)并非追趕華而不實(shí)的潮流,而是獲得真正有價(jià)值的解決方案。

規(guī)定好搭建項(xiàng)目雛形的期限,兩周、六周和十二周都是比較合適的。有了高質(zhì)量的數(shù)據(jù),一個(gè)優(yōu)秀的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)從業(yè)者可以在短時(shí)間內(nèi)實(shí)現(xiàn)最終建模成果的80%-90%。

行業(yè)專(zhuān)家、機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家應(yīng)該協(xié)同合作。否則可能搭建出一個(gè)用于錯(cuò)誤對(duì)象的優(yōu)秀模型,這是非常糟糕的結(jié)果。

如果可能的話,通知網(wǎng)絡(luò)設(shè)計(jì)師改進(jìn)在線商店的布局,以幫助機(jī)器學(xué)習(xí)實(shí)驗(yàn)。

由于項(xiàng)目雛形的特性,你的企業(yè)可能無(wú)法從機(jī)器學(xué)習(xí)中獲利。項(xiàng)目經(jīng)理必須清楚這一點(diǎn)。機(jī)器學(xué)習(xí)工程師或者數(shù)據(jù)科學(xué)家也要做好白費(fèi)努力的心理準(zhǔn)備。

但無(wú)法獲利并不意味著滿盤(pán)皆輸。

無(wú)用的模型也有價(jià)值,你能從中得知什么是無(wú)用的,然后把精力花在別處。這就是為實(shí)驗(yàn)設(shè)定期限的原因。時(shí)間總是不夠用,但ddl就是生產(chǎn)力。

如果機(jī)器學(xué)習(xí)模型表現(xiàn)很好,繼續(xù)下一步,否則就回到上一步。在實(shí)踐中學(xué)習(xí)比空想要快得多。

 

注意

數(shù)據(jù)是核心。沒(méi)有高質(zhì)量的數(shù)據(jù),任何機(jī)器學(xué)習(xí)模型都將徒勞無(wú)功。運(yùn)用機(jī)器學(xué)習(xí)應(yīng)該從收集高質(zhì)量數(shù)據(jù)開(kāi)始。

應(yīng)用會(huì)改變一切。離線表現(xiàn)很好的模型可能在上線時(shí)表現(xiàn)不佳。本文的重點(diǎn)是數(shù)據(jù)建模。模型一旦投入使用,就會(huì)面臨架構(gòu)管理、數(shù)據(jù)驗(yàn)證、模型再訓(xùn)練和分析等諸多問(wèn)題。云服務(wù)商會(huì)提供這些服務(wù),但把它們結(jié)合起來(lái)仍然是黑科技。如果你是老板,給你的數(shù)據(jù)工程師開(kāi)出高薪。如果你是數(shù)據(jù)工程師,和老板分享你所掌握的。

數(shù)據(jù)收集和模型運(yùn)用是機(jī)器學(xué)習(xí)管道中耗時(shí)最長(zhǎng)的部分。本文僅討論了建模,但仍然遺漏了數(shù)據(jù)預(yù)處理的細(xì)節(jié)。

商業(yè)工具多種多樣。機(jī)器學(xué)習(xí)是一個(gè)由許多小工具組成的大工具。從代碼庫(kù)和框架到不同的應(yīng)用架構(gòu)。每一個(gè)問(wèn)題都有許多不同的解決方案。最佳的實(shí)現(xiàn)方法總在不斷更新。但本文所討論的話題萬(wàn)變不離其宗。

責(zé)任編輯:武曉燕 來(lái)源: 今日頭條
相關(guān)推薦

2018-11-14 07:41:58

機(jī)器學(xué)習(xí)算法感知器

2017-08-30 17:30:43

大數(shù)據(jù)數(shù)據(jù)化運(yùn)營(yíng)

2010-07-09 12:08:36

設(shè)置SNMP協(xié)議

2009-09-09 09:46:00

MyEclipse配置

2013-08-23 09:30:56

BYOD方案BYODMDM

2010-11-19 10:18:11

網(wǎng)絡(luò)連接故障

2009-10-27 17:40:35

Oracle表空間狀態(tài)

2010-06-29 19:23:20

UML活動(dòng)圖

2011-03-03 10:55:07

2009-12-11 13:31:31

策略路由配置

2011-07-30 13:28:03

2010-02-22 09:38:22

WCF開(kāi)發(fā)

2010-06-09 17:58:14

UML活動(dòng)圖

2012-03-29 09:50:17

2012-03-09 15:32:48

華為管理服務(wù)

2024-05-06 13:15:45

2010-09-13 10:39:43

CSSCSS文件

2023-04-11 11:22:13

2009-02-06 13:01:00

綠色數(shù)據(jù)中心數(shù)據(jù)中心

2013-08-21 09:20:15

敏捷方法敏捷開(kāi)發(fā)云基礎(chǔ)設(shè)施是
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)