偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

吳恩達(dá)的二八定律：80%的數(shù)據(jù)+20%的模型=更好的機(jī)器學(xué)習(xí)

作者：新智元 2021-04-13 09:25:21

新聞人工智能

一個(gè)機(jī)器學(xué)習(xí)團(tuán)隊(duì)80%的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上，確保數(shù)據(jù)質(zhì)量是最重要的工作，每個(gè)人都知道應(yīng)該如此做，但沒人在乎。

機(jī)器學(xué)習(xí)的進(jìn)步是模型帶來(lái)的還是數(shù)據(jù)帶來(lái)的，這可能是一個(gè)世紀(jì)辯題。

吳恩達(dá)對(duì)此的想法是，一個(gè)機(jī)器學(xué)習(xí)團(tuán)隊(duì)80%的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上，確保數(shù)據(jù)質(zhì)量是最重要的工作，每個(gè)人都知道應(yīng)該如此做，但沒人在乎。如果更多地強(qiáng)調(diào)以數(shù)據(jù)為中心而不是以模型為中心，那么機(jī)器學(xué)習(xí)的發(fā)展會(huì)更快。

當(dāng)去arxiv上查找機(jī)器學(xué)習(xí)相關(guān)的研究時(shí)，所有模型都在圍繞基準(zhǔn)測(cè)試展示自己模型的能力，例如Google有BERT，OpenAI有GPT-3，這些模型僅解決了業(yè)務(wù)問題的20％，在業(yè)務(wù)場(chǎng)景中取得更好的效果需要更好的數(shù)據(jù)。

傳統(tǒng)軟件由代碼提供動(dòng)力，而AI系統(tǒng)是同時(shí)使用代碼（模型+算法）和數(shù)據(jù)構(gòu)建的。以前的工作方式是，當(dāng)模型效果不理想，我們就會(huì)去修改模型，而沒有想過(guò)可能是數(shù)據(jù)的問題。

機(jī)器學(xué)習(xí)的進(jìn)步一直是由提高基準(zhǔn)數(shù)據(jù)集性能的努力所推動(dòng)的。研究人員的常見做法是在嘗試改進(jìn)代碼的同時(shí)保持?jǐn)?shù)據(jù)固定，以模型改進(jìn)為中心對(duì)模型性能的提升實(shí)際上效率是很低的。但是，當(dāng)數(shù)據(jù)集大小適中（<10,000個(gè)示例）時(shí)，則需要在代碼上進(jìn)行嘗試改進(jìn)。

根據(jù)劍橋研究人員所做的一項(xiàng)研究，最重要但仍經(jīng)常被忽略的問題是數(shù)據(jù)的格式不統(tǒng)一。當(dāng)數(shù)據(jù)從不同的源流式傳輸時(shí)，這些源可能具有不同的架構(gòu)，不同的約定及其存儲(chǔ)和訪問數(shù)據(jù)的方式。對(duì)于機(jī)器學(xué)習(xí)工程師來(lái)說(shuō)，這是一個(gè)繁瑣的過(guò)程，需要將信息組合成適合機(jī)器學(xué)習(xí)的單個(gè)數(shù)據(jù)集。

小數(shù)據(jù)的劣勢(shì)在于少量的噪聲數(shù)據(jù)就會(huì)影響模型效果，而大數(shù)據(jù)量則會(huì)使標(biāo)注工作變得很困難，高質(zhì)量的標(biāo)簽也是機(jī)器學(xué)習(xí)模型的瓶頸所在。

這番話也引起機(jī)器學(xué)習(xí)界對(duì)MLOps的重新思索。

MLOps是什么？

MLOps，即Machine Learning和Operations的組合，是ModelOps的子集，是數(shù)據(jù)科學(xué)家與操作專業(yè)人員之間進(jìn)行協(xié)作和交流以幫助管理機(jī)器學(xué)習(xí)任務(wù)生命周期的一種實(shí)踐。

與DevOps或DataOps方法類似，MLOps希望提高自動(dòng)化程度并提高生產(chǎn)ML的質(zhì)量，同時(shí)還要關(guān)注業(yè)務(wù)和法規(guī)要求。

互聯(lián)網(wǎng)公司通常用有大量的數(shù)據(jù)，而如果在缺少數(shù)據(jù)的應(yīng)用場(chǎng)景中進(jìn)行部署AI時(shí)，例如農(nóng)業(yè)場(chǎng)景

，你不能指望自己有一百萬(wàn)臺(tái)拖拉機(jī)為自己收集數(shù)據(jù)。

基于MLOps，吳恩達(dá)也提出幾點(diǎn)建議：

MLOps的最重要任務(wù)是提供高質(zhì)量數(shù)據(jù)。
標(biāo)簽的一致性也很重要。檢驗(yàn)標(biāo)簽是否有自己所管轄的明確界限，即使標(biāo)簽的定義是好的，缺乏一致性也會(huì)導(dǎo)致模型效果不佳。
系統(tǒng)地改善baseline模型上的數(shù)據(jù)質(zhì)量要比追求具有低質(zhì)量數(shù)據(jù)的最新模型要好。
如果訓(xùn)練期間出現(xiàn)錯(cuò)誤，那么應(yīng)當(dāng)采取以數(shù)據(jù)為中心的方法。
如果以數(shù)據(jù)為中心，對(duì)于較小的數(shù)據(jù)集（<10,000個(gè)樣本），則數(shù)據(jù)容量上存在很大的改進(jìn)空間。
當(dāng)使用較小的數(shù)據(jù)集時(shí)，提高數(shù)據(jù)質(zhì)量的工具和服務(wù)至關(guān)重要。

一致性的數(shù)據(jù)定義，涵蓋所有邊界情況，從生產(chǎn)數(shù)據(jù)中得到及時(shí)的反饋，數(shù)據(jù)集大小合適。

吳恩達(dá)同時(shí)建議不要指望工程師去嘗試改善數(shù)據(jù)集。相反，他希望ML社區(qū)開發(fā)更多MLOps工具，以幫助產(chǎn)生高質(zhì)量的數(shù)據(jù)集和AI系統(tǒng)，并使他們具有可重復(fù)性。除此之外，MLOps是一個(gè)新生領(lǐng)域，MLOps團(tuán)隊(duì)的最重要目標(biāo)應(yīng)該是確保整個(gè)項(xiàng)目各個(gè)階段的高質(zhì)量和一致的數(shù)據(jù)流。

一些MLOps的工具已經(jīng)取得了不錯(cuò)的成績(jī)。

Alteryx處于自助數(shù)據(jù)分析運(yùn)動(dòng)的最前沿。公司的平臺(tái)“ Designer”旨在快速發(fā)現(xiàn)、準(zhǔn)備和分析客戶的詳細(xì)信息。該工具用于易于使用的界面，用戶可以連接和清除數(shù)據(jù)倉(cāng)庫(kù)。Alteryx的工具還包括空間文件的數(shù)據(jù)混合，可以將其附加到其他第三方數(shù)據(jù)。

Paxata提供自適應(yīng)的信息平臺(tái)，它具有靈活的部署和自助操作。它使分析人員和數(shù)據(jù)科學(xué)家可以收集多個(gè)原始數(shù)據(jù)集，并將它們轉(zhuǎn)換成有價(jià)值的信息，這些信息可以立即轉(zhuǎn)換為執(zhí)行模型訓(xùn)練所需要的格式。該平臺(tái)是基于所見即所得設(shè)計(jì)，具有電子表格風(fēng)格的數(shù)據(jù)展示，因此用戶無(wú)需學(xué)習(xí)新工具。此外，該平臺(tái)能夠提供算法協(xié)助以推斷所收集數(shù)據(jù)的含義。

TIBCO軟件最近在這個(gè)快速發(fā)展的領(lǐng)域中嶄露頭角。它允許用戶連接、清理、合并和整理來(lái)自不同來(lái)源的數(shù)據(jù)，其中還包括大數(shù)據(jù)存儲(chǔ)。該軟件使用戶可以通過(guò)簡(jiǎn)單的在線數(shù)據(jù)整理進(jìn)行數(shù)據(jù)分析，并且提供完整的API支持，可以根據(jù)自己的個(gè)性化需求進(jìn)行更改。

網(wǎng)友表示，吳恩達(dá)老師說(shuō)的太真實(shí)了！

也有網(wǎng)友表示，機(jī)器學(xué)習(xí)更像是數(shù)據(jù)分析，模型的搭建就是構(gòu)建pipelines。

責(zé)任編輯：張燕妮來(lái)源：新智元

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="kogci"></pre>