偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

終于有人把大數(shù)據(jù)、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)講明白了

人工智能 大數(shù)據(jù)
本文闡明了數(shù)據(jù)在人工智能項(xiàng)目中所起的作用,并幫助你在如何應(yīng)用人工智能上做出明智決策,充分利用當(dāng)前可以使用的大量數(shù)據(jù)以及將來可以獲得的、不斷增長(zhǎng)的數(shù)據(jù)。

數(shù)據(jù)的爆炸式增長(zhǎng)及其可用性推動(dòng)了人工智能(AI)的發(fā)展。你給人工神經(jīng)網(wǎng)絡(luò)提供的信息越多,它學(xué)習(xí)的速度就越快,能力也就越強(qiáng)。

在啟動(dòng)人工智能項(xiàng)目之前,需要考慮數(shù)據(jù)在該項(xiàng)目中所起的作用以及如何使用這些數(shù)據(jù),例如,你必須決定是只想分析數(shù)據(jù)以獲得洞察力,還是希望利用機(jī)器學(xué)習(xí)技術(shù)處理數(shù)據(jù)并進(jìn)行預(yù)測(cè)。要做出這些決策你需要了解一些關(guān)鍵概念,包括大數(shù)據(jù)、數(shù)據(jù)科學(xué)和數(shù)據(jù)挖掘。

本文闡明了數(shù)據(jù)在人工智能項(xiàng)目中所起的作用,并幫助你在如何應(yīng)用人工智能上做出明智決策,充分利用當(dāng)前可以使用的大量數(shù)據(jù)以及將來可以獲得的、不斷增長(zhǎng)的數(shù)據(jù)。

01 理解大數(shù)據(jù)的基本概念

大數(shù)據(jù)一般指可以被計(jì)算機(jī)分析以揭示模式、趨勢(shì)和關(guān)聯(lián)關(guān)系的巨大數(shù)據(jù)集。但是如果你閱讀最初出現(xiàn)大數(shù)據(jù)這個(gè)詞的報(bào)告,會(huì)發(fā)現(xiàn)作者并沒有把“大數(shù)據(jù)”當(dāng)作一個(gè)術(shù)語。他們用它來描述一個(gè)問題,比如“我們有一個(gè)大的數(shù)據(jù)(BIG data)問題”,而不是“我們有一個(gè)大數(shù)據(jù)(BIG-DATA)問題”。

我們?cè)诖鎯?chǔ)和處理大量生成的數(shù)據(jù)時(shí)會(huì)遇到很多困難。在一家公司升級(jí)其內(nèi)部數(shù)據(jù)倉庫后不久,數(shù)據(jù)量很可能就超過了該數(shù)據(jù)倉庫的容量。數(shù)據(jù)倉庫無法跟上流入它的數(shù)據(jù)量和種類,或者沒有足夠的處理能力從這些數(shù)據(jù)中生成報(bào)告。

現(xiàn)在許多公司在一天結(jié)束時(shí)運(yùn)行報(bào)告生成程序,所以報(bào)告將在第二天上午或下午完成。在另外一些公司,許多員工同時(shí)查詢數(shù)據(jù),他們必須等待數(shù)小時(shí)才能得到結(jié)果,如果系統(tǒng)因處理能力不足而崩潰或凍結(jié),他們必須重新開始。其中許多業(yè)務(wù)(如證券交易所)依靠實(shí)時(shí)報(bào)告來保持競(jìng)爭(zhēng)力。

問題會(huì)越來越多。據(jù)估計(jì),在未來十年內(nèi),全世界將有超過1500億個(gè)聯(lián)網(wǎng)傳感器,每個(gè)傳感器每年365天7×24小時(shí)地生成數(shù)據(jù)。想象一下人類一天之內(nèi)在Facebook、Twitter、Google、在線購物網(wǎng)站、在線游戲網(wǎng)站等網(wǎng)站上生成的所有數(shù)據(jù),你就知道數(shù)據(jù)量有多大!

我們覺得,大數(shù)據(jù)既是一個(gè)問題,也是一個(gè)機(jī)遇。大數(shù)據(jù)是一個(gè)問題,因?yàn)槟阈枰_定是處理大量數(shù)據(jù)集,還是處理更適中的數(shù)據(jù)。也許你只需要使用更小的數(shù)據(jù)集來監(jiān)控和分析網(wǎng)站的使用情況,或者衡量營銷策略的有效性。

然而,如果需要分析大量的數(shù)據(jù)集(例如,為了找到治愈感冒的方法),你需要規(guī)劃你的存儲(chǔ)和處理技術(shù)。但大數(shù)據(jù)也是一個(gè)機(jī)遇,如果沒有大數(shù)據(jù),人工智能就無法利用海量數(shù)據(jù)來構(gòu)建精確的模型用于識(shí)別模式、進(jìn)行預(yù)測(cè)。

02 與數(shù)據(jù)科學(xué)家合作

如果你正在開發(fā)一個(gè)需要大數(shù)據(jù)的人工智能應(yīng)用,最好與數(shù)據(jù)科學(xué)家合作,或者至少咨詢一下。數(shù)據(jù)科學(xué)家接受各種學(xué)科的培訓(xùn),包括編程、數(shù)據(jù)管理和統(tǒng)計(jì),通過了解如何收集、分析和解釋數(shù)據(jù)來達(dá)到幫助業(yè)務(wù)進(jìn)行決策的目的。

機(jī)器學(xué)習(xí)不是數(shù)據(jù)科學(xué)家的必須工作技能。例如,數(shù)據(jù)科學(xué)家可能會(huì)問一些你從未想過要問的問題,以幫助你更清楚地了解試圖從數(shù)據(jù)中提取的知識(shí),這可能是一個(gè)問題的答案、一個(gè)難題的解決方案,或是對(duì)可能引發(fā)系統(tǒng)故障的各種因素的洞察。

為了實(shí)現(xiàn)這一目標(biāo),數(shù)據(jù)科學(xué)家可以使用或推薦工具來收集、分析和解釋數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會(huì)發(fā)現(xiàn)你真的不知道自己在這些數(shù)據(jù)中尋找什么,并幫助你開發(fā)一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)來識(shí)別數(shù)據(jù)中可能存在的模式,這種模式有可能提供你從未想過的某種洞察力。

簡(jiǎn)言之,數(shù)據(jù)科學(xué)家可以幫助你評(píng)估數(shù)據(jù)并分析需求、提供解決方案,讓你最大限度地利用數(shù)據(jù)。

03 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的區(qū)別

在處理數(shù)據(jù)時(shí)(不管數(shù)據(jù)集的大?。?,可能會(huì)遇到大量術(shù)語。兩個(gè)經(jīng)常被混淆的術(shù)語是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)(見圖5.1)。

  • 數(shù)據(jù)挖掘是從數(shù)據(jù)中提取有用信息或見解的任何數(shù)據(jù)處理方法。(請(qǐng)注意,你并不是在挖掘數(shù)據(jù),而是從這些數(shù)據(jù)中挖掘信息和見解。)
  • 機(jī)器學(xué)習(xí)是一門讓計(jì)算機(jī)去做它們沒有被設(shè)定好怎么去做某項(xiàng)事情(即不是死板地、程式化地去做事情)的科學(xué)。

數(shù)據(jù)挖掘可以使用機(jī)器學(xué)習(xí)從數(shù)據(jù)中提取有用的信息或見解,但不一定非要使用機(jī)器學(xué)習(xí)技術(shù)。

機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的另一個(gè)關(guān)鍵區(qū)別是它們所使用的技術(shù)。使用機(jī)器學(xué)習(xí),首先要訓(xùn)練一個(gè)模型,然后使用一個(gè)用Python、R或其他一些計(jì)算機(jī)語言編寫的機(jī)器學(xué)習(xí)框架。

數(shù)據(jù)挖掘通常使用更廣泛的工具集,包括可視化和商業(yè)智能工具,其中許多工具的功能單一,只以類似但比電子表格應(yīng)用程序更復(fù)雜的方式提取、排序、匯總和呈現(xiàn)數(shù)據(jù)。  

04 從數(shù)據(jù)挖掘到機(jī)器學(xué)習(xí)的飛躍

從數(shù)據(jù)挖掘到機(jī)器學(xué)習(xí)的飛躍并不像一開始看起來那么具有挑戰(zhàn)性。如果你已經(jīng)在處理大數(shù)據(jù)并從中提取有價(jià)值的見解,那么已經(jīng)具備了管理這些數(shù)據(jù)的專業(yè)技能。你可以找到大量的軟件能夠創(chuàng)建報(bào)告和可視化你的數(shù)據(jù)。機(jī)器學(xué)習(xí)只是從數(shù)據(jù)中提取價(jià)值的工具。

很有可能你已經(jīng)有了一個(gè)數(shù)據(jù)管理團(tuán)隊(duì),并且團(tuán)隊(duì)中的人習(xí)慣于使用大型數(shù)據(jù)集。他們可能熟悉下載Python語言編寫的框架來操作這些數(shù)據(jù)集。要使用機(jī)器學(xué)習(xí),他們只需要以不同的方式利用這些數(shù)據(jù)就可以了。他們需要訓(xùn)練神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型,并從數(shù)據(jù)中尋找有價(jià)值的模式,而不是直接從數(shù)據(jù)中挖掘有價(jià)值的信息。

我曾為幾家公司工作過,這些公司多年來一直致力于開發(fā)大型數(shù)據(jù)項(xiàng)目。他們認(rèn)為向機(jī)器學(xué)習(xí)的飛躍和向大數(shù)據(jù)的飛躍一樣困難。事實(shí)上,利用機(jī)器學(xué)習(xí)技術(shù)更容易一些,因?yàn)檫@些團(tuán)隊(duì)已經(jīng)很了解Python和R,并且熟悉使用大型數(shù)據(jù)集。

最大的挑戰(zhàn)是讓團(tuán)隊(duì)以不同的方式思考數(shù)據(jù)。他們需要?jiǎng)?chuàng)建訓(xùn)練集并重新調(diào)整人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元(節(jié)點(diǎn))的權(quán)重,這與他們習(xí)慣于使用大數(shù)據(jù)工具與數(shù)據(jù)直接交互的工作模式是不同的。

給大家一個(gè)警告:如果你的組織正在處理大數(shù)據(jù),請(qǐng)記住,你有一把閃亮的新錘子并不意味著一切都是釘子。擁有大數(shù)據(jù)的企業(yè)往往容易被機(jī)器學(xué)習(xí)的價(jià)值所誤導(dǎo),但機(jī)器學(xué)習(xí)并不總是最佳選擇。較小的人工智能項(xiàng)目可以通過符號(hào)方法更好地實(shí)現(xiàn)。不要以為你有數(shù)據(jù),機(jī)器學(xué)習(xí)永遠(yuǎn)是最好的選擇。

05 采用正確的方法

當(dāng)你規(guī)劃一個(gè)涉及數(shù)據(jù)的項(xiàng)目時(shí),也許最好的方法是忽略術(shù)語以及數(shù)據(jù)科學(xué)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)之間的區(qū)別。而不是將注意力放在試圖回答或解決的問題上,與數(shù)據(jù)科學(xué)家合作或者咨詢他們,盡快確定最佳的方法。以下是一些一般準(zhǔn)則:

  • 如果你需要從數(shù)據(jù)中提取有價(jià)值的信息,并且對(duì)希望獲得的信息(例如特定時(shí)間段內(nèi)訪問網(wǎng)站的人數(shù))有清晰的認(rèn)識(shí),那么數(shù)據(jù)庫(或數(shù)據(jù)倉庫)配合基本的商業(yè)智能軟件可能就足夠了。
  • 如果你面對(duì)的是大數(shù)據(jù),對(duì)回答某個(gè)疑問或解決某個(gè)特定問題沒有特別的思路(甚至可能沒有問題,或者心中也沒什么困惑,一片茫然),那么你可能需要使用某種(監(jiān)督或無監(jiān)督)機(jī)器學(xué)習(xí)技術(shù)。比如使用無監(jiān)督學(xué)習(xí),可以將所有數(shù)據(jù)輸入機(jī)器學(xué)習(xí)模型,并查看它會(huì)產(chǎn)生什么結(jié)果。

我們來考慮這樣一個(gè)問題:假設(shè)你管理一家醫(yī)院,需要確定成功治療患者的方法??梢詮膸讉€(gè)不同的角度來應(yīng)對(duì)這個(gè)挑戰(zhàn)(見圖5.2)。

一種選擇是組建自己的數(shù)據(jù)科學(xué)團(tuán)隊(duì),找出需要分析的數(shù)據(jù)類型。例如,團(tuán)隊(duì)中的一個(gè)成員可能會(huì)問:“哪些醫(yī)生的成功率最高?”或“哪個(gè)病人的隨訪計(jì)劃產(chǎn)生最少的回訪次數(shù)?”……基于這些問題,數(shù)據(jù)科學(xué)團(tuán)隊(duì)將選擇相關(guān)的數(shù)據(jù)集,分析數(shù)據(jù)、生成報(bào)告并討論他們的發(fā)現(xiàn)。這些報(bào)告可能導(dǎo)致更多需要進(jìn)一步分析的問題。整個(gè)過程將需要進(jìn)行密集的交流與討論。

另一種方法是在人工神經(jīng)網(wǎng)絡(luò)上使用無監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)。你把所有的數(shù)據(jù)輸入人工神經(jīng)網(wǎng)絡(luò),希望它能識(shí)別出有用的模式。有了這些模式,就要由你和你的團(tuán)隊(duì)來確定這些模式的相關(guān)性,并找出相關(guān)模式背后的原因。

這些方法各有優(yōu)缺點(diǎn)。數(shù)據(jù)科學(xué)團(tuán)隊(duì)可能會(huì)對(duì)見解背后的數(shù)據(jù)有更多的了解。他們會(huì)對(duì)數(shù)據(jù)有一種直觀的感覺,并開始問更多有趣的問題。基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法可能識(shí)別出不一樣的模式,因?yàn)樗祟愄幚頂?shù)據(jù)的方式是不一樣的,它還可以找到不可解釋的模式,這種模式對(duì)機(jī)器或許有意義,但人類可能無法理解。

使用人工神經(jīng)網(wǎng)絡(luò)的一大缺點(diǎn)是它無法解釋某些模式背后的原因。例如,人工神經(jīng)網(wǎng)絡(luò)可能顯示醫(yī)院使用的一種抗生素治療某些感染的成功率高于其他抗生素,但它不能解釋原因。原因可能是之所以它的效果更好,是因?yàn)楦弊饔酶?,病人更可能繼續(xù)服用。

另一種情況是,機(jī)器輸出結(jié)果,但是任何查看結(jié)果的人都無法解釋結(jié)果的含義。換句話說,結(jié)果對(duì)機(jī)器有意義,但對(duì)人沒有意義。因此,我們可以進(jìn)行逆向工程,試圖了解為什么網(wǎng)絡(luò)是這樣工作的。然而,由于“規(guī)則”是不可解釋的,我們可能不知道為什么網(wǎng)絡(luò)產(chǎn)生了這樣的結(jié)果。

數(shù)據(jù)科學(xué)團(tuán)隊(duì)可能會(huì)對(duì)數(shù)據(jù)有更好的感覺。他們會(huì)提出問題,利用自身的學(xué)習(xí)和理解從數(shù)據(jù)中發(fā)現(xiàn)關(guān)鍵的線索。他們不會(huì)考慮無限的可能性,而是將思考范圍縮小到最有可能的因素,如醫(yī)生、藥物或成功率最高的程序等。

責(zé)任編輯:龐桂玉 來源: 大數(shù)據(jù)DT
相關(guān)推薦

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2020-08-17 08:17:00

大數(shù)據(jù)人工智能技術(shù)

2021-10-07 20:24:16

AIBI大數(shù)據(jù)

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構(gòu)

2020-05-18 10:18:48

人工智能

2021-12-30 20:20:46

機(jī)器學(xué)習(xí)銷售語言

2022-04-18 07:37:30

數(shù)據(jù)信息知識(shí)

2020-10-29 06:09:37

數(shù)據(jù)中臺(tái)數(shù)據(jù)大數(shù)據(jù)

2022-05-09 20:23:51

數(shù)據(jù)采集

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2021-12-03 18:25:56

數(shù)據(jù)指標(biāo)本質(zhì)

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2022-03-27 20:32:28

Knative容器事件模型

2022-06-21 11:14:51

大數(shù)據(jù)系統(tǒng)架構(gòu)

2022-06-26 18:52:02

Hadoop大數(shù)據(jù)系統(tǒng)

2022-02-15 09:04:44

機(jī)器學(xué)習(xí)人工智能監(jiān)督學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)