大數(shù)據(jù)和人工智能的關(guān)系
人工智能教育是最美的新基建
人工智能里面有一部分算法是需要數(shù)據(jù)的,首先要進去數(shù)據(jù),然后才能學(xué)習(xí)。
比如一個大數(shù)據(jù)庫叫ImageNet,有十幾億張圖片,用了這么大量的圖片,我們才能訓(xùn)練我們的深度神經(jīng)網(wǎng)絡(luò)去做圖片中貓貓、狗狗、車輛的識別。
如果沒有這些海量的數(shù)據(jù),很多機器學(xué)習(xí)算法是不能用的,像我們現(xiàn)在看視頻網(wǎng)站它是面向百億特征,千億參數(shù),萬億樣本,你沒有萬億樣本就支撐不了百億特征,你可能要有一個億的樣本才有可能支撐百萬特征,而且深度學(xué)習(xí)是需要海量特征做特征工程的,所以這個時候大數(shù)據(jù)實際是很多機器學(xué)習(xí)算法得以能夠發(fā)展的基礎(chǔ),但是發(fā)展到一定程度,有些算法它又突然脫離數(shù)據(jù)了,比如說我們做增強學(xué)習(xí),像早期的阿法狗(AlphaGo),它學(xué)了幾十萬專業(yè)棋手之間的對局,它是大師,那它就下得很好,后來的阿法Zero(AlphaZero),它是自己和自己下棋,反正有規(guī)則,所以它的數(shù)據(jù)實際不是真的數(shù)據(jù),是生成出來的,它沒有用真實數(shù)據(jù),但是它用了增強學(xué)習(xí),所以說它最后下得比阿法狗還強。
我覺得從大的范疇來說,大數(shù)據(jù)人工智能肯定是互相增益的,沒有人工智能很多數(shù)據(jù)發(fā)揮不了價值,更多時候我們需要人工智能算法才能挖掘大數(shù)據(jù)的價值,相當于一個是礦,一個是挖掘和提煉礦的這樣一個設(shè)備和工廠,人工智能是后者,很大程度上有了數(shù)據(jù)我們才能開發(fā)出數(shù)據(jù)相關(guān)的人工智能算法,但是有些算法和數(shù)據(jù)無關(guān),大體是這樣的關(guān)系。