數(shù)據(jù)科學(xué)的現(xiàn)在與未來
數(shù)據(jù)科學(xué)是截至近年來技術(shù)領(lǐng)域中很具熱度的方向之一。如果您擁有數(shù)據(jù)科學(xué)或者相關(guān)專業(yè)的工作經(jīng)驗及學(xué)位,那么只要大筆一揮、簡歷一發(fā),一份薪酬可觀的職位就會應(yīng)手而得。但是,數(shù)據(jù)科學(xué)家能成為AI領(lǐng)域的長青樹嗎?或者說,幾年之后圍繞數(shù)據(jù)科學(xué)出現(xiàn)的這股熱流終將消退?
在日前的AI播客中,Dun & Bradstreet公司高級副總裁兼首席數(shù)據(jù)科學(xué)家Anthony Scriffignano分享了自己作為數(shù)據(jù)科學(xué)從業(yè)者的工作狀態(tài),以及人工智能如何改變金融行業(yè)的前景、經(jīng)歷與見解。
數(shù)據(jù)科學(xué)的當(dāng)前定位
在Dun & Bradstreet公司,Scriffgnano主要負(fù)責(zé)技術(shù)創(chuàng)新與開發(fā)工作,同時也管理著“世界上規(guī)模最大的同類商業(yè)數(shù)據(jù)庫”項目。Scriffignano解釋道,這套前所未有的數(shù)據(jù)庫持續(xù)從全球各個國家(除朝鮮與古巴之外)收集大量數(shù)據(jù),日均攝取達(dá)數(shù)百萬次。
這套數(shù)據(jù)庫融合了每一種語言與寫入系統(tǒng),而且由七套不同的集成化數(shù)據(jù)庫共同組成。這一綜合性數(shù)據(jù)系統(tǒng)在跟蹤企業(yè)數(shù)據(jù)的同時,亦會對總體風(fēng)險及發(fā)展機(jī)遇做出全球性觀察分析。以此為基礎(chǔ),該數(shù)據(jù)庫得以實現(xiàn)大規(guī)模數(shù)據(jù)分析,進(jìn)而檢測供應(yīng)鏈異常以及客戶購買行為中發(fā)生的變化。毫無疑問,要從如此龐大的信息庫當(dāng)中提取價值,數(shù)據(jù)科學(xué)將成為我們不可或缺的關(guān)鍵武器。
對于像Dun & Bradstreet這樣的組織來說,最大的挑戰(zhàn)之一在于如何尋找經(jīng)驗豐富的數(shù)據(jù)科學(xué)家,保證這些既擁有從業(yè)背景、又頗具實踐經(jīng)驗的人才處理如此巨大的研究數(shù)據(jù)集。遺憾的是,目前的人才市場還無法滿足他們對于數(shù)據(jù)科學(xué)技能的需求。
Scriffignano表示,他相信AI技術(shù)正在快速發(fā)展,并必將在未來逐漸取代熟練的數(shù)據(jù)科學(xué)家,進(jìn)而實現(xiàn)技術(shù)本身的普遍化與大眾化。在Scriffignano看來,成為一名成熟數(shù)據(jù)科學(xué)家所需要的技能,在范圍與深度方面都要遠(yuǎn)遠(yuǎn)超過機(jī)器學(xué)習(xí)模型開發(fā)者。從本質(zhì)上講,真正的數(shù)據(jù)科學(xué)家需要專注于立足更廣泛的問題從數(shù)據(jù)中提取價值;相比之下,目前很多自稱數(shù)據(jù)科學(xué)家的從業(yè)者實際上更像是機(jī)器學(xué)習(xí)工程師,也更多關(guān)注機(jī)器學(xué)習(xí)模型開發(fā)方面的工作。
Scriffignano認(rèn)為,我們需要更多關(guān)注數(shù)據(jù)科學(xué)家概念中的“科學(xué)家”部分。在他看來,數(shù)據(jù)科學(xué)家必須有能力從觀察到的數(shù)據(jù)中提出新的問題或者理論,對這一理論進(jìn)行實驗設(shè)計與具體測試,而后得出結(jié)論并分享相關(guān)結(jié)果。Scriffignano注意到,大多數(shù)組織只要求數(shù)據(jù)科學(xué)家給出可重復(fù)使用的模型,他強(qiáng)調(diào)只有將數(shù)據(jù)科學(xué)家視為改進(jìn)與創(chuàng)新工作中的關(guān)鍵,才能幫助組織邁向成功。他還指出,正是由于不愿放權(quán)讓數(shù)據(jù)科學(xué)家們接觸單純模型開發(fā)之外的新領(lǐng)域,才導(dǎo)致眾多組織長期無法真正在數(shù)據(jù)科學(xué)與AI技術(shù)領(lǐng)域取得進(jìn)展。
挑戰(zhàn):治理與倫理
除了從大數(shù)據(jù)集中獲取價值的問題之外,Scriffignano認(rèn)為,人工智能與數(shù)據(jù)科學(xué)還面臨著來自治理與倫理層面的諸多挑戰(zhàn)。這一點在涉及個人信息時體現(xiàn)得尤其明顯。在建立大型數(shù)據(jù)庫并使用私人信息建立智能模型時,我們該如何保證以負(fù)責(zé)任的方式使用這些私人信息?
目前世界各國之所以開始以愈發(fā)嚴(yán)格的態(tài)度審查機(jī)器學(xué)習(xí)模型,一部分原因就是這類模型往往涉及大量隱私性與安全性因素。無論模型關(guān)注哪些具體特征,隱私與安全都已經(jīng)成為無法回避的現(xiàn)實問題。Scriffignano提出一個有趣的觀點,認(rèn)為AI法規(guī)終將陷入為了滿足需求而努力迎合所有人、又為了迎合所有人而產(chǎn)生更多需求的怪圈或者說泥潭。人們希望進(jìn)一步提升模型的自定義空間與開發(fā)開放式,但又不愿意在隱私權(quán)方面做出妥協(xié)。
一部分企業(yè)與個人將從使用大量數(shù)據(jù)的模型當(dāng)中受益,這些模型需要龐大的數(shù)據(jù)基礎(chǔ)以做出更精確的預(yù)測,但這同時也將以獲取大量私人信息為代價。有些人可能不希望自己的數(shù)據(jù)被囊括在這些模型當(dāng)中,而這又反過來導(dǎo)致模型的精度有所下降。結(jié)果就是,面對機(jī)器學(xué)習(xí)模型的發(fā)展與所需數(shù)據(jù)量的擴(kuò)展,總會有人對現(xiàn)狀感到不滿。
Scriffignano堅信,政府監(jiān)管機(jī)構(gòu)如果希望在保障國家安全的同時回避與隱私相關(guān)的問題,那么最好的辦法是對技術(shù)發(fā)展抱有開放的態(tài)度。在世界上的不同地區(qū),法律與法規(guī)的制定與細(xì)則總會存在很大差異,不同司法管轄區(qū)間對于道德倫理的認(rèn)識同樣可能不太一致。這種現(xiàn)象目前已經(jīng)體現(xiàn)得相當(dāng)明確:歐洲在道德倫理方面約束得最為嚴(yán)格,中國對隱私保護(hù)的關(guān)注度不高,而美國則處于二者之間。某些國家更希望強(qiáng)調(diào)隱私保護(hù),而另一些國家則更重視國家安全或者經(jīng)濟(jì)發(fā)展。
正如Scriffignano所提到,其中的核心問題是,機(jī)器學(xué)習(xí)本身并不存在地理界限。在某個區(qū)域內(nèi)完全不可接受的實踐,在另一個地區(qū)則可能并無不妥。因此,模型的構(gòu)建位置與使用位置也可以據(jù)此有所區(qū)分。畢竟模型的傳播往往很難控制,所以這種低隱私要求區(qū)域生產(chǎn)、高隱私要求區(qū)域消費的作法很可能成為未來的通行方案。
在本次播客節(jié)目中,Scriffignano還表達(dá)了自己對于擬人化AI的厭惡之情。他更愿意選擇較為務(wù)實的思路,這不禁讓我們想起由算法與流程驅(qū)動的目前這波AI技術(shù)變革。Scriffignano以人工通用智能(AGI)為例,提出了自己的具體觀點。他認(rèn)為,如果我們無法以所掌握的大量數(shù)據(jù)為基礎(chǔ)提出正確的問題,那么人工智能的真正突破永遠(yuǎn)無法到來。
他還預(yù)見出一種未來,認(rèn)為專業(yè)人士將與AI攜手并進(jìn)。只要我們保持警惕,就不必?fù)?dān)心徹底被機(jī)器或者機(jī)器人所取代。為了實現(xiàn)這樣的美好未來,我們當(dāng)然需要保持審慎的心態(tài)并高度重視數(shù)據(jù)倫理與治理問題。只有這樣,AI才能真正成為通往全新時代的橋梁。