人工智能將如何挖掘暗數(shù)據(jù)?
人工智能有可能通過分析和解釋大量非結(jié)構(gòu)化數(shù)據(jù)來揭示暗數(shù)據(jù),這些數(shù)據(jù)以前很難或不可能用傳統(tǒng)方法進(jìn)行分析。但Fluree公司首席執(zhí)行官兼聯(lián)合創(chuàng)始人BrianPlatz警告說,買家要小心,并非所有數(shù)據(jù)都是平等產(chǎn)生的。
ChatGPT引起了人們對(duì)生成式人工智能將互聯(lián)網(wǎng)語境化和排序?yàn)楹唵握痛鸢傅哪芰Φ男玛P(guān)注。它還強(qiáng)調(diào)了過度依賴人們看不見的數(shù)據(jù)的一些危險(xiǎn)。像Reddit這樣的論壇很快就有反對(duì)人工智能生成的容易出錯(cuò)的回復(fù)。其根本的問題是,像ChatGPT這樣的現(xiàn)有工具是在可能不可信的數(shù)據(jù)上訓(xùn)練的,這些數(shù)據(jù)從未經(jīng)過準(zhǔn)確性、偏見、質(zhì)量或意義的審查。人們需要開始思考人工智能如何幫助將這些暗數(shù)據(jù)轉(zhuǎn)化為可信的關(guān)聯(lián)數(shù)據(jù)的自動(dòng)化過程。
轉(zhuǎn)換暗數(shù)據(jù)
如今,由于遺留數(shù)據(jù)管理流程,需要大量的專業(yè)知識(shí)來審查數(shù)據(jù)。企業(yè)必須開發(fā)新的工作流程和工具來理解、清理、處理和鏈接數(shù)據(jù)。這就是新的人工智能工具可以幫助企業(yè)自動(dòng)化將鎖定在不同應(yīng)用程序和部門孤島中的暗數(shù)據(jù)轉(zhuǎn)換為可信關(guān)聯(lián)數(shù)據(jù)的過程。人們?nèi)匀惶幱谶@些新的人工智能工作流程的早期階段。
如今,企業(yè)在創(chuàng)建新的應(yīng)用程序、報(bào)告或決策引擎時(shí),要花費(fèi)大量時(shí)間來查找和排序數(shù)據(jù)。領(lǐng)先的企業(yè)供應(yīng)商提供ERP、CRM或事務(wù)處理系統(tǒng),這些系統(tǒng)為一個(gè)狹義定義的目的組織數(shù)據(jù)。然而,這些工具需要在集成、元數(shù)據(jù)管理和數(shù)據(jù)清理方面做更多的改進(jìn),以支持創(chuàng)新的新用例或業(yè)務(wù)模型。而且很多企業(yè)數(shù)據(jù)的質(zhì)量和完整性仍然受到質(zhì)疑。HFSResearch公司最近的一項(xiàng)調(diào)查發(fā)現(xiàn),75%的企業(yè)高管不相信他們的數(shù)據(jù)。
在過去的幾十年,隨著企業(yè)探索如何理解不斷增長的數(shù)據(jù)存儲(chǔ),大數(shù)據(jù)的概念開始流行起來。當(dāng)企業(yè)事先知道如何將數(shù)據(jù)倉庫構(gòu)建成格式時(shí),它們就會(huì)構(gòu)建數(shù)據(jù)倉庫。數(shù)據(jù)湖是作為一種聚合數(shù)據(jù)的方式而出現(xiàn)的,它可以在事后重新利用。但企業(yè)很快發(fā)現(xiàn),這也需要大量的工作來組織、清理和理解數(shù)據(jù)。數(shù)據(jù)科學(xué)家和其他需要訪問數(shù)據(jù)的人也不需要大量的數(shù)據(jù)。在大多數(shù)情況下,他們只需要訪問很少的特定數(shù)據(jù)。
如今,企業(yè)數(shù)據(jù)行業(yè)與萬維網(wǎng)早期的情況相同,當(dāng)時(shí)人們必須手動(dòng)管理到其他頁面的鏈接。谷歌很快超越了雅虎等巨頭,用一種更好的方式來自動(dòng)化信息的索引和優(yōu)先排序。那些找到新方法,利用人工智能更有效地將暗數(shù)據(jù)轉(zhuǎn)化為可信關(guān)聯(lián)數(shù)據(jù)的公司,可能會(huì)在下一波互聯(lián)網(wǎng)浪潮中看到類似的收益。
從鏈接頁面到鏈接數(shù)據(jù)
眾所周知,網(wǎng)絡(luò)在20世紀(jì)90年代初引入,為在線查找信息提供了基礎(chǔ)設(shè)施。值得注意的是,網(wǎng)絡(luò)的成功是建立在之前鏈接知識(shí)的努力之上的。在線系統(tǒng)(NLS在20世紀(jì)60年代早期創(chuàng)建。但它需要一個(gè)困難的學(xué)習(xí)曲線,限制了少數(shù)專家的使用。實(shí)際上,在20世紀(jì)80年代初在歐洲核子研究中心擔(dān)任臨時(shí)承包商時(shí),首次嘗試將文件與一款名為ENQUIRE的應(yīng)用程序聯(lián)系起來。
1984年,當(dāng)他回到歐洲核子研究中心工作時(shí),他意識(shí)到要保持鏈接的更新需要大量的人工工作。HTML的引入允許發(fā)布者以一種減輕其他人負(fù)擔(dān)的方式構(gòu)建信息。這種改進(jìn)的結(jié)構(gòu)為因特網(wǎng)成長為當(dāng)今的樣子提供了適當(dāng)?shù)幕A(chǔ)。
然而,他也設(shè)想互聯(lián)網(wǎng)是一個(gè)連接的語義網(wǎng),用戶可以在其中寫入和讀取數(shù)據(jù)。他早期的瀏覽器在功能強(qiáng)大的NeXT電腦上運(yùn)行。最終被廣泛采用的馬賽克瀏覽器是為性能較差的計(jì)算機(jī)設(shè)計(jì)的,不支持鏈接數(shù)據(jù)或身份,因此它們只能用于讀取數(shù)據(jù)而不能寫入數(shù)據(jù)。關(guān)聯(lián)數(shù)據(jù)可以更容易地理解數(shù)據(jù)是如何連接的,而身份則需要遵循數(shù)據(jù)跟蹤回到其來源。
從那時(shí)起,行業(yè)專家一直在推動(dòng)新的標(biāo)準(zhǔn)和工具來連接數(shù)據(jù),使其作為語義網(wǎng)的一部分更有價(jià)值和可訪問性。早期的例子包括,在谷歌搜索一部電影時(shí),如何將相關(guān)信息組織成卡片,顯示附近的影院、評(píng)分、片長、演員和快速摘要。谷歌搜索報(bào)告了許多公司在向其網(wǎng)站添加結(jié)構(gòu)化數(shù)據(jù)后看到流量或時(shí)間增加的案例。例如,雀巢(公司在添加結(jié)構(gòu)化數(shù)據(jù)標(biāo)記后打開新窗口的點(diǎn)擊率提高了82%,而樂天(Rakuten)發(fā)現(xiàn),用戶在包含結(jié)構(gòu)化數(shù)據(jù)的頁面上花費(fèi)的時(shí)間增加了1.5倍。
關(guān)聯(lián)數(shù)據(jù)自動(dòng)化
關(guān)聯(lián)數(shù)據(jù)工具非常適合定義良好的實(shí)體,如電影、食譜和餐館。不過,對(duì)于其他領(lǐng)域來說,它們要復(fù)雜得多,比如跟蹤不同渠道的客戶旅程,或者將供應(yīng)鏈數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù)流與第三方來源鏈接起來。這就是下一代人工智能增強(qiáng)將有助于照亮黑暗數(shù)據(jù)的地方。這其中有幾個(gè)因素。
在現(xiàn)有數(shù)據(jù)集上運(yùn)行人工智能算法可以幫助組織來自許多來源的數(shù)據(jù)。一種方法可能是探索自動(dòng)化公平指導(dǎo)原則的方法。為科學(xué)數(shù)據(jù)在2016年引入的科學(xué)數(shù)據(jù)管理和管理最佳實(shí)踐打開了新的窗口。這個(gè)術(shù)語指的是使數(shù)據(jù)可查找、可訪問、可互操作和可重用。
但追蹤與數(shù)據(jù)相關(guān)的身份也很重要。例如,更有可能相信消費(fèi)者報(bào)告上發(fā)布的產(chǎn)品評(píng)論。同樣,在做出貸款決策時(shí),安全地跟蹤與銀行、信用卡報(bào)告和政府機(jī)構(gòu)安全鏈接的數(shù)據(jù)鏈也會(huì)很有幫助。
身份不僅僅適用于人類。相同的身份基礎(chǔ)設(shè)施還可以連接直接從供應(yīng)鏈中的各種傳感器提取的數(shù)據(jù),以跟蹤產(chǎn)品在供應(yīng)鏈中的收獲、生產(chǎn)和運(yùn)輸?shù)牡攸c(diǎn)和方式。
互聯(lián)數(shù)據(jù)生態(tài)系統(tǒng)
尋找自動(dòng)化這個(gè)過程的方法將幫助企業(yè)獲得與谷歌看到的自動(dòng)化頁面排名方法相同的優(yōu)勢。自動(dòng)化連接連接到已驗(yàn)證身份的數(shù)據(jù)的過程將為有效地為不同用例使用更多數(shù)據(jù)提供新的機(jī)會(huì)。需要找到更好的方法來轉(zhuǎn)換數(shù)據(jù),開發(fā)標(biāo)記數(shù)據(jù)的流程,并優(yōu)先考慮數(shù)據(jù)質(zhì)量工作,供主題專家審查。
從短期來看,這將提供一種自動(dòng)化數(shù)據(jù)清理和標(biāo)簽的方法,將孤立的數(shù)據(jù)轉(zhuǎn)移到連接的數(shù)據(jù)生態(tài)系統(tǒng)中。如今,非常昂貴的數(shù)據(jù)科學(xué)家和工程師必須編寫自定義代碼來處理數(shù)據(jù)。
腳本中斷,必須在每次更新數(shù)據(jù)時(shí)進(jìn)行修復(fù)。人工智能自動(dòng)化可以幫助企業(yè)大規(guī)模創(chuàng)建關(guān)聯(lián)集。隨著時(shí)間的推移,它將提供一條引入暗數(shù)據(jù)的途徑,并使其變得更輕松,使其在企業(yè)內(nèi)部和分散的網(wǎng)絡(luò)上都更容易訪問。