麻省理工研究人員引入新的人工智能驅(qū)動(dòng)的SQL數(shù)據(jù)庫(kù)分析
在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的世界中,對(duì)表格數(shù)據(jù)進(jìn)行復(fù)雜統(tǒng)計(jì)分析的能力對(duì)于從原始數(shù)據(jù)中獲得有意義的見(jiàn)解至關(guān)重要。然而,數(shù)據(jù)的復(fù)雜性和龐大量使得個(gè)人和組織越來(lái)越難以有效地處理和解釋信息。
現(xiàn)在出現(xiàn)了一個(gè)突破,徹底改變了我們與數(shù)據(jù)交互的方式。麻省理工學(xué)院的研究人員推出了GenSQL,這是一種概率編程系統(tǒng),旨在為數(shù)據(jù)庫(kù)用戶簡(jiǎn)化復(fù)雜表格數(shù)據(jù)的分析。
使用GenSQL,用戶可以預(yù)測(cè)和檢測(cè)異常,修復(fù)錯(cuò)誤,猜測(cè)缺失值,并以最小的努力生成合成數(shù)據(jù)。開(kāi)發(fā)GenSQL的一個(gè)關(guān)鍵目標(biāo)是為用戶提供一種可訪問(wèn)的方式來(lái)處理數(shù)據(jù),而不需要對(duì)底層流程有深入的技術(shù)知識(shí)。
由于GenSQL可用于創(chuàng)建和分析模擬數(shù)據(jù)庫(kù)中真實(shí)數(shù)據(jù)的合成數(shù)據(jù),因此該工具對(duì)于無(wú)法共享敏感數(shù)據(jù)的應(yīng)用程序(例如患者數(shù)據(jù)或金融交易)非常有用。
傳統(tǒng)的SQL允許用戶直接從數(shù)據(jù)庫(kù)中查詢數(shù)據(jù),但很難結(jié)合復(fù)雜的概率模型,而這些模型可以更深入地了解數(shù)據(jù)依賴關(guān)系和相關(guān)性。GenSQL通過(guò)集成傳統(tǒng)SQL查詢和獨(dú)立概率建模方法來(lái)解決它們的局限性。
“我們認(rèn)為,當(dāng)我們從僅僅查詢數(shù)據(jù)轉(zhuǎn)向詢問(wèn)模型和數(shù)據(jù)問(wèn)題時(shí),將需要一種類(lèi)似的語(yǔ)言來(lái)教授人們可以向具有數(shù)據(jù)概率模型的計(jì)算機(jī)提出的連貫問(wèn)題,”Vikash Mansinghka說(shuō),他是一篇介紹GenSQL的論文的高級(jí)作者,也是麻省理工學(xué)院腦與認(rèn)知科學(xué)系概率計(jì)算項(xiàng)目的首席研究科學(xué)家和負(fù)責(zé)人。
根據(jù)麻省理工學(xué)院研究人員進(jìn)行的內(nèi)部測(cè)試,GenSQL不僅提供更快的結(jié)果,而且更準(zhǔn)確。此外,GenSQL的輸出是可解釋的,因此用戶可以理解人工智能模型是如何得出結(jié)論的。這有助于用戶理解推理過(guò)程,并據(jù)此做出明智的決策。
研究人員通過(guò)將GenSQL的性能與使用神經(jīng)網(wǎng)絡(luò)的流行基線方法進(jìn)行比較來(lái)測(cè)試GenSQL。結(jié)果顯示,GenSQL的速度要快1.7到6.8倍,并且提供更準(zhǔn)確的結(jié)果。
為了測(cè)試GenSQL在大規(guī)模建模中的性能,研究人員應(yīng)用該工具從包含人口數(shù)據(jù)的大型數(shù)據(jù)集中生成見(jiàn)解。GenSQL能夠得出關(guān)于數(shù)據(jù)集中個(gè)人的健康和工資的有用推斷。
GenSQL在研究人員進(jìn)行的案例研究中也表現(xiàn)出色。該工具成功地識(shí)別了錯(cuò)誤標(biāo)記的臨床試驗(yàn)數(shù)據(jù),并且還能夠捕獲基因組學(xué)案例研究中的復(fù)雜關(guān)系。
麻省理工學(xué)院的研究人員計(jì)劃增加新的優(yōu)化和自動(dòng)化,使GenSQL更強(qiáng)大,更容易使用。他們還希望用戶能夠在GenSQL中使用自然語(yǔ)言查詢,使更廣泛的受眾更容易接近復(fù)雜的數(shù)據(jù)。