GPT-4取代數(shù)據(jù)分析師,成本僅3000!阿里達(dá)摩院&NTU論文引熱議
近來,想必很多人被一份「GPT-4取代數(shù)據(jù)分析師」核算成本的研究報(bào)告驚到了。
論文內(nèi)容直戳痛點(diǎn):
使用GPT-4的成本大約是雇傭初級(jí)數(shù)據(jù)分析師的0.71%。
論文地址:https://arxiv.org/pdf/2305.15038.pdf
這份來自阿里達(dá)摩院和南洋理工大學(xué)的最新研究,明晃晃地告訴數(shù)據(jù)分析師,我要取代你們,這就是證據(jù)。
你以為高級(jí)數(shù)據(jù)分析師,會(huì)逃過一劫嗎?
研究人員稱,使用GPT-4的成本是雇傭高級(jí)數(shù)據(jù)分析師的0.45%。
這是什么概念?
根據(jù)就業(yè)在線社區(qū)Glassdoor統(tǒng)計(jì),一位高級(jí)數(shù)據(jù)分析師年薪大約10萬美元(70萬人民幣)。
要是換成GPT-4,僅需要450美元,也就3000元左右。
從70萬到3000,簡直就是成本爆破!
網(wǎng)友表示,想到成本會(huì)這么低,但沒料到這么低。
框架
總之,這篇研究做出了以下幾點(diǎn)貢獻(xiàn):
· 首次提出「GPT-4是否是一個(gè)優(yōu)秀數(shù)據(jù)分析師」的研究問題,并對其利弊進(jìn)行了定量評(píng)估。
· 對于這樣一個(gè)典型的數(shù)據(jù)分析師的工作范圍,提出了一個(gè)端到端的自動(dòng)框架來進(jìn)行數(shù)據(jù)收集、可視化和分析。
· 對GPT-4的產(chǎn)出進(jìn)行了系統(tǒng)的、專業(yè)的人工評(píng)估。有良好質(zhì)量的數(shù)據(jù)分析和洞察力可以被認(rèn)為是NLP社區(qū)數(shù)據(jù)分析的第一個(gè)標(biāo)桿。
為了搞清楚GPT-4能否成為一個(gè)好數(shù)據(jù)分析師,研究人員設(shè)計(jì)了一個(gè)端到端的框架。
GPT-4在上下文理解、代碼生成、數(shù)據(jù)故事方面的能力逐漸嶄露頭角,而這項(xiàng)研究的目的就是使用GPT-4來實(shí)現(xiàn)整個(gè)數(shù)據(jù)分析過程的自動(dòng)化。
論文中,研究人員展示了GPT-4作為數(shù)據(jù)分析師流程。
基本上有三個(gè)步驟:(1)代碼生成(藍(lán)色箭頭所示),(2)代碼執(zhí)行(橙色箭頭所示),以及(3)分析生成(綠色箭頭所示)。
整個(gè)框架的算法過程如下:
第1步:代碼生成
第一步的輸入包含一個(gè)問題和數(shù)據(jù)庫模式。這里的目標(biāo)是生成代碼,以便在后面的步驟中提取數(shù)據(jù)和繪制圖表。
研究者利用GPT-4來理解問題和模式中多個(gè)數(shù)據(jù)庫表之間的關(guān)系。
由于數(shù)據(jù)安全的原因,僅提供了數(shù)據(jù)庫表的模式。大量的原始數(shù)據(jù)仍然被安全地離線保存,并將在后面的步驟中使用。
這一步的設(shè)計(jì)提示如表1所示。按照提示,可以得到一段包含SQL查詢的python代碼。
第2步:代碼執(zhí)行
正如前面提到的,為了維護(hù)數(shù)據(jù)安全,研究人員在離線狀態(tài)下執(zhí)行GPT-4生成的代碼。
這一步的輸入是步驟1中生成的代碼,以及數(shù)據(jù)庫中的原始數(shù)據(jù),
如框架圖所示。通過使用「conn = sqlite3.connect([database file name])」定位數(shù)據(jù)目錄。
如代碼中的表1所示,這個(gè)步驟涉及大量的原始數(shù)據(jù)。通過執(zhí)行python代碼,我們能夠得到「figure.pdf」中的圖表,以及「data.txt」中保存的提取數(shù)據(jù)。
第3步:分析生成
在獲得提取的數(shù)據(jù)后,研究者的目標(biāo)是產(chǎn)生數(shù)據(jù)分析和洞察力。
為了確保數(shù)據(jù)分析與原始查詢相一致,同時(shí)使用問題和提取的數(shù)據(jù)作為輸入。研究人員為這個(gè)步驟的GPT-4設(shè)計(jì)的提示語如表2所示。
在這個(gè)過程中,研究人員沒有對提取數(shù)據(jù)生成一段描述,而是指示GPT-4用5個(gè)要點(diǎn)來生成分析和見解,并強(qiáng)調(diào)關(guān)鍵要點(diǎn)。
有一點(diǎn)需要注意的是,在此,研究人員也考慮使用生成的圖表作為輸入的替代方案。
因?yàn)椤窯PT-4的技術(shù)報(bào)告」提到,它可以將圖標(biāo)作為輸入。不過,這個(gè)功能還沒全面開放。
由于提取的數(shù)據(jù)基本上包含的信息量與生成的圖表至少相同,因此研究人員只使用「提取數(shù)據(jù)」作為輸入。
從初步的實(shí)驗(yàn)來看,GPT-4能夠從數(shù)據(jù)本身理解趨勢和相關(guān)性,而不需要看到數(shù)據(jù)。
為了讓框架更加實(shí)用,從而有可能幫助人類數(shù)據(jù)分析師提高其日常表現(xiàn)。研究人員增加了一個(gè)利用外部知識(shí)源的選項(xiàng),如算法1所示。
由于實(shí)際的數(shù)據(jù)分析師角色通常需要相關(guān)的業(yè)務(wù)背景知識(shí),研究人員設(shè)計(jì)了一個(gè)外部知識(shí)檢索模型g(·),從外部知識(shí)源(如谷歌)查詢實(shí)時(shí)在線信息(I)。在這樣的方案中,GPT-4將數(shù)據(jù)(D)和在線信息(I)都作為輸入來生成分析(A)。
實(shí)驗(yàn)
數(shù)據(jù)集
由于沒有完全匹配的數(shù)據(jù)集,研究人員選擇了一個(gè)最相關(guān)的數(shù)據(jù)集——NvBench。
他們從不同領(lǐng)域隨機(jī)選擇了100個(gè)不同圖表類型,和不同難度的問題來進(jìn)行主要實(shí)驗(yàn)。
圖表類型包括:條形圖、疊加條形圖、線形圖、散點(diǎn)圖和餅圖等。
難度等級(jí)包括:簡單、中等、困難和極難。
領(lǐng)域包括:體育、藝術(shù)、交通、公寓出租等。
在NvBench數(shù)據(jù)集的基礎(chǔ)上,研究人員利用框架為每個(gè)實(shí)例編寫了5個(gè)要點(diǎn),并使用全新的指標(biāo)來評(píng)估質(zhì)量。
評(píng)估
在這里,研究人員設(shè)計(jì)了幾個(gè)人工評(píng)估指標(biāo)來評(píng)估生成的數(shù)據(jù),并分別對每個(gè)測試實(shí)例進(jìn)行分析。
圖表評(píng)估:
· 信息正確性:圖中顯示的數(shù)據(jù)和信息是否正確?(0-1)
· 圖標(biāo)類型正確性:圖表類型是否符合問題中的要求?(0-1)
· 美觀性:圖表是否美觀、清晰,沒有任何格式錯(cuò)誤?(0-3)
分析評(píng)估:
· 正確性:分析中是否包含錯(cuò)誤的數(shù)據(jù)或信息?(0-1)
· 對齊性:分析是否與問題一致?(0-1)
· 復(fù)雜性:分析的復(fù)雜程度和深度如何?(0-3)
· 流暢性:生成的分析是否流暢,在語法上是否合理,沒有不必要的重復(fù)?(0-3)
為了進(jìn)行人工評(píng)估,阿里&NTU研究人員從一家數(shù)據(jù)標(biāo)注公司雇傭了6名專業(yè)的數(shù)據(jù)標(biāo)注員,按照上述詳細(xì)的評(píng)估指標(biāo)對每個(gè)圖形和分析要點(diǎn)進(jìn)行標(biāo)注。
結(jié)果
GPT-4的表現(xiàn)
表3顯示了,GPT-4作為數(shù)據(jù)分析師在200個(gè)樣本上的表現(xiàn),以及每個(gè)單獨(dú)的評(píng)估組的結(jié)果,和兩個(gè)組之間的平均分?jǐn)?shù)。
對于圖表類型正確性評(píng)估,兩個(gè)評(píng)估小組幾乎都給出了滿分。
這表明,對于 「畫條形圖」、「顯示餅形圖」等這樣簡單明了的指令,GPT-4可以很容易地理解其含義,并對圖表類型的含義有背景知識(shí),從而可以相應(yīng)地以正確的類型繪制圖表。
在美學(xué)評(píng)分方面,它平均得到2.73分(滿分3分),這表明大多數(shù)生成的數(shù)字對評(píng)估者來說是清晰的,沒有任何格式錯(cuò)誤。
然而,對于繪制圖表的信息正確性,得分并不那么令人滿意。
研究人員手動(dòng)檢查了這些圖表,發(fā)現(xiàn)盡管有一些小錯(cuò)誤,但大多數(shù)都能大致得到正確的數(shù)字。
在此,評(píng)估標(biāo)準(zhǔn)非常嚴(yán)格,只要有任何數(shù)據(jù),或任何標(biāo)簽的X軸或Y軸是錯(cuò)誤的,就要扣分。盡管如此,它仍有進(jìn)一步改進(jìn)的空間。
在分析評(píng)估方面,對齊性和流暢性平均得到了滿分。這再次驗(yàn)證了生成流暢和語法正確的句子對GPT-4來說絕對不是一個(gè)問題。
另外,研究人員還注意到,分析的平均正確性得分要比數(shù)據(jù)的信息正確性高得多。
這很有趣,因?yàn)楸M管生成的數(shù)據(jù)是錯(cuò)誤的,但分析結(jié)果可能是正確的。這再次驗(yàn)證了研究人員之前對數(shù)字的信息正確性得分的解釋。
如前所述,由于生成的數(shù)字大多與黃金數(shù)字一致,因此一些要點(diǎn)可以正確生成。只有少數(shù)與數(shù)字中的錯(cuò)誤部分有關(guān)的要點(diǎn)被認(rèn)為是錯(cuò)誤的。就復(fù)雜性得分而言,平均2.16分(滿分3分)是合理且令人滿意的。
人類數(shù)據(jù)分析師與GPT-4的比較
為了進(jìn)一步回答我們的研究問題,研究人員聘請專業(yè)的數(shù)據(jù)分析師來做這些任務(wù),并與GPT-4進(jìn)行全面的比較。
表4顯示了幾個(gè)來自不同背景的專家級(jí)別數(shù)據(jù)分析師與GPT-4的表現(xiàn)比較。
總的來說,GPT-4的性能與人類數(shù)據(jù)分析師相當(dāng),而在不同的標(biāo)準(zhǔn)指標(biāo)和人類數(shù)據(jù)分析師之間,其優(yōu)勢也有所不同。
第一行顯示了,一位在金融行業(yè)有超過6年數(shù)據(jù)分析工作經(jīng)驗(yàn)的高級(jí)數(shù)據(jù)分析師(即高級(jí)數(shù)據(jù)分析師1)的10個(gè)樣本表現(xiàn)。從表中可以看出,GPT-4在大多數(shù)指標(biāo)上的表現(xiàn)與專家數(shù)據(jù)分析師相當(dāng)。雖然GPT-4的正確性得分低于人類數(shù)據(jù)分析師,但復(fù)雜性得分和排列組合得分卻更高。
第二行顯示了,GPT-4和另一個(gè)有5年工作經(jīng)驗(yàn)的高級(jí)數(shù)據(jù)分析師(即高級(jí)數(shù)據(jù)分析師2)在8個(gè)樣本上的性能比較。由于樣本量相對較小,結(jié)果顯示人類和AI數(shù)據(jù)分析師之間的差異較大。人類數(shù)據(jù)分析師在信息的正確性和數(shù)據(jù)美觀性、見解的正確性和復(fù)雜性方面超過了GPT-4,表明GPT-4仍有改進(jìn)的潛力。
第三行是比較GPT-4和一個(gè)在咨詢公司有2年內(nèi)數(shù)據(jù)分析工作經(jīng)驗(yàn)的初級(jí)數(shù)據(jù)分析師之間的另一個(gè)隨機(jī)9樣本的表現(xiàn)。GPT-4不僅在數(shù)字和分析的正確性上表現(xiàn)得更好,而且還傾向于產(chǎn)生比人類數(shù)據(jù)分析師更復(fù)雜的分析。
除了所有數(shù)據(jù)分析師和GPT-4之間的性能相當(dāng)外,我們可以注意到GPT-4花費(fèi)的時(shí)間比人類數(shù)據(jù)分析師短得多。
表5顯示了,來自不同職業(yè)平臺(tái)的數(shù)據(jù)分析師成本比較。
研究人員從level.fyi獲得新加坡數(shù)據(jù)分析師的年薪中值,從Glassdoor獲得新加坡數(shù)據(jù)分析師的平均年薪。
這里,研究人員假設(shè)每月有大約21個(gè)工作日,每天的工作時(shí)間約為8小時(shí),再結(jié)合目前不同級(jí)別數(shù)據(jù)分析師在具體項(xiàng)目實(shí)例中所花費(fèi)的平均時(shí)長(美元)。
對于這次研究的標(biāo)注,研究人員根據(jù)市場價(jià)格相應(yīng)地支付給數(shù)據(jù)分析員。GPT4的成本約為初級(jí)數(shù)據(jù)分析師成本的0.71%,高級(jí)數(shù)據(jù)分析師成本的0.45%。
案例
在第一個(gè)案例中,GPT-4能夠生成包含正確的SQL查詢的python代碼,以提取所需的數(shù)據(jù),并根據(jù)給定的問題畫出適當(dāng)?shù)摹⒄_的餅圖。
在分析方面,GPT-4能夠通過進(jìn)行適當(dāng)?shù)谋容^(例如,「最成功」、「不太成功」、「不同范圍」)來理解數(shù)據(jù)。
此外,GPT-4還能從數(shù)據(jù)中提供一些見解,如:「表明他們在競爭中的主導(dǎo)地位」。
GPT-4的上述這些能力,包括上下文理解、代碼生成和數(shù)據(jù)故事,也在其他許多案例中得到了證明。
此外,在這個(gè)案例中,GPT-4還可以從數(shù)據(jù)和其背景知識(shí)中做出一些合理的猜測,例如:「可能是由于其設(shè)計(jì)、性能或其他因素」。
第二個(gè)案例顯示了GPT-4處理的另一個(gè)問題「在散點(diǎn)圖中顯示身高和體重之間的相關(guān)性」。
同樣,GPT-4能夠提取正確的數(shù)據(jù),畫出正確的散點(diǎn)圖并生成合理的分析。
雖然大部分的要點(diǎn)都原模原樣地生成了,但如果仔細(xì)閱讀和檢查,就會(huì)發(fā)現(xiàn)平均身高和體重的數(shù)字是錯(cuò)誤的。
除了眾所周知的「幻覺」問題外,研究人員懷疑GPT-4的計(jì)算能力不強(qiáng),特別是對于那些復(fù)雜的計(jì)算。
甚至,他們還在在其他幾個(gè)案例中也注意到這個(gè)問題。盡管GPT-4以非常自信的語氣生成了分析要點(diǎn),但計(jì)算結(jié)果有時(shí)并不準(zhǔn)確。
第三是高級(jí)分析師2所做的一個(gè)例子。
可以注意到,這位專家級(jí)的人類數(shù)據(jù)分析師也能理解需求,編寫代碼來繪制正確的柱狀圖,并對提取的數(shù)據(jù)進(jìn)行分析要點(diǎn)。
除此以外,研究人員總結(jié)出人類數(shù)據(jù)分析師與GPT-4的3個(gè)主要區(qū)別:
首先,與GPT-4不同的是,人類數(shù)據(jù)分析師可以用一些個(gè)人想法和情感來表達(dá)分析。例如,數(shù)據(jù)分析師會(huì)提到「這有點(diǎn)令人驚訝......」。在現(xiàn)實(shí)生活中,個(gè)人情感有時(shí)是很重要的。通過這些情緒化的短語,人們可以很容易地理解數(shù)據(jù)是否符合預(yù)期或不正常。
第二,人類的數(shù)據(jù)分析師傾向于應(yīng)用一些背景知識(shí)。雖然GPT-4通常只關(guān)注提取的數(shù)據(jù)本身,但人類很容易與自己的背景知識(shí)聯(lián)系起來。例如,如表8所示,數(shù)據(jù)分析師提到「......是常見的......」,這在數(shù)據(jù)分析師的實(shí)際工作中是比較自然的。因此,為了更好地模仿人類數(shù)據(jù)分析師,在演示中,研究人員增加了一個(gè)選項(xiàng),即在生成數(shù)據(jù)分析時(shí)使用谷歌搜索API來提取實(shí)時(shí)在線信息。
第三,當(dāng)提供洞察力或建議時(shí),人類數(shù)據(jù)分析師往往是保守的。例如,在第5點(diǎn)中,人類數(shù)據(jù)分析師在給出建議前提到「如果沒有數(shù)據(jù)問題」。與人類不同,GPT-4會(huì)以自信的語氣直接提供建議,而不提及其假設(shè)。
討論
從初步的結(jié)果來看,GPT-4的表現(xiàn)可以與數(shù)據(jù)分析師相媲美。
不過,在得出結(jié)論之前,仍有幾個(gè)問題需要解決。
首先,正如案例研究部分所提到的,GPT-4仍然有幻覺問題。數(shù)據(jù)分析工作不僅需要那些技術(shù)能力和分析能力,而且還需要保證高精確度。
其次,GPT-4不應(yīng)該直接給出任何建議或從數(shù)據(jù)中做出任何猜測,而是應(yīng)該謹(jǐn)慎對待所有的假設(shè),并給出更加嚴(yán)謹(jǐn)?shù)恼f法。
此外,盡管實(shí)驗(yàn)中的問題已經(jīng)涵蓋了很多的領(lǐng)域、數(shù)據(jù)庫、難度級(jí)別和圖表類型,但根據(jù)人類數(shù)據(jù)分析師的反饋,它們?nèi)匀挥行┻^于具體。比如,通常會(huì)包含這樣的信息:兩個(gè)變量之間的特定相關(guān)性,特定的圖表類型。
由于預(yù)算的限制,人工評(píng)估和數(shù)據(jù)分析師標(biāo)注的數(shù)據(jù)相對較少。畢竟數(shù)據(jù)分析師(尤其是資深的)非常昂貴,團(tuán)隊(duì)只聘請他們做了少量的樣本。
網(wǎng)友評(píng)論
對此,有網(wǎng)友表示,GPT替代初級(jí)分析師確實(shí)是低成本高效率的,但替代高級(jí)分析師還難說,未來的高級(jí)分析師要更多注重行業(yè)洞察力和預(yù)見能力,這是維持其高工資的基礎(chǔ),也是GPT難全面替代的。
資深數(shù)據(jù)分析師Galen Okazaki表示,數(shù)據(jù)分析是一個(gè)價(jià)值龐大的產(chǎn)業(yè),并且仍然在持續(xù)增長。
從2012年開始,他在GE資本做了7年的資本市場數(shù)據(jù)分析,職務(wù)是高級(jí)副總裁。2020年到現(xiàn)在,Okazaki一直在VDS公司做數(shù)據(jù)戰(zhàn)略,職務(wù)是高級(jí)顧問。
他認(rèn)為,數(shù)據(jù)分析師并不是誰都能做,需要專業(yè)的領(lǐng)域知識(shí)。而缺乏專業(yè)知識(shí)的人,就算有GPT-4也沒用。
無論是哪個(gè)領(lǐng)域的數(shù)據(jù)分析,無論我們用什么工具,結(jié)果都是如此——沒有專業(yè)知識(shí),我們就不知道面對一大堆數(shù)據(jù)該提出什么樣的問題,就算有了一些發(fā)現(xiàn),也不知道如何解釋。
這也就是數(shù)據(jù)分析工作的最大價(jià)值所在,能夠調(diào)用專業(yè)知識(shí)回答可能遇到的任何問題,無論有多復(fù)雜,有多少層次,是不是線性的,等等。而這些問題恰恰是生成式AI不能回答的。
所以,Okazaki的結(jié)論是,GPT-4的能力越來越強(qiáng),給數(shù)據(jù)分析師的輔助作用也會(huì)越來越大。可是取代?不太可能。
參考資料:
https://arxiv.org/abs/2305.15038
https://towardsdatascience.com/will-generative-ai-replace-the-need-for-data-analysts-6b6807599d00