會(huì)被取代嗎?GPT4 Code Interpreter全自動(dòng)
哈嘍,大家好。
今天給大家分享下 GPT-4 code interpreter 自動(dòng)做數(shù)據(jù)分析、科研繪圖、做機(jī)器學(xué)習(xí)算法。
圖片
本文用的是人工智能入門的一個(gè)經(jīng)典案例——Kaggle房?jī)r(jià)預(yù)測(cè),來看看完全交給code interpreter能做到什么程度。
數(shù)據(jù)集直接從Kaggle網(wǎng)站下載就可以了。
圖片
下載下來是個(gè)壓縮文件,我們可以一股腦丟給code interpreter,讓他來解壓,并且解讀里面的文件。
圖片
他能正確解讀每個(gè)文件的作用,尤其像data_description.txt這種文件里面有幾十個(gè)字段,又都是英文,如果一個(gè)個(gè)看很浪費(fèi)時(shí)間,但用code interpreter就非常方便,它可以說明每個(gè)字段的含義,并且能正確解析出每個(gè)字段有多少取值,以及每個(gè)取值的含義。
圖片
閱讀效率太高了!
然后告訴code interpreter這是一個(gè)房?jī)r(jià)預(yù)測(cè)的任務(wù),讓他給出步驟。
圖片
跟我們平時(shí)跑算法的思路一致,每一步都非常清晰。
接下來,先讓code interpreter自動(dòng)做數(shù)據(jù)探索(EDA)。
圖片
這一步讓他自動(dòng)完成就可以,我們很快就能對(duì)數(shù)據(jù)有全面的掌握,比如:特征的分布,哪些特征與label相關(guān)性高等等。
基于上面分析結(jié)論,就可以讓他來建模了。
圖片
圖片
他會(huì)選一個(gè)模型(這里用的是隨機(jī)森林)進(jìn)行擬合,并且會(huì)給出均方根誤差和真實(shí)值 vs 預(yù)測(cè)值的散點(diǎn)圖。讓我們對(duì)模型效果有個(gè)大致了解。
最后,可以讓他用訓(xùn)練好的模型在測(cè)試集上預(yù)測(cè),并按照Kaggle要求的格式產(chǎn)出。
圖片
code interpreter可以按照我們的指令,很好的完成工作。我們可以下載他預(yù)測(cè)的結(jié)果,上傳到Kaggle進(jìn)行評(píng)估。
誤差是 0.15,排名 2000多名,還是非常不錯(cuò)的。
圖片
記得,我5年前第一次提交的結(jié)果是 0.17,比code interpreter弱爆了。
圖片
當(dāng)然,這還不完,有免費(fèi)的勞動(dòng)力,當(dāng)然要壓榨一下,反正他又不會(huì)累。
我把這個(gè)結(jié)果和排名告訴了code interpreter,讓他繼續(xù)優(yōu)化算法,提升下排名。
圖片
他還是不出意外地給了一堆1、2、3、4、5...建議,說得非常好,反正我也沒看。
我也只能象征性的讓他按照自己說的,去做一遍。
圖片
這里執(zhí)行的時(shí)候,會(huì)有一些問題,主要是參數(shù)grid search時(shí)候,參數(shù)組合太多,code interpreter資源不足導(dǎo)致計(jì)算超時(shí)。
他自己會(huì)做一些嘗試,如:減少參數(shù)范圍等。不斷出問題,不斷重試之后,終于跑成功了,模型效果并沒有更好。
圖片
雖然優(yōu)化沒成功,但他仍然還是會(huì)給一些建議。
圖片
這里我隨口一說讓他換個(gè)模型試試。
這次優(yōu)化成功了,提交上去誤差 0.13。
圖片
排名1k多名,比上一次提高了整整1k名。
整個(gè)過程,我始終以小白的身份再跟他交流,沒有給到他任何專業(yè)的知識(shí)。如果深入到項(xiàng)目中,結(jié)合code interpreter的反饋和自己的專業(yè)知識(shí),指導(dǎo)他迭代,我相信會(huì)跑出更好地結(jié)果。
還有就是,善用GPT確實(shí)提效太多了。