北大研究人員這次發(fā)現(xiàn)了AI「躺平」原因,都是數(shù)據(jù)集的錯
在訓(xùn)練人工「智障」的時候,AI最后經(jīng)常會學(xué)到一些莫名其妙的方式來完成人類的的任務(wù)。
有一些AI就會去學(xué)習(xí)如何通過「卡bug」來快速通關(guān)。
還有一些AI學(xué)會了「只要把游戲暫停了,我就不會輸」這個終極哲學(xué)。
AI也想「躺平」
為了讓模型能夠提高準(zhǔn)確性,通常會設(shè)置相應(yīng)的獎勵,但有時候模型在前期就發(fā)現(xiàn)了能夠獲得獎勵的「捷徑」。
但凡AI嘗到了甜頭,它就會一直選擇去走這個「捷徑」,不再去學(xué)習(xí)更困難的知識或者方法。
來自北京大學(xué)的研究人員在訓(xùn)練語言模型的時候就發(fā)現(xiàn):AI雖然能回答正確,但是它搞不明白為什么答案是對的,只知道遇到某類問題用這個回答就可以了。
于是,研究人員決定要把AI「扶起來」,讓它們「努力學(xué)習(xí)」不能偷懶。
論文地址:
https://arxiv.org/pdf/2106.01024.pdf
這篇論文已經(jīng)發(fā)表在arxiv上,作者是來自北京大學(xué)王選計(jì)算機(jī)研究所和北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室的Yuxuan Lai, Chen Zhang, Yansong Feng , Quzhe Huang,和Dongyan Zhao(趙東巖)
為什么AI總想去「躺平」?
盡管有些研究已經(jīng)發(fā)現(xiàn)了AI總愛「躺平」的現(xiàn)象,但是他們并沒有發(fā)現(xiàn)這個現(xiàn)象和數(shù)據(jù)集中的「捷徑」問題有關(guān)。
為此,論文提出了一個經(jīng)過標(biāo)注的全新數(shù)據(jù)集,其中包括對一個問題的「捷徑版」和「挑戰(zhàn)版」兩種回答。
數(shù)據(jù)集使用「釋義」( paraphrasing )作為更復(fù)雜和更深入答案的標(biāo)準(zhǔn),因?yàn)橄胍磉_(dá)出學(xué)到的知識,語義理解是必要的。相比之下,「捷徑」的答案是有如日期或其他關(guān)鍵字生成的,但沒有任何上下文或推理。
研究人員發(fā)現(xiàn),訓(xùn)練集中「捷徑版」樣本越高,就越會阻礙模型學(xué)到「釋義」從而去解決具有挑戰(zhàn)性的問題。而模型在回答「捷徑版」問題時的表現(xiàn)則基本穩(wěn)定。
文章表明,當(dāng)訓(xùn)練集中有足夠多的「挑戰(zhàn)版」問題時,模型不僅能更好地理解「挑戰(zhàn)版」問題,而且也能正確回答「捷徑版」問題。
AI是如何學(xué)會「躺平」的?
文章表示,在訓(xùn)練的早期階段,模型往往會找到最簡單的方法達(dá)到梯度下降從而擬合訓(xùn)練數(shù)據(jù)。而且由于「捷徑」需要較少的計(jì)算資源來學(xué)習(xí),因此擬合這些技巧會變成一個優(yōu)先事項(xiàng)。
之后,由于模型學(xué)會的「捷徑」可用于正確回答大部分訓(xùn)練問題,因此剩余的問題便無法激勵模型繼續(xù)去探索「挑戰(zhàn)版」問題需要的復(fù)雜解決方法。
有沒有辦法把AI「扶起來」?
除了NLP架構(gòu)本身的問題外,也很可能是訓(xùn)練過程中標(biāo)準(zhǔn)優(yōu)化和資源保護(hù)的結(jié)果,以及讓模型在短時間內(nèi)以有限的資源去獲得結(jié)果的壓力。
如文章所說的那樣,數(shù)據(jù)預(yù)處理領(lǐng)域可能需要考慮將數(shù)據(jù)中的「捷徑」視為一個亟待解決的問題,或者是修改 NLP 架構(gòu)從而達(dá)到優(yōu)先考慮更具挑戰(zhàn)性的數(shù)據(jù)的效果。