北大研究人員這次發(fā)現(xiàn)了AI「躺平」原因,都是數(shù)據(jù)集的錯(cuò)
在訓(xùn)練人工「智障」的時(shí)候,AI最后經(jīng)常會(huì)學(xué)到一些莫名其妙的方式來完成人類的的任務(wù)。
有一些AI就會(huì)去學(xué)習(xí)如何通過「卡bug」來快速通關(guān)。
還有一些AI學(xué)會(huì)了「只要把游戲暫停了,我就不會(huì)輸」這個(gè)終極哲學(xué)。
AI也想「躺平」
為了讓模型能夠提高準(zhǔn)確性,通常會(huì)設(shè)置相應(yīng)的獎(jiǎng)勵(lì),但有時(shí)候模型在前期就發(fā)現(xiàn)了能夠獲得獎(jiǎng)勵(lì)的「捷徑」。
但凡AI嘗到了甜頭,它就會(huì)一直選擇去走這個(gè)「捷徑」,不再去學(xué)習(xí)更困難的知識或者方法。
來自北京大學(xué)的研究人員在訓(xùn)練語言模型的時(shí)候就發(fā)現(xiàn):AI雖然能回答正確,但是它搞不明白為什么答案是對的,只知道遇到某類問題用這個(gè)回答就可以了。
于是,研究人員決定要把AI「扶起來」,讓它們「努力學(xué)習(xí)」不能偷懶。
論文地址:
https://arxiv.org/pdf/2106.01024.pdf
這篇論文已經(jīng)發(fā)表在arxiv上,作者是來自北京大學(xué)王選計(jì)算機(jī)研究所和北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室的Yuxuan Lai, Chen Zhang, Yansong Feng , Quzhe Huang,和Dongyan Zhao(趙東巖)
為什么AI總想去「躺平」?
盡管有些研究已經(jīng)發(fā)現(xiàn)了AI總愛「躺平」的現(xiàn)象,但是他們并沒有發(fā)現(xiàn)這個(gè)現(xiàn)象和數(shù)據(jù)集中的「捷徑」問題有關(guān)。
為此,論文提出了一個(gè)經(jīng)過標(biāo)注的全新數(shù)據(jù)集,其中包括對一個(gè)問題的「捷徑版」和「挑戰(zhàn)版」兩種回答。
數(shù)據(jù)集使用「釋義」( paraphrasing )作為更復(fù)雜和更深入答案的標(biāo)準(zhǔn),因?yàn)橄胍磉_(dá)出學(xué)到的知識,語義理解是必要的。相比之下,「捷徑」的答案是有如日期或其他關(guān)鍵字生成的,但沒有任何上下文或推理。
研究人員發(fā)現(xiàn),訓(xùn)練集中「捷徑版」樣本越高,就越會(huì)阻礙模型學(xué)到「釋義」從而去解決具有挑戰(zhàn)性的問題。而模型在回答「捷徑版」問題時(shí)的表現(xiàn)則基本穩(wěn)定。
文章表明,當(dāng)訓(xùn)練集中有足夠多的「挑戰(zhàn)版」問題時(shí),模型不僅能更好地理解「挑戰(zhàn)版」問題,而且也能正確回答「捷徑版」問題。
AI是如何學(xué)會(huì)「躺平」的?
文章表示,在訓(xùn)練的早期階段,模型往往會(huì)找到最簡單的方法達(dá)到梯度下降從而擬合訓(xùn)練數(shù)據(jù)。而且由于「捷徑」需要較少的計(jì)算資源來學(xué)習(xí),因此擬合這些技巧會(huì)變成一個(gè)優(yōu)先事項(xiàng)。
之后,由于模型學(xué)會(huì)的「捷徑」可用于正確回答大部分訓(xùn)練問題,因此剩余的問題便無法激勵(lì)模型繼續(xù)去探索「挑戰(zhàn)版」問題需要的復(fù)雜解決方法。
有沒有辦法把AI「扶起來」?
除了NLP架構(gòu)本身的問題外,也很可能是訓(xùn)練過程中標(biāo)準(zhǔn)優(yōu)化和資源保護(hù)的結(jié)果,以及讓模型在短時(shí)間內(nèi)以有限的資源去獲得結(jié)果的壓力。
如文章所說的那樣,數(shù)據(jù)預(yù)處理領(lǐng)域可能需要考慮將數(shù)據(jù)中的「捷徑」視為一個(gè)亟待解決的問題,或者是修改 NLP 架構(gòu)從而達(dá)到優(yōu)先考慮更具挑戰(zhàn)性的數(shù)據(jù)的效果。



















 
 
 







 
 
 
 