偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大研究人員這次發(fā)現(xiàn)了AI「躺平」原因,都是數(shù)據(jù)集的錯

新聞 人工智能
你有沒有發(fā)現(xiàn),每當(dāng)AI發(fā)現(xiàn)了偷懶的小技巧之后,就不再去學(xué)習(xí)那些有挑戰(zhàn)的問題并開始「躺平」?北大的研究人員表示:最好去看看你的訓(xùn)練集了。

 在訓(xùn)練人工「智障」的時候,AI最后經(jīng)常會學(xué)到一些莫名其妙的方式來完成人類的的任務(wù)。

有一些AI就會去學(xué)習(xí)如何通過「卡bug」來快速通關(guān)。

[[404522]]

還有一些AI學(xué)會了「只要把游戲暫停了,我就不會輸」這個終極哲學(xué)。

AI也想「躺平」

為了讓模型能夠提高準(zhǔn)確性,通常會設(shè)置相應(yīng)的獎勵,但有時候模型在前期就發(fā)現(xiàn)了能夠獲得獎勵的「捷徑」。

但凡AI嘗到了甜頭,它就會一直選擇去走這個「捷徑」,不再去學(xué)習(xí)更困難的知識或者方法。

來自北京大學(xué)的研究人員在訓(xùn)練語言模型的時候就發(fā)現(xiàn):AI雖然能回答正確,但是它搞不明白為什么答案是對的,只知道遇到某類問題用這個回答就可以了。

于是,研究人員決定要把AI「扶起來」,讓它們「努力學(xué)習(xí)」不能偷懶。

論文地址:
https://arxiv.org/pdf/2106.01024.pdf

這篇論文已經(jīng)發(fā)表在arxiv上,作者是來自北京大學(xué)王選計(jì)算機(jī)研究所和北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室的Yuxuan Lai, Chen Zhang, Yansong Feng , Quzhe Huang,和Dongyan Zhao(趙東巖)

為什么AI總想去「躺平」?

盡管有些研究已經(jīng)發(fā)現(xiàn)了AI總愛「躺平」的現(xiàn)象,但是他們并沒有發(fā)現(xiàn)這個現(xiàn)象和數(shù)據(jù)集中的「捷徑」問題有關(guān)。

為此,論文提出了一個經(jīng)過標(biāo)注的全新數(shù)據(jù)集,其中包括對一個問題的「捷徑版」和「挑戰(zhàn)版」兩種回答。

數(shù)據(jù)集使用「釋義」( paraphrasing )作為更復(fù)雜和更深入答案的標(biāo)準(zhǔn),因?yàn)橄胍磉_(dá)出學(xué)到的知識,語義理解是必要的。相比之下,「捷徑」的答案是有如日期或其他關(guān)鍵字生成的,但沒有任何上下文或推理。

研究人員發(fā)現(xiàn),訓(xùn)練集中「捷徑版」樣本越高,就越會阻礙模型學(xué)到「釋義」從而去解決具有挑戰(zhàn)性的問題。而模型在回答「捷徑版」問題時的表現(xiàn)則基本穩(wěn)定。

文章表明,當(dāng)訓(xùn)練集中有足夠多的「挑戰(zhàn)版」問題時,模型不僅能更好地理解「挑戰(zhàn)版」問題,而且也能正確回答「捷徑版」問題。

AI是如何學(xué)會「躺平」的?

文章表示,在訓(xùn)練的早期階段,模型往往會找到最簡單的方法達(dá)到梯度下降從而擬合訓(xùn)練數(shù)據(jù)。而且由于「捷徑」需要較少的計(jì)算資源來學(xué)習(xí),因此擬合這些技巧會變成一個優(yōu)先事項(xiàng)。

之后,由于模型學(xué)會的「捷徑」可用于正確回答大部分訓(xùn)練問題,因此剩余的問題便無法激勵模型繼續(xù)去探索「挑戰(zhàn)版」問題需要的復(fù)雜解決方法。

有沒有辦法把AI「扶起來」?

除了NLP架構(gòu)本身的問題外,也很可能是訓(xùn)練過程中標(biāo)準(zhǔn)優(yōu)化和資源保護(hù)的結(jié)果,以及讓模型在短時間內(nèi)以有限的資源去獲得結(jié)果的壓力。

如文章所說的那樣,數(shù)據(jù)預(yù)處理領(lǐng)域可能需要考慮將數(shù)據(jù)中的「捷徑」視為一個亟待解決的問題,或者是修改 NLP 架構(gòu)從而達(dá)到優(yōu)先考慮更具挑戰(zhàn)性的數(shù)據(jù)的效果。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-03-17 10:00:37

物聯(lián)網(wǎng)安全漏洞物聯(lián)網(wǎng)

2024-03-28 08:00:00

人工智能多模態(tài)語言模型

2013-03-28 10:34:29

2013-06-08 09:23:20

2021-02-16 10:02:36

惡意擴(kuò)展安全插件網(wǎng)絡(luò)攻擊

2025-02-06 07:26:35

2014-12-25 09:51:32

2012-03-23 09:28:14

2025-02-25 10:21:12

2021-01-04 10:24:04

ESET供應(yīng)鏈攻擊網(wǎng)絡(luò)安全

2019-05-22 08:11:51

Winnti惡意軟件Linux

2013-08-09 11:33:58

2021-03-31 09:17:46

Android惡意軟件攻擊

2023-07-07 15:44:12

漏洞網(wǎng)絡(luò)安全

2020-10-09 08:34:57

AI

2020-07-08 16:46:46

人工智能病毒技術(shù)

2016-01-15 09:59:12

機(jī)器學(xué)習(xí)數(shù)據(jù)集

2015-03-10 11:12:42

2011-08-23 13:37:47

2014-11-07 10:37:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號