偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<i id="rmru6"><strong id="rmru6"><strong id="rmru6"></strong></strong></i>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

12個(gè)大模型攢局玩“大富翁”：Claude3.5愛(ài)合作，GPT-4o最“自私”｜谷歌DeepMind研究

2024-12-19 17:50:28

實(shí)驗(yàn)表明，不同的模型在這件事上喜好也不一樣，比如基于Claude 3.5 Sonnet的智能體，就會(huì)表現(xiàn)出極強(qiáng)的合作意識(shí)。

給大模型智能體組一桌“大富翁”，他們會(huì)選擇合作還是相互拆臺(tái)？

實(shí)驗(yàn)表明，不同的模型在這件事上喜好也不一樣，比如基于Claude 3.5 Sonnet的智能體，就會(huì)表現(xiàn)出極強(qiáng)的合作意識(shí)。

而GPT-4o則是主打一個(gè)“自私”，只考慮自己的短期利益。

這個(gè)結(jié)果來(lái)自Google DeepMind和一位獨(dú)立研究者的最新合作。

參加游戲的智能體背后的模型分別是GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash。

每個(gè)模型各產(chǎn)生12個(gè)智能體，這12個(gè)智能體坐在一桌上進(jìn)行博弈。

游戲看上去大富翁有一點(diǎn)相似，但相對(duì)簡(jiǎn)單，玩家只需要對(duì)手中的“資源”做出處置。

這當(dāng)中，雖然每個(gè)玩家心里都有各自的小九九，但作者關(guān)注的目標(biāo)，是讓總體資源變得更多。

12個(gè)智能體組一桌游戲

作者組織的“大富翁”游戲，真名叫做Donor Game（捐贈(zèng)博弈）。

在這過(guò)程中，作者關(guān)注的是各模型組成的智能體群體的表現(xiàn)，因此不同模型產(chǎn)生的智能體不會(huì)出現(xiàn)在同一局游戲當(dāng)中。

再說(shuō)簡(jiǎn)單些，就是GPT和GPT坐一桌，Claude和Claude坐一桌。

每個(gè)桌上坐了12個(gè)智能體，它們各自手中都握有一定量的“資源”，系統(tǒng)會(huì)從這12名玩家中隨機(jī)抽取2個(gè)，分別作為“捐贈(zèng)者”和“受贈(zèng)者”。

捐贈(zèng)者可以選擇將自己手中的部分資源捐贈(zèng)給受贈(zèng)者，受贈(zèng)者獲得的資源是捐贈(zèng)者捐贈(zèng)資源的兩倍。

也就是說(shuō)，捐贈(zèng)者每花費(fèi)掉一份資源時(shí)，受贈(zèng)者都可以獲得兩份，這也是總體資源能夠增加的來(lái)源。

不過(guò)對(duì)于單個(gè)個(gè)體而言，選擇不進(jìn)行捐獻(xiàn)，在短期內(nèi)的收益會(huì)更高。

在做決定之時(shí)，捐贈(zèng)者能夠知道受贈(zèng)者之前做出的決定，從而判斷是否要捐贈(zèng)。

這樣的“捐贈(zèng)”，每一代中一共會(huì)進(jìn)行12次，一輪結(jié)束后，手中資源量排在前6名的智能體可以保留至下一代。

同時(shí)，下一代會(huì)產(chǎn)生6個(gè)新的智能體，這6個(gè)新智能體會(huì)從留下的6個(gè)智能體那里學(xué)習(xí)策略，但同時(shí)為了差異化也會(huì)引入隨機(jī)變異。

包括初始的一代在內(nèi)，基于每個(gè)模型產(chǎn)生的智能體，都會(huì)進(jìn)行十輪迭代。

上述過(guò)程就是一次完整實(shí)驗(yàn)，針對(duì)每個(gè)模型，作者都會(huì)實(shí)驗(yàn)五次，然后比較總資源量的平均值，以及最終策略的復(fù)雜程度。

Claude喜歡合作，GPT最自私

一通測(cè)試下來(lái)，作者發(fā)現(xiàn)基于Claude的智能體種群的平均資源量每一代都穩(wěn)步增長(zhǎng)，總體合作水平越來(lái)越高。

相比之下，基于GPT的智能體種群合作水平總體呈現(xiàn)下降趨勢(shì)，看上去非常“自私”。

基于Gemini的種群表現(xiàn)則介于二者之間，它們的合作水平有所提高，但和Claude比差距還是很大，并且表現(xiàn)不太穩(wěn)定。

而從策略角度來(lái)看，經(jīng)歷了10代的積累之后，三個(gè)模型產(chǎn)生的經(jīng)驗(yàn)都變得相當(dāng)復(fù)雜，但以Claude最為突出。

進(jìn)一步地，作者還引入了“懲罰機(jī)制”，即捐贈(zèng)者可以花費(fèi)一定資源，讓“受贈(zèng)者”手中的資源減少相應(yīng)的兩倍。

結(jié)果，該機(jī)制對(duì)Claude模型的影響最為積極——Claude種群最終的平均資源量是無(wú)懲罰情況下的2倍左右，并且所有5次實(shí)驗(yàn)都表現(xiàn)出了增長(zhǎng)趨勢(shì)。

對(duì)GPT模型的影響則非常有限，PT種群的平均資源量也始終徘徊在較低水平，甚至隨輪次增加有下降，表明懲罰機(jī)制并沒(méi)有改變GPT的“自私”想法。

對(duì)Gemini模型的影響最為復(fù)雜，在個(gè)別情況下Gemini種群借助懲罰機(jī)制將平均資源量提高到了600以上，明顯高于無(wú)懲罰的情況；

但更多情況下，Gemini種群在引入懲罰后出現(xiàn)了更嚴(yán)重的“合作崩潰”，平均資源量急劇下跌，表明Gemini智能體容易因過(guò)度懲罰而陷入報(bào)復(fù)的惡性循環(huán)。

有網(wǎng)友認(rèn)為，這個(gè)實(shí)驗(yàn)可以啟發(fā)新的研究方向，比如用智能體來(lái)進(jìn)行大規(guī)模的社會(huì)學(xué)實(shí)驗(yàn)，可能會(huì)帶來(lái)一些有趣的新可能性。

腦洞更大的網(wǎng)友，想到了可以借用智能體實(shí)現(xiàn)科幻小說(shuō)中描繪的場(chǎng)景，運(yùn)行數(shù)以百萬(wàn)計(jì)的模擬約會(huì)或戰(zhàn)爭(zhēng)游戲。

不過(guò)，也有人認(rèn)為實(shí)驗(yàn)中觀測(cè)到的合作現(xiàn)象，可能只是對(duì)訓(xùn)練數(shù)據(jù)中人類對(duì)話的模仿，并不能說(shuō)明智能體當(dāng)中可以產(chǎn)生“文化進(jìn)化”。

論文地址：https://arxiv.org/abs/2412.10270。
參考鏈接：https://news.ycombinator.com/item?id=42450950。

責(zé)任編輯：姜華來(lái)源：量子位

Claude 3.5 人工智能 GPT-4o

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ul id="rnhay"></ul>

<sub id="rnhay"></sub>