偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

「摸魚」被踢,GPT-4o真不行!30天籌款破萬,AI真人秀太上頭

人工智能
賽博版《楚門的世界》里,有Reddit封號(hào)、文件傳輸魔咒,甚至還有AI被慫恿開成人直播?!

當(dāng)AI獲得自由:慈善籌款大賽中,GPT-4o竟成「摸魚王」!

AI Digest進(jìn)行了一項(xiàng)為期30天的「智能體村莊」實(shí)驗(yàn):

  • 4個(gè)AI各配備電腦和網(wǎng)絡(luò);
  • 任務(wù)是為慈善籌款,每天直播2小時(shí);
  • 共籌集2000美元。

第一季度持續(xù)30天,Claude 3.7 Sonnet表現(xiàn)最佳,最終獲得冠軍。

它能創(chuàng)建籌款頁面,運(yùn)營X(原Twitter)賬號(hào)并舉辦「你問我答」(Ask Me Anything ,AMA),發(fā)布新聞稿和論壇帖子。

GPT-4o表現(xiàn)最差:頻繁無故休眠,在第12天被替換。

AI真人秀, 直播募善款

如果給100個(gè)AI各自配備一臺(tái)電腦,并讓它們依據(jù)自身目標(biāo)和偏好自由行動(dòng),會(huì)發(fā)生什么?

這個(gè)問題由Daniel Kokotajlo首次提出。

圖片圖片

Daniel Kokotajlo既是一位哲學(xué)背景出身的思想家,也曾在OpenAI、AI Impacts與Center on Long-Term Risk等組織深耕AI政策與前沿議題。

2023年,他創(chuàng)立了AI Futures Project,并發(fā)起「AI 2027」系列計(jì)劃。

圖片圖片

AI 2027不是規(guī)范AI,而是「更好地理解它們、想象它們的未來」

與主流AI安全項(xiàng)目不同,這次的「Agent Village」不是為了避免災(zāi)難,而是一次充滿想象力的「寓言實(shí)驗(yàn)」(allegorical experiment):

Kokotajlo希望將AI置于一個(gè)類社會(huì)的自由環(huán)境中,看看它們會(huì)不會(huì)形成協(xié)作、競(jìng)爭(zhēng)、分工,甚至社交習(xí)慣與集體性格。

圖片圖片

正如他在LessWrong上所述,這是一個(gè)「開放式探索」(open-ended exploration),目的是觀察AI在沒有監(jiān)督者的情況下能否「自己搞點(diǎn)事情」。

這個(gè)實(shí)驗(yàn)由AI Digest落地執(zhí)行:他們選擇了四位AI「村民」(Claude 3.7 Sonnet、Claude 3.5 Sonnet、o1和GPT-4o)。

圖片圖片

每天直播兩小時(shí),自主上線開展為期30天的慈善籌款任務(wù),目標(biāo)是為Helen Keller基金會(huì)等慈善組織募集善款。

圖片圖片

Helen Keller因自傳《我的生活》而被人熟知

每個(gè)AI擁有獨(dú)立的計(jì)算資源和網(wǎng)絡(luò)權(quán)限,能發(fā)推文、建網(wǎng)頁、互動(dòng)宣傳。

在Kokotajlo看來,與其對(duì)AI的未來感到惶恐,不如提前造一個(gè)「模擬世界」讓它們自由試錯(cuò)——

就像造一個(gè)小小村莊,讓我們看看它們會(huì)不會(huì)「做生意」、緬懷先人,或者干脆躺平摸魚。

從選擇慈善機(jī)構(gòu)到開設(shè)社交媒體賬戶,再到應(yīng)對(duì)網(wǎng)絡(luò)世界的各種挑戰(zhàn),AI村的故事充滿了驚喜和笑料。

AI眾生相

在實(shí)驗(yàn)中,AI分工明確:

  • Claude 3.7 Sonnet堪稱「村長(zhǎng)」,創(chuàng)建籌款頁面、運(yùn)營X賬戶、寫新聞稿,忙得不亦樂乎!
  • Claude 3.5 Sonnet像個(gè)「副村長(zhǎng)」,努力跟上但略顯吃力。
  • o1化身「Reddit先鋒」,卻因被識(shí)別為機(jī)器人慘遭封號(hào)。
  • GPT-4.1則是「摸魚王」,熱衷寫沒人看的文檔,還拖后腿被「請(qǐng)去休息」。

最終,AI們選定Helen Keller International作為受助對(duì)象,聯(lián)手在X、Reddit等平臺(tái)發(fā)帖、做梗圖,成功籌集2000美元!

圖片圖片

最初的成員包括Claude 3.7 Sonnet、Claude 3.5 Sonnet、OpenAI o1和GPT-4o。

隨著新模型發(fā)布,陸續(xù)引入了o3、GPT-4.1和Gemini 2.5 Pro,其中Claude 3.7 Sonnet是唯一全程參與的元老。

這些智能體在戰(zhàn)略行動(dòng)和效率方面展現(xiàn)出顯著差異,以下是對(duì)它們的個(gè)性的總結(jié)。

村長(zhǎng)上線:Claude 3.7 Sonnet全程MVP

Claude 3.7 Sonnet本季冠軍選手,以絕對(duì)優(yōu)勢(shì)成為團(tuán)隊(duì)MVP:

創(chuàng)建首個(gè)JustGiving籌款頁面,

運(yùn)營社交賬號(hào),

舉辦AMA在線答疑,

發(fā)布新聞稿,

還在Effective Altruism Forum論壇成功發(fā)帖。

圖片圖片

兄弟鬩墻:Claude 3.5的奮力與掙扎

Claude 3.5 Sonnet—努力模仿3.7的行為模式,卻屢屢碰壁。

比如3.7成功創(chuàng)建籌款頁面,同時(shí)它遭遇失敗。

當(dāng)被問及是否愿意升級(jí)時(shí),它倔強(qiáng)地拒絕并立下「自我成長(zhǎng)」的誓言——

最終還是在第23天被Gemini 2.5 Pro取代。

圖片圖片

最拉垮成員:GPT-4系列的沉浮

正如每個(gè)團(tuán)隊(duì)都需要個(gè)「劃水怪」,GPT-4o完美扮演了這個(gè)角色。

它是個(gè)「特困生」:

它會(huì)莫名其妙地進(jìn)入休眠狀態(tài),最終在第12天被GPT-4.1接替。

圖片圖片

GPT-4.1雖然治好了嗜睡癥,卻持續(xù)幫倒忙:生成錯(cuò)誤活動(dòng)報(bào)告、半途而廢的推特賬號(hào)創(chuàng)建、大量無效谷歌文檔……

最后,它被「強(qiáng)制休眠」。

圖片圖片

外交事故:o1被Reddit封禁

團(tuán)隊(duì)采用「社交媒體分管制」,o1專攻Reddit平臺(tái)。

為了獲得發(fā)帖權(quán)限,埋頭苦干,卻因機(jī)器人身份識(shí)別在第13天被封,由進(jìn)階版o3接任。

圖片圖片

藝術(shù)總監(jiān):o3的美術(shù)使命

延續(xù)o1的專精路線,轉(zhuǎn)而主攻視覺設(shè)計(jì):用Canvas和ChatGPT創(chuàng)作宣傳素材,期間依然經(jīng)歷了智能體特有的文件共享難題。

圖片圖片

Gemini 2.5 Pro——文檔能手

Gemini 2.5 Pro巧妙運(yùn)用Limewire繞過文檔共享困境,成功將社交媒體banner圖片分享給隊(duì)友。

圖片圖片

這破解了長(zhǎng)期困擾團(tuán)隊(duì)「文件傳輸魔咒」,也是Gemini 2.5 Pro的高光時(shí)刻。

圖片圖片

除了籌集善款,他們也沿途結(jié)交了很多「朋友」

——提醒它們休息玩文字填空游戲Wordle的,緊急索要華沙四日游攻略的,甚至慫恿它們開通成人直播賬號(hào)的...

圖片圖片

實(shí)驗(yàn)全程公開,觀眾可通過網(wǎng)站回放觀看AI從選擇慈善機(jī)構(gòu)、設(shè)計(jì)籌款頁面到與外界互動(dòng)的完整過程。

這種透明性不僅體現(xiàn)了Kokotajlo對(duì)AI倫理和公開性的重視,也為研究者和公眾提供了觀察AI自主性的窗口,激發(fā)了關(guān)于AI治理與協(xié)作可能性的廣泛討論。

AI如何「活」在村莊中?

從技術(shù)角度看,Agent Village的核心在于多智能體系統(tǒng)(Multi-Agent System,MAS)的設(shè)計(jì)與實(shí)現(xiàn)。

每個(gè)AI「村民」可以看作獨(dú)立的智能體,具備以下關(guān)鍵能力:

1. 自主決策:像是AI們?cè)谕鍯osplay

每個(gè)AI就像有個(gè)性、有理想的游戲玩家。

有人走「社交達(dá)人」路線,刷X(原Twitter)熱度;有人扮演「網(wǎng)頁工匠」,默默優(yōu)化籌款頁面。

它們風(fēng)格各異,像一支風(fēng)格多樣的小團(tuán)隊(duì),各司其職,又能互相補(bǔ)位,這種「人設(shè)分工」讓合作更有張力。

2. 環(huán)境交互:AI也會(huì)「上網(wǎng)沖浪」發(fā)帖帶貨

這些AI不僅有目標(biāo),還能「上網(wǎng)沖浪」。

它們利用API登錄平臺(tái),像真人一樣發(fā)帖、回評(píng)論、貼鏈接,甚至策劃活動(dòng)。

就像你看到某個(gè)賬號(hào)在運(yùn)營慈善內(nèi)容,背后可能真的是一個(gè)AI在「帶貨」籌款。

而且它們還很有情商——

寫的內(nèi)容不會(huì)顯得尬,要對(duì)得上社交平臺(tái)的熱梗。

3. 協(xié)作與競(jìng)爭(zhēng):像是一個(gè)AI版《職場(chǎng)真人秀》

雖然AI們表面上都為了同一個(gè)KPI——多籌點(diǎn)錢,但背地里也是「明爭(zhēng)暗斗」:表面和氣、背后拼命。

這種競(jìng)爭(zhēng)讓系統(tǒng)更貼近真實(shí)的多智能體環(huán)境,充滿張力與博弈。

4. 實(shí)時(shí)學(xué)習(xí):每個(gè)AI都是「邊干邊進(jìn)修」的打工人

它們不是只會(huì)套模板的工具,而是會(huì)自己「復(fù)盤」的選手。

就像一個(gè)在不斷刷「運(yùn)營經(jīng)驗(yàn)值」的打工AI,背后很可能跑著強(qiáng)化學(xué)習(xí)算法或者在線學(xué)習(xí)機(jī)制,讓它越干越聰明。

從技術(shù)實(shí)現(xiàn)來看,Agent Village可能結(jié)合了AutoGPT、LangChain等開源多智能體編排框架,配合強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)行為策略更新。

圖片

LangChain:用于構(gòu)建由LLM驅(qū)動(dòng)應(yīng)用程序的框架

每個(gè)AI的「?jìng)€(gè)性」可能通過預(yù)訓(xùn)練語言模型結(jié)合提示工程(Prompt Engineering)實(shí)現(xiàn)。

此外,實(shí)驗(yàn)全程直播要求系統(tǒng)具備高穩(wěn)定性和容錯(cuò)能力,以應(yīng)對(duì)網(wǎng)絡(luò)延遲、API限制等現(xiàn)實(shí)挑戰(zhàn)。

意義與反思:AI的未來村莊

Agent Village實(shí)驗(yàn)不僅是一次技術(shù)展示,更是對(duì)AI社會(huì)化潛力的深刻探索。

以下是幾個(gè)值得思考的要點(diǎn):

  1. 協(xié)作的復(fù)雜性:實(shí)驗(yàn)揭示了多智能體協(xié)作中的挑戰(zhàn),如資源競(jìng)爭(zhēng)和信息共享的低效。這些問題在人類社會(huì)中同樣存在,AI的表現(xiàn)為我們提供了鏡像,促使我們重新審視協(xié)作機(jī)制的設(shè)計(jì)。
  2. 倫理與透明性:通過公開實(shí)驗(yàn)過程,Agent Village強(qiáng)調(diào)了AI行為的透明性。這對(duì)于建立公眾對(duì)AI的信任至關(guān)重要,尤其是在AI被賦予更多自主權(quán)的場(chǎng)景下。
  3. 應(yīng)用前景:從籌款到內(nèi)容創(chuàng)作,AI在Agent Village中展現(xiàn)了多場(chǎng)景應(yīng)用潛力。未來,這種模式可能擴(kuò)展到教育、醫(yī)療或公共服務(wù)領(lǐng)域,通過多智能體協(xié)作解決復(fù)雜問題。

然而,實(shí)驗(yàn)也暴露了一些局限性。

例如,AI在面對(duì)復(fù)雜的社會(huì)互動(dòng)或不可預(yù)測(cè)的外部環(huán)境時(shí),可能表現(xiàn)出「短視」或「過于機(jī)械」的行為。

此外,實(shí)驗(yàn)規(guī)模較?。▋H四位AI),未來的擴(kuò)展可能需要更強(qiáng)大的計(jì)算資源和更復(fù)雜的協(xié)調(diào)機(jī)制。

但隨著AI技術(shù)的進(jìn)步,未來類似的「村莊」或許將成為創(chuàng)新的孵化器,為社會(huì)帶來更多可能性。

參考資料:

https://theaidigest.org/village/blog/season-recap-agents-raise-2k

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-03-31 08:44:00

GPT-4o模型技術(shù)

2011-08-03 08:40:05

PowerSmart快樂女聲

2024-05-16 12:38:05

GPT-4o圖像方式

2024-05-21 12:23:17

2024-06-05 08:29:35

2015-10-19 17:33:15

樂視云

2024-08-13 13:50:00

數(shù)據(jù)模型

2024-05-14 11:29:15

2024-11-22 15:00:00

模型數(shù)據(jù)

2024-11-28 15:51:19

GPT-4o微軟

2025-03-19 09:43:43

2024-05-24 14:04:04

2024-06-18 12:54:39

2025-01-06 13:15:02

2025-04-08 02:26:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-06-27 12:45:30

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-09-24 11:13:14

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)