大模型去全球接單平臺(tái)賺外快,98%慘遭老板退貨!ScaleAI宣布新智能體基準(zhǔn):AI絕對(duì)自動(dòng)化幾乎為0,大多知名基準(zhǔn)過(guò)時(shí)、封閉
原創(chuàng) 精選編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
如果讓大模型去外包平臺(tái)去接單,它真的可以賺到錢(qián)嗎?
現(xiàn)在終于有專(zhuān)業(yè)的評(píng)測(cè)機(jī)構(gòu)站出來(lái)公布答案了。不用硬夸AI,事實(shí)是讓它接單,它會(huì)餓死。
今天一早,大洋彼岸的“AI評(píng)測(cè)”王牌企業(yè)Scale AI剛剛發(fā)布了一項(xiàng)非同尋常的新指標(biāo):RLI(遠(yuǎn)程勞動(dòng)力指數(shù))。

顧名思義,就是專(zhuān)門(mén)用于實(shí)證評(píng)測(cè)大模型或者Agent產(chǎn)品能夠獨(dú)立執(zhí)行真實(shí)且具經(jīng)濟(jì)價(jià)值的遠(yuǎn)程工作的能力。
它回答的是一個(gè)盤(pán)桓在AI圈上空的許久沒(méi)有解決的問(wèn)題——AI真的可以自動(dòng)化替代人類(lèi)有價(jià)值的工作嗎?
這一基準(zhǔn)也第一時(shí)間得到了前CEO Alexandr Wang的轉(zhuǎn)發(fā)。

結(jié)果顯示,不管是GPT-5,還是Claude Sonnet、Gemini,亦或是主打通用Agent的Manus,都統(tǒng)統(tǒng)被人類(lèi)接單首踩在泥土里,真實(shí)水平墊底。
1.讓大模型去賺外快,打工秒變打臉
如果讓GPT去知名接單平臺(tái)賺任務(wù),是否真的可以賺到錢(qián)?
這個(gè)問(wèn)題,最近被 Scale AI 認(rèn)真地做了一遍實(shí)驗(yàn)——他們推出了一個(gè)名為 “Remote Labor Index(遠(yuǎn)程勞動(dòng)指數(shù),RLI)” 的新基準(zhǔn)。
讓AI去干真實(shí)的自由職業(yè)工作,然后看看能不能交差。
Scale把AI模型當(dāng)作真正的“打工人”,從Upwork平臺(tái)上挑了240個(gè)真實(shí)項(xiàng)目,涵蓋寫(xiě)報(bào)告、修圖、建3D模型、做音效、寫(xiě)代碼……然后給AI發(fā)任務(wù),看它能否完成、能賺多少錢(qián)、能替代多少人工成本。
這些項(xiàng)目都是ScaleAI精挑細(xì)選出來(lái),真能交易的項(xiàng)目,平均每單高達(dá)630美刀以上。
總經(jīng)濟(jì)價(jià)值: 143,991 美元
項(xiàng)目難度和價(jià)值: RLI 項(xiàng)目反映了真實(shí)自由職業(yè)工作的復(fù)雜性,遠(yuǎn)遠(yuǎn)超過(guò)了以往的基準(zhǔn)。
人類(lèi)平均完成時(shí)間: 28.9 小時(shí)(中位數(shù):11.5 小時(shí))
項(xiàng)目平均價(jià)值: 632.60 美元(中位數(shù):200 美元)
圖片
結(jié)果出來(lái)之后,全場(chǎng)沉默了。在RLI榜單中,所有AI模型的表現(xiàn)幾乎都跌到了谷底。
2.98% AI提交的項(xiàng)目被“老板退貨”
結(jié)果是,這240個(gè)項(xiàng)目,AI提交的作品,即便成績(jī)最好的選手,也僅被老板認(rèn)可了6個(gè),234個(gè)項(xiàng)目都被退貨了。
而更沒(méi)想到的是,這位最優(yōu)生,不是GPT-5,也不是Sonnet,而是今年爆火的黑馬 Manus,自動(dòng)化率為 2.5%。
圖片
其他模型表現(xiàn)更慘:
Claude Sonnet 4.5、GPT-5、Gemini 2.5 Pro、ChatGPT Agent……全部“翻車(chē)”,沒(méi)一個(gè)能穩(wěn)定交付客戶(hù)滿(mǎn)意的作品。
而且,據(jù)ScaleAI放出的官方博文介紹,AI雖然很高產(chǎn),但交付的質(zhì)量實(shí)在是沒(méi)眼看,可以說(shuō)全軍覆沒(méi)。平均每個(gè)項(xiàng)目的人類(lèi)用時(shí)是28.9小時(shí),AI花同樣的“算力時(shí)間”,多數(shù)交付品卻被判為“不合格”。
人工評(píng)審總結(jié)了失敗原因:
- 45.6%:作品質(zhì)量太差,像小學(xué)生練手。
- 35.7%:交付不完整,視頻截?cái)?、文件丟失。
- 17.6%:格式錯(cuò)誤、文件損壞。
- 14.8%:視覺(jué)或邏輯不一致,比如3D建筑的不同視角完全對(duì)不上。
唯一的亮點(diǎn),是在部分音頻處理和圖片生成任務(wù)中,AI能完成得像模像樣。比如做廣告圖、分離人聲這類(lèi)“創(chuàng)意但封閉”的任務(wù)。
在同步發(fā)布的官方視頻中,美人工智能安全中心執(zhí)行主任 Dan Hendrycks 和 Scale AI 研究主管Bing Liu指出:
AI完成得較好的少數(shù)任務(wù)多來(lái)自創(chuàng)意領(lǐng)域,如音頻與圖像生成,比如為游戲制作音效、剪輯配音、生成Logo等。這些領(lǐng)域的AI已經(jīng)能與人類(lèi)專(zhuān)業(yè)人士旗鼓相當(dāng)。
但凡涉及跨文件邏輯、復(fù)雜工具鏈、長(zhǎng)期一致性……AI都露餡了。
但更復(fù)雜的任務(wù)——那些需要多步驟執(zhí)行、嚴(yán)格遵守說(shuō)明、持續(xù)數(shù)小時(shí)甚至更久的項(xiàng)目——仍會(huì)讓最強(qiáng)的模型出錯(cuò)。
所以,Scale團(tuán)隊(duì)得出了很殘酷的結(jié)論:
“AI絕對(duì)自動(dòng)化幾乎為零?!盇I還遠(yuǎn)遠(yuǎn)不能替代專(zhuān)業(yè)遠(yuǎn)程勞動(dòng)。
3.這項(xiàng)基準(zhǔn)報(bào)告,意義有何不同
小編看來(lái),這項(xiàng)新發(fā)布的基準(zhǔn),意義非同尋常。
因?yàn)?,要知道現(xiàn)在AI圈為什么非常卷?其中很大一部分原因,就在于大家一直在已有的基準(zhǔn)評(píng)測(cè)上卷來(lái)卷去。從一開(kāi)始的文科能力再到理科題目,再到今年的各種Coding、Agentic能力。
但問(wèn)題是,卷來(lái)卷去,我們?cè)趯?shí)測(cè)中發(fā)現(xiàn),結(jié)果想要勉強(qiáng)滿(mǎn)意,大概率都是要多次抽卡的。
所以,既然已有的測(cè)評(píng)數(shù)據(jù)集已經(jīng)不能用來(lái)評(píng)估人類(lèi)真正所需的模型能力,我們就必須設(shè)計(jì)一種新的評(píng)估或測(cè)評(píng)基準(zhǔn),一種真正可以評(píng)估如何評(píng)價(jià)智能體是否真的在做事的方法。
這也是為什么Scale AI要構(gòu)建一個(gè)衡量完整自動(dòng)化產(chǎn)出的基準(zhǔn),而不是只測(cè)單項(xiàng)技能的原因。
如果只測(cè)寫(xiě)作或數(shù)學(xué)等單項(xiàng)技能,就無(wú)法評(píng)估AI是否能在長(zhǎng)時(shí)間跨度內(nèi)持續(xù)完成任務(wù)。模型可能在某個(gè)環(huán)節(jié)出錯(cuò),導(dǎo)致整體無(wú)效。這些問(wèn)題在孤立技能測(cè)試中很難被捕捉。
我們希望關(guān)注那些人類(lèi)需要花數(shù)小時(shí)或數(shù)天完成的任務(wù),這樣的評(píng)估更具生態(tài)真實(shí)性,更能反映現(xiàn)實(shí)中的工作狀態(tài)。
畢竟,真實(shí)工作并非一連串孤立任務(wù),它涉及上下文整合、信息綜合和跨任務(wù)協(xié)作。只有把這些因素都處理好,才能真正勝任工作。
因此,我們關(guān)注的不是AI是否能解封閉題,而是能否完成一個(gè)完整的工作流。
4.許多知名測(cè)評(píng)基準(zhǔn)已過(guò)時(shí)
那么,究竟這樣一份“讓AI去自由職業(yè)接單平臺(tái)的測(cè)評(píng)”,跟其他知名基準(zhǔn),比如GDP-eval、SWE-bench 有何不同?
在采訪(fǎng)中,Hendrycks 給出了答案:原來(lái)那些基準(zhǔn)要么過(guò)于封閉,要么測(cè)得不準(zhǔn),要么已經(jīng)過(guò)時(shí)。
以“humanity's last exam”為例,那類(lèi)基準(zhǔn)是封閉題、非行動(dòng)型的;而RLI是開(kāi)放的、具備行為導(dǎo)向的。
GDP-val雖然試圖覆蓋經(jīng)濟(jì)任務(wù),但它聲稱(chēng)AI已接近人類(lèi)水平,這顯然不現(xiàn)實(shí)。如果真那樣,世界早已截然不同。
SWE-bench主要測(cè)AI在軟件工程領(lǐng)域(如Django類(lèi)問(wèn)題)的能力,但業(yè)內(nèi)普遍認(rèn)為,它對(duì)實(shí)際開(kāi)發(fā)影響的預(yù)測(cè)力越來(lái)越低,比如對(duì)Cursor等工具的應(yīng)用參考價(jià)值有限。
這些基準(zhǔn)要么過(guò)于封閉,要么測(cè)得不準(zhǔn),要么已“封頂”失去預(yù)測(cè)效度。而RLI旨在更開(kāi)放、更貼近經(jīng)濟(jì)實(shí)況,覆蓋更廣泛的真實(shí)任務(wù)與項(xiàng)目。
這里,他們還提到了用合成任務(wù)來(lái)做測(cè)試集的不合理之處?!昂铣扇蝿?wù)往往缺乏真實(shí)性!”
Liu Bing:為什么要在真實(shí)付費(fèi)任務(wù)上測(cè)試,而不是合成任務(wù)?
Hendrycks :因?yàn)檎鎸?shí)工作中充滿(mǎn)各種邊緣情況,而沒(méi)有什么比現(xiàn)實(shí)更復(fù)雜。若想了解AI在現(xiàn)實(shí)世界的影響,就必須使用包含這些復(fù)雜情境的數(shù)據(jù)集,而不是人造的“假問(wèn)題”。合成任務(wù)往往缺乏真實(shí)性。比如,讓人編個(gè)“刁鉆的機(jī)器學(xué)習(xí)題目”,那只是測(cè)試數(shù)學(xué)能力,而非真實(shí)工程工作。因此,RLI要立足現(xiàn)實(shí)任務(wù),涵蓋足夠多的復(fù)雜案例,才能檢驗(yàn)?zāi)P驮谡鎸?shí)挑戰(zhàn)中的適應(yīng)力。
5.智能不等于生產(chǎn)力
那么,這份“AI勞動(dòng)績(jī)效表”,究竟該如何看待呢?
首先,需要為所有打工人慶祝一番:AI距離替代人類(lèi)干活,還很遠(yuǎn)。
Hendrycks 在采訪(fǎng)中指出,目前模型在RLI上準(zhǔn)確率不足10%,這意味著,在我們測(cè)試的所有自由職業(yè)任務(wù)中,即便是最好的AI模型,也只有不到十分之一的任務(wù)能達(dá)到客戶(hù)可接受的專(zhuān)業(yè)水準(zhǔn)。
這提醒我們,工作不僅僅是回答問(wèn)題或生成內(nèi)容,還包括理解上下文、運(yùn)用工具,并完整地完成任務(wù)——而這是當(dāng)前AI明顯欠缺的。
其次,這可以說(shuō)是全球首次用來(lái)評(píng)估AI“干活能力”的基準(zhǔn)。
它和以前那些論文題型的AI測(cè)試(比如MMLU、GSM8K)不同,后者主要是測(cè)智商,而RLI關(guān)注的是真實(shí)世界的交付:
能不能打開(kāi)文件?能不能保存格式?
能不能從A到Z獨(dú)立完成一份交差作品?
這才是AI走出實(shí)驗(yàn)室,進(jìn)入社會(huì)的真正門(mén)檻。
只不過(guò),如今的結(jié)果說(shuō)明還可以說(shuō)只是萬(wàn)里長(zhǎng)征第一步,人類(lèi)還需要為AI收拾爛攤子。AI能生成,但它還不會(huì)交差;它可以寫(xiě)文案、畫(huà)圖、寫(xiě)代碼,但在整合和收尾環(huán)節(jié)一塌糊涂。
正如Hendrycks在采訪(fǎng)中最后所說(shuō)的 ,最關(guān)鍵的一點(diǎn)是,AI的進(jìn)步必須以真實(shí)經(jīng)濟(jì)價(jià)值為衡量標(biāo)準(zhǔn)。
RLI告訴我們,“智能”并不等于“勞動(dòng)”。真正的自動(dòng)化,需要AI全面掌握語(yǔ)境、具備可靠性與判斷力。
6.暴風(fēng)前的平靜:別大意,AI自動(dòng)打工就在眼前
但別急著對(duì)AI失望。Scale AI 團(tuán)隊(duì)發(fā)現(xiàn),雖然AI“干不好活”,但進(jìn)步是可測(cè)的。
他們用Elo評(píng)分體系追蹤各模型的相對(duì)表現(xiàn)——新一代模型比舊版有穩(wěn)步提升,哪怕整體分?jǐn)?shù)還低。
圖片
也就是說(shuō),AI距離“自動(dòng)打工”雖然還遠(yuǎn),但它的學(xué)習(xí)曲線(xiàn)是清晰的。
或許當(dāng)我們下次再測(cè),Automation Rate從2.5%升到10%、30%、50%——有了新榜單可以刷,早晚,“AI勞動(dòng)力市場(chǎng)”就真的要誕生了。
別忘了,就在昨天,剛完成重組的OpenAI就馬不停蹄的宣布了它們的3年目標(biāo):2026年9月之前,讓一個(gè)自動(dòng)化的AI研究實(shí)習(xí)生在數(shù)十萬(wàn)張GPU上運(yùn)行,并在2028年3月之前實(shí)現(xiàn)真正的自動(dòng)化AI研究員。
要實(shí)現(xiàn)這個(gè)任務(wù),安全策略、價(jià)值觀對(duì)齊、算力、資金的問(wèn)題顯然要交給OpenAI這個(gè)龐然大物去處理,但具體該如何評(píng)價(jià)“AI自動(dòng)化”能力,恐怕就要從今天Scale AI提出的RLI開(kāi)始了。
Ps:小編突然想到今年6月,強(qiáng)化學(xué)習(xí)之父Sutton在智源大會(huì)演講中提到的AI發(fā)展的新階段。
“高質(zhì)量的人類(lèi)數(shù)據(jù)資源已經(jīng)幾乎被用到極限……
如果我們希望 AI 擁有真正的創(chuàng)造力和適應(yīng)能力,它必須進(jìn)入一個(gè)全新的階段,也就是‘經(jīng)驗(yàn)時(shí)代’。在這個(gè)階段,AI 不再依賴(lài)固定的數(shù)據(jù)集,而是通過(guò)自身與外部世界的交互,從中獲取經(jīng)驗(yàn)并不斷進(jìn)化?!?/p>
那看來(lái),從這個(gè)測(cè)評(píng)基準(zhǔn)開(kāi)始,AI真得要進(jìn)入“接管真實(shí)人類(lèi)派單”的經(jīng)驗(yàn)時(shí)代了!
論文地址也為大家扒下來(lái)了,enjoy!
論文鏈接:
https://scale.com/research/rli
https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Remote_Labor_Index%20(4).pdf

































