偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時 原創(chuàng)

發(fā)布于 2025-10-30 13:32
瀏覽
0收藏

編輯 | 云昭

如果讓大模型去外包平臺去接單,它真的可以賺到錢嗎?

現(xiàn)在終于有專業(yè)的評測機構站出來公布答案了。不用硬夸AI,事實是讓它接單,它會餓死。

今天一早,大洋彼岸的“AI評測”王牌企業(yè)Scale AI剛剛發(fā)布了一項非同尋常的新指標:RLI(遠程勞動力指數(shù))。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區(qū)

顧名思義,就是專門用于實證評測大模型或者Agent產(chǎn)品能夠獨立執(zhí)行真實且具經(jīng)濟價值的遠程工作的能力。

它回答的是一個盤桓在AI圈上空的許久沒有解決的問題——AI真的可以自動化替代人類有價值的工作嗎?

這一基準也第一時間得到了前CEO Alexandr Wang的轉發(fā)。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區(qū)

結果顯示,不管是GPT-5,還是Claude Sonnet、Gemini,亦或是主打通用Agent的Manus,都統(tǒng)統(tǒng)被人類接單首踩在泥土里,真實水平墊底。

1.讓大模型去賺外快,打工秒變打臉

如果讓GPT去知名接單平臺賺任務,是否真的可以賺到錢?

這個問題,最近被 Scale AI 認真地做了一遍實驗——他們推出了一個名為 “Remote Labor Index(遠程勞動指數(shù),RLI)” 的新基準。

讓AI去干真實的自由職業(yè)工作,然后看看能不能交差。

Scale把AI模型當作真正的“打工人”,從Upwork平臺上挑了240個真實項目,涵蓋寫報告、修圖、建3D模型、做音效、寫代碼……然后給AI發(fā)任務,看它能否完成、能賺多少錢、能替代多少人工成本。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區(qū)圖片

這些項目都是ScaleAI精挑細選出來,真能交易的項目,平均每單高達630美刀以上。

總經(jīng)濟價值: 143,991 美元

項目難度和價值: RLI 項目反映了真實自由職業(yè)工作的復雜性,遠遠超過了以往的基準。

人類平均完成時間: 28.9 小時(中位數(shù):11.5 小時)

項目平均價值: 632.60 美元(中位數(shù):200 美元)

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區(qū)圖片

結果出來之后,全場沉默了。在RLI榜單中,所有AI模型的表現(xiàn)幾乎都跌到了谷底。

2.98% AI提交的項目被“老板退貨”

結果是,這240個項目,AI提交的作品,即便成績最好的選手,也僅被老板認可了6個,234個項目都被退貨了。

而更沒想到的是,這位最優(yōu)生,不是GPT-5,也不是Sonnet,而是今年爆火的黑馬 Manus,自動化率為 2.5%。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區(qū)圖片

其他模型表現(xiàn)更慘:

Claude Sonnet 4.5、GPT-5、Gemini 2.5 Pro、ChatGPT Agent……全部“翻車”,沒一個能穩(wěn)定交付客戶滿意的作品。

而且,據(jù)ScaleAI放出的官方博文介紹,AI雖然很高產(chǎn),但交付的質量實在是沒眼看,可以說全軍覆沒。平均每個項目的人類用時是28.9小時,AI花同樣的“算力時間”,多數(shù)交付品卻被判為“不合格”。

人工評審總結了失敗原因:

  • 45.6%:作品質量太差,像小學生練手。
  • 35.7%:交付不完整,視頻截斷、文件丟失。
  • 17.6%:格式錯誤、文件損壞。
  • 14.8%:視覺或邏輯不一致,比如3D建筑的不同視角完全對不上。

唯一的亮點,是在部分音頻處理和圖片生成任務中,AI能完成得像模像樣。比如做廣告圖、分離人聲這類“創(chuàng)意但封閉”的任務。

在同步發(fā)布的官方視頻中,美人工智能安全中心執(zhí)行主任 Dan Hendrycks 和 Scale AI 研究主管Bing Liu指出:

AI完成得較好的少數(shù)任務多來自創(chuàng)意領域,如音頻與圖像生成,比如為游戲制作音效、剪輯配音、生成Logo等。這些領域的AI已經(jīng)能與人類專業(yè)人士旗鼓相當。

但凡涉及跨文件邏輯、復雜工具鏈、長期一致性……AI都露餡了。

但更復雜的任務——那些需要多步驟執(zhí)行、嚴格遵守說明、持續(xù)數(shù)小時甚至更久的項目——仍會讓最強的模型出錯。

所以,Scale團隊得出了很殘酷的結論:

“AI絕對自動化幾乎為零?!盇I還遠遠不能替代專業(yè)遠程勞動。

3.這項基準報告,意義有何不同

小編看來,這項新發(fā)布的基準,意義非同尋常。

因為,要知道現(xiàn)在AI圈為什么非常卷?其中很大一部分原因,就在于大家一直在已有的基準評測上卷來卷去。從一開始的文科能力再到理科題目,再到今年的各種Coding、Agentic能力。

但問題是,卷來卷去,我們在實測中發(fā)現(xiàn),結果想要勉強滿意,大概率都是要多次抽卡的。

所以,既然已有的測評數(shù)據(jù)集已經(jīng)不能用來評估人類真正所需的模型能力,我們就必須設計一種新的評估或測評基準,一種真正可以評估如何評價智能體是否真的在做事的方法。

這也是為什么Scale AI要構建一個衡量完整自動化產(chǎn)出的基準,而不是只測單項技能的原因。

如果只測寫作或數(shù)學等單項技能,就無法評估AI是否能在長時間跨度內持續(xù)完成任務。模型可能在某個環(huán)節(jié)出錯,導致整體無效。這些問題在孤立技能測試中很難被捕捉。

我們希望關注那些人類需要花數(shù)小時或數(shù)天完成的任務,這樣的評估更具生態(tài)真實性,更能反映現(xiàn)實中的工作狀態(tài)。

畢竟,真實工作并非一連串孤立任務,它涉及上下文整合、信息綜合和跨任務協(xié)作。只有把這些因素都處理好,才能真正勝任工作。

因此,我們關注的不是AI是否能解封閉題,而是能否完成一個完整的工作流。

4.許多知名測評基準已過時

那么,究竟這樣一份“讓AI去自由職業(yè)接單平臺的測評”,跟其他知名基準,比如GDP-eval、SWE-bench 有何不同?


在采訪中,Hendrycks 給出了答案:原來那些基準要么過于封閉,要么測得不準,要么已經(jīng)過時。

以“humanity's last exam”為例,那類基準是封閉題、非行動型的;而RLI是開放的、具備行為導向的。

GDP-val雖然試圖覆蓋經(jīng)濟任務,但它聲稱AI已接近人類水平,這顯然不現(xiàn)實。如果真那樣,世界早已截然不同。

SWE-bench主要測AI在軟件工程領域(如Django類問題)的能力,但業(yè)內普遍認為,它對實際開發(fā)影響的預測力越來越低,比如對Cursor等工具的應用參考價值有限。

這些基準要么過于封閉,要么測得不準,要么已“封頂”失去預測效度。而RLI旨在更開放、更貼近經(jīng)濟實況,覆蓋更廣泛的真實任務與項目。

這里,他們還提到了用合成任務來做測試集的不合理之處?!昂铣扇蝿胀狈φ鎸嵭?!”

Liu Bing:為什么要在真實付費任務上測試,而不是合成任務?

Hendrycks :因為真實工作中充滿各種邊緣情況,而沒有什么比現(xiàn)實更復雜。若想了解AI在現(xiàn)實世界的影響,就必須使用包含這些復雜情境的數(shù)據(jù)集,而不是人造的“假問題”。合成任務往往缺乏真實性。比如,讓人編個“刁鉆的機器學習題目”,那只是測試數(shù)學能力,而非真實工程工作。因此,RLI要立足現(xiàn)實任務,涵蓋足夠多的復雜案例,才能檢驗模型在真實挑戰(zhàn)中的適應力。

5.智能不等于生產(chǎn)力

那么,這份“AI勞動績效表”,究竟該如何看待呢?

首先,需要為所有打工人慶祝一番:AI距離替代人類干活,還很遠。

Hendrycks 在采訪中指出,目前模型在RLI上準確率不足10%,這意味著,在我們測試的所有自由職業(yè)任務中,即便是最好的AI模型,也只有不到十分之一的任務能達到客戶可接受的專業(yè)水準。

這提醒我們,工作不僅僅是回答問題或生成內容,還包括理解上下文、運用工具,并完整地完成任務——而這是當前AI明顯欠缺的。

其次,這可以說是全球首次用來評估AI“干活能力”的基準。

它和以前那些論文題型的AI測試(比如MMLU、GSM8K)不同,后者主要是測智商,而RLI關注的是真實世界的交付:

能不能打開文件?能不能保存格式?

能不能從A到Z獨立完成一份交差作品?

這才是AI走出實驗室,進入社會的真正門檻。

只不過,如今的結果說明還可以說只是萬里長征第一步,人類還需要為AI收拾爛攤子。AI能生成,但它還不會交差;它可以寫文案、畫圖、寫代碼,但在整合和收尾環(huán)節(jié)一塌糊涂。

正如Hendrycks在采訪中最后所說的 ,最關鍵的一點是,AI的進步必須以真實經(jīng)濟價值為衡量標準。

RLI告訴我們,“智能”并不等于“勞動”。真正的自動化,需要AI全面掌握語境、具備可靠性與判斷力。

6.暴風前的平靜:別大意,AI自動打工就在眼前

但別急著對AI失望。Scale AI 團隊發(fā)現(xiàn),雖然AI“干不好活”,但進步是可測的。

他們用Elo評分體系追蹤各模型的相對表現(xiàn)——新一代模型比舊版有穩(wěn)步提升,哪怕整體分數(shù)還低。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區(qū)圖片

也就是說,AI距離“自動打工”雖然還遠,但它的學習曲線是清晰的。

或許當我們下次再測,Automation Rate從2.5%升到10%、30%、50%——有了新榜單可以刷,早晚,“AI勞動力市場”就真的要誕生了。

別忘了,就在昨天,剛完成重組的OpenAI就馬不停蹄的宣布了它們的3年目標:2026年9月之前,讓一個自動化的AI研究實習生在數(shù)十萬張GPU上運行,并在2028年3月之前實現(xiàn)真正的自動化AI研究員。

要實現(xiàn)這個任務,安全策略、價值觀對齊、算力、資金的問題顯然要交給OpenAI這個龐然大物去處理,但具體該如何評價“AI自動化”能力,恐怕就要從今天Scale AI提出的RLI開始了。

Ps:小編突然想到今年6月,強化學習之父Sutton在智源大會演講中提到的AI發(fā)展的新階段。

“高質量的人類數(shù)據(jù)資源已經(jīng)幾乎被用到極限……

如果我們希望 AI 擁有真正的創(chuàng)造力和適應能力,它必須進入一個全新的階段,也就是‘經(jīng)驗時代’。在這個階段,AI 不再依賴固定的數(shù)據(jù)集,而是通過自身與外部世界的交互,從中獲取經(jīng)驗并不斷進化。”

那看來,從這個測評基準開始,AI真得要進入“接管真實人類派單”的經(jīng)驗時代了!

論文地址也為大家扒下來了,enjoy!

論文鏈接:

??https://scale.com/research/rli????https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Remote_Labor_Index%20(4).pdf??

本文轉載自??51CTO技術棧??,作者:云昭

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦