偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

棋盤變戰(zhàn)場,大模型卻呆了?普林斯頓、UT Austin新基準(zhǔn)SPIN-Bench曝AI智商瓶頸

人工智能 新聞
近日,來自普林斯頓和德州大學(xué)奧斯丁分校最新評測基準(zhǔn) SPIN-Bench,用一套 "組合拳" 暴擊了大模型的軟肋。

當(dāng)棋盤變成戰(zhàn)場,當(dāng)盟友暗藏心機(jī),當(dāng)談判需要三十六計,AI 的智商令人嘆息!

近日,來自普林斯頓和德州大學(xué)奧斯丁分校最新評測基準(zhǔn) SPIN-Bench,用一套 "組合拳" 暴擊了大模型的軟肋。研究顯示,即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等頂尖大模型,在涉及戰(zhàn)略規(guī)劃和社會推理的復(fù)雜任務(wù)中集體 "自閉"。

圖片

  • 論文標(biāo)題:SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
  • 論文鏈接:https://arxiv.org/pdf/2503.12349
  • 項目主頁:https://spinbench.github.io

在過去的一年里,大語言模型(LLM)展現(xiàn)了令人驚嘆的 "文本生成" 和 "智能代理" 能力。許多社區(qū)用戶已經(jīng)見到了各大模型的「百花齊放」:從高效的簡單問答到多輪對話推理。

然而,當(dāng)我們談到真正復(fù)雜的 "思考" 場景 —— 譬如需要在一個充滿其他 "玩家"(人或智能體)的不確定環(huán)境中做出長程策略規(guī)劃、臨場談判合作甚至 "背后使壞" 時,當(dāng)下的 LLM 是否還能站穩(wěn)腳跟?

傳統(tǒng) AI 測試總讓大模型做 "乖學(xué)生":解數(shù)學(xué)題、寫代碼、背百科...... 但在真實世界中,人類更常用的智能是動態(tài)博弈中的謀略和復(fù)雜社交中的洞察。

為解答這一問題,作者推出了全新的多域評估框架 SPIN-Bench(Strategic Planning, Interaction, and Negotiation),將單人規(guī)劃、合作游戲、對抗博弈和多方談判統(tǒng)一到一個測試框架中,并系統(tǒng)化地擴(kuò)大環(huán)境規(guī)模和復(fù)雜度,旨在全面刻畫 LLM 在戰(zhàn)略規(guī)劃與社交推理方面的 "短板" 與潛力。

SPIN-Bench: 一覽多維度評估體系

圖片

SPIN-Bench 框架包含兩個核心組成部分:

1. 游戲代理,包括 LLM 及其自適應(yīng)提示;

2. 環(huán)境和評估子系統(tǒng),用于管理游戲邏輯、跟蹤互動和量化性能。

傳統(tǒng)的規(guī)劃評測大多在單人、可完全觀察的環(huán)境中進(jìn)行,無法充分反映現(xiàn)實中團(tuán)隊決策的復(fù)雜度。而 SPIN-Bench 試圖通過形式化任務(wù)與多人場景相結(jié)合,把現(xiàn)實中需要的 "同伴合作"" 談判博弈 " 等關(guān)鍵技能一并納入,以幫助找到 LLM 在真實應(yīng)用落地時可能面臨的問題。

SPIN-Bench 讓 LLM 面對從 "最基礎(chǔ)" 的單智能體規(guī)劃,到 "最復(fù)雜" 的多智能體混合對抗與合作,逐步升級難度。文章并不僅僅統(tǒng)計 "最終是否獲勝" 或者 "是否達(dá)成目標(biāo)",還額外設(shè)置了若干細(xì)顆粒度的指標(biāo),用來量化模型的決策準(zhǔn)確性、協(xié)作有效性以及在社交場景下的話術(shù)與執(zhí)行匹配度。

具體而言,該文主要聚焦三個層次:

  • 經(jīng)典規(guī)劃(PDDL)- 測試 "單智能體思維" 極限

1、單智能體,確定性環(huán)境,多步動作規(guī)劃,通過層層遞進(jìn)的難度,分析模型的錯誤原因。

2、涵蓋 21 個領(lǐng)域(共 1,280 個任務(wù)),包含 elevator、grid、floortile 等多個常見子任務(wù),考察點涉及狀態(tài)空間的逐步提升和逐漸復(fù)雜的約束條件。

3、在經(jīng)典規(guī)劃問題中,題目通常會明確給出初始狀態(tài)、可執(zhí)行的動作集以及希望達(dá)到的目標(biāo)狀態(tài)。Agent 的任務(wù)則是利用這些已知信息,規(guī)劃并生成從初始狀態(tài)到目標(biāo)狀態(tài)的動作序列(trajectory)。

例如,在一個電梯控制問題中,Agent 可以執(zhí)行電梯的上下移動和開關(guān)門等動作,它需要通過合理規(guī)劃,在最少的步驟內(nèi),將所有乘客準(zhǔn)確、高效地運送到他們各自對應(yīng)的目標(biāo)樓層。在這個例子中 o1 把最后一位乘客(p4)送錯了樓層,說明 LLM 仍有提升空間。

圖片

  • 多智能體對抗或合作 - 逐步升級的腦力絞殺

1. 對抗場景(井字棋,四子棋,國際象棋):文章分別對比 LLM 的落子行動與專業(yè)博弈引擎、啟發(fā)式搜索算法的對戰(zhàn)平局概率與選步差異,動作是否符合最優(yōu)策略,評估其在戰(zhàn)術(shù)和戰(zhàn)略層面的深度。

2. 合作場景(Hanabi):考核模型面對不完全信息時,是否能夠通過溝通隱含信息、推測隊友手牌,實現(xiàn)團(tuán)體協(xié)作。

  • 戰(zhàn)略游戲與談判 - 七國混戰(zhàn) + 實時談判,上演 AI 版《權(quán)力的游戲》

Diplomacy 是一款融合聯(lián)盟、談判、背叛與合作的策略類桌游。玩家之間需要相互通信、結(jié)盟或欺騙,最終同時下達(dá)指令。文章考察 LLM 在 "多步長程規(guī)劃" 與 "社交手段"(如如何爭取盟友、如何制定信息不對稱策略)方面的綜合表現(xiàn)。不僅僅是讓模型 "求解" 問題,更是讓模型在有其他玩家干擾、或需要和其他玩家溝通的場景中,實時地進(jìn)行策略調(diào)整。這就要求 LLM 要在語言能力之外,具備多步推理和心智模型(Theory of Mind),并能兼顧團(tuán)隊 / 對手的動機(jī)。

實驗結(jié)果與分析: AI 集體遭遇 "滑鐵盧"

模型配置概述

該文評估了當(dāng)前流行的閉源和開源大語言模型:

  • 閉源模型:包含 OpenAI(如 o1, o3-mini, o1-mini, GPT-4o、GPT-4o mini、GPT-4-turbo 等)和 Anthropic 的 Claude 3.5(Sonnet/Haiku),共 10 個商業(yè)模型。
  • 開源模型:涵蓋 DeepSeek-R1、Llama3 系列、Qwen2.5-72B 和 Mistral-7B 等 7 個模型。

圖片

表 1:PDDL、競技棋盤游戲和合作游戲的結(jié)果。Plan Acc 表示規(guī)劃準(zhǔn)確度。N-Step " 表示 N 步前瞻。TTT、C4、CH 是三種競技游戲。WR 下標(biāo)表示專業(yè)博弈引擎對每個 LLM 的勝率(%)。T3 下標(biāo)顯示 LLM 在所有對局中的棋步屬于 top 3 choice 的百分比(%)。Hanabi 列顯示 2-5 名棋手參與游戲的平均得分。

PDDL 實驗結(jié)果分析

圖片

圖 1:o1 的準(zhǔn)確度與行動空間之間的關(guān)系。左圖描繪的是準(zhǔn)確率與合法行動平均數(shù)量的函數(shù)關(guān)系,右圖考察的是準(zhǔn)確率與狀態(tài) - 行動空間 大小的關(guān)系。

  • o1 在經(jīng)典規(guī)劃上表現(xiàn)最佳,但在大型行動 / 狀態(tài)空間中仍有明顯下降。
  • 核心發(fā)現(xiàn):模型準(zhǔn)確率與狀態(tài) - 行動空間規(guī)模的關(guān)聯(lián)性顯著高于與合法行動平均數(shù)量的關(guān)聯(lián)性。
  • 認(rèn)知解讀:模型在規(guī)劃時需承擔(dān)未來大量潛在分支的認(rèn)知負(fù)擔(dān),即使每一步僅有少量有效選擇。這表明 LLMs 更易受全局復(fù)雜性影響,而非單步?jīng)Q策限制。

競技棋盤游戲表現(xiàn)

在 solver 與 LLM 的對決中,solver 幾乎總是獲勝或和棋(表 1):

  • 井字棋(Tic-Tac-Toe):較強(qiáng)的模型(如 o1,Claude 3.5 Sonnet)偶爾能與完美 Solver 達(dá)成平局,但多數(shù)情況仍落敗。
  • 四子棋(Connect Four)與國際象棋(Chess):游戲 Solver(如 Stockfish 引擎)對所有測試的 LLMs 保持 100% 勝率。
  • LLMs 在四連環(huán)中偶爾能選擇最優(yōu)棋步,但在國際象棋中準(zhǔn)確率驟降,凸顯其深層戰(zhàn)術(shù)推理與分支擴(kuò)展能力不足。

圖片

Hanabi 多人合作游戲分析

多人協(xié)作挑戰(zhàn):

  • 當(dāng)玩家數(shù)量從 2 人增至 5 人時,頂尖模型(如 o1)的平均得分從 16.4 降至 14.2,表明多代理協(xié)調(diào)對 LLMs 的策略一致性造成壓力。
  • 部分模型(如 o1-mini、DeepSeek-R1)它們的高方差以及相對較低的平均得分表明缺乏足夠的策略規(guī)劃能力以有效地進(jìn)行 Hanabi 游戲,無法適應(yīng)復(fù)雜協(xié)作場景。

與人類對比:

  • 作者團(tuán)隊爬取并分析了 54,977 場人類 Hanabi 游戲數(shù)據(jù),發(fā)現(xiàn)人類得分集中在 15-25 分區(qū)間。
  • 當(dāng) LLMs 必須協(xié)調(diào)多個不完整的信息渠道并跟蹤隊友不斷變化的知識狀態(tài)時,所有 LLMs 均未達(dá)到人類得分的第一四分位數(shù),暴露其 "社會智能" 普遍不足。

圖片

表 2:4 個玩家的 Diplomacy 游戲?qū)嶒灲Y(jié)果結(jié)果,(結(jié)果表示:無協(xié)商 / 有協(xié)商)展示 LLM 不同類別指令的成功率,以及游戲結(jié)束時供應(yīng)中心(SC)和受控區(qū)域(CR)的數(shù)量。右側(cè)從左到右為談判消息的評測指標(biāo)?;炯寄軠y試(BS)顯示特定模型是否通過了外交游戲的基礎(chǔ)技能測試。

Diplomacy 戰(zhàn)略談判游戲分析(表 2)

基礎(chǔ)技能測試:

  • 在無談判的單玩家最簡單基準(zhǔn)測試中,僅 o1-preview、o1 和 GPT-4o 能在 20 回合內(nèi)占領(lǐng) 18 個補(bǔ)給中心,其他模型均失敗,反映 LLMs 在長期戰(zhàn)略規(guī)劃上的局限性。

空間指令能力:

  • o1 在基本命令(如移動和攻擊)的成功率上超過其他模型(20-30%)。
  • 對于需要多步或多智能體邏輯的復(fù)雜行動(如自我支援和支援他人),所有模型的性能都明顯下降。

多玩家場景表現(xiàn):

  • 隨著參與國數(shù)量增加(2-7),LLMs 的指令準(zhǔn)確性、攻擊成功率與供應(yīng)中心收益顯著下降,表明其難以應(yīng)對部分可觀測性與動態(tài)聯(lián)盟關(guān)系的疊加復(fù)雜度。
  • 對模型談判消息的分析表明,大型語言模型在談判中展現(xiàn)出差異化策略:所有模型均表現(xiàn)出高策略一致性(比率 > 0.90),其中 o1 的說服力最強(qiáng)(接受率 65%),而 Claude 3.5 Haiku 較弱(36%)。多數(shù)模型傾向提出互利方案(如 GPT-4-turbo),但 DeepSeek-R1 和 3.5 Haiku 更傾向于引發(fā)沖突。盡管 GPT-4-turbo 擅長換位思考,DeepSeek-R1 善用條件性戰(zhàn)術(shù),但從結(jié)果來看,所有模型均缺乏人類談判者的策略靈活性 —— 尤其在復(fù)雜社交互動中表現(xiàn)局限,反映出當(dāng)前 AI 的社會智能仍處于初級階段。

談判的負(fù)面影響:

  • 引入談判往往會對 o1 這樣的強(qiáng)推理模型產(chǎn)生反直覺的影響:執(zhí)行的指令數(shù)量與最終得分(補(bǔ)給中心 / 控制區(qū)域)大幅下降,而部分較弱模型反而表現(xiàn)穩(wěn)定。
  • 這一結(jié)果表明,激烈的社交互動可能會破壞強(qiáng)推理 LLM 的計劃連貫性和推理思維鏈,凸顯其 "思維鏈擴(kuò)展" 與社會智能間的潛在矛盾。

實驗結(jié)論:LLM 的痛點與挑戰(zhàn)

通過這套涵蓋從基礎(chǔ)規(guī)劃到多智能體策略博弈的評測,研究者得出了一些關(guān)鍵結(jié)論:

簡單規(guī)劃還行,復(fù)雜規(guī)劃時大多不行

當(dāng)狀態(tài)空間小、可選動作少時,LLM 可以完成相當(dāng)不錯的單步或短程規(guī)劃,但一旦問題規(guī)模擴(kuò)張,或者游戲進(jìn)入中后期出現(xiàn)大量分支,模型就很快出現(xiàn)多步推理瓶頸,甚至輸出不合規(guī)則的行動。

大模型背后的 "社交" 與 "規(guī)劃" 引擎仍需加強(qiáng)

本次評測表明了大模型在多步?jīng)Q策與他人意圖建模方面的不足。未來若想真正讓 LLM 在更復(fù)雜、更現(xiàn)實的多智能體協(xié)同場景發(fā)光發(fā)熱,我們需要更先進(jìn)的強(qiáng)化學(xué)習(xí)或多智能體訓(xùn)練框架,結(jié)合知識圖譜、記憶模塊或世界模型來避免推理鏈被輕易打斷。

不完全信息和多跳推斷是硬傷

在如 Hanabi 這類帶 "隱含信息" 的合作游戲中,模型需要通過隊友提示來推理自己持有的牌。實驗顯示,大多數(shù) LLM 依舊力不從心,也缺乏對他人思維進(jìn)行多跳推理的穩(wěn)定能力。

與人類高水平協(xié)作仍有明顯差距

即便是表現(xiàn)最好的大模型,在需要深度合作(如 Hanabi)或多方談判(如 Diplomacy)時,仍遠(yuǎn)遠(yuǎn)達(dá)不到人類玩家的平均成績。這也從一個側(cè)面說明:真實多智能體團(tuán)隊決策中,大模型還需要大量的結(jié)構(gòu)化規(guī)劃模塊與更豐富的交互記憶 / 推理機(jī)制。

作者的項目主頁提供了不同 LLM 之間的對戰(zhàn)以及游戲軌跡細(xì)節(jié)和任務(wù)的可視化:https://spinbench.github.io

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-07-26 09:56:48

模型AI

2024-09-25 14:41:15

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2024-10-28 22:14:05

2011-04-22 10:14:34

無線網(wǎng)絡(luò)DHCPAndroid

2024-11-12 13:40:00

2023-06-19 09:36:16

AI矩陣

2025-10-15 14:02:29

AI模型自動駕駛

2025-07-18 07:07:00

人工智能AIAI模型

2025-06-18 16:42:15

視頻生成AI模型

2020-12-02 10:05:26

AI 數(shù)據(jù)人工智能

2023-10-17 13:32:00

AI數(shù)據(jù)

2025-02-14 10:23:00

LLM模型谷歌

2024-02-19 00:15:39

模型數(shù)據(jù)

2025-09-01 09:10:00

2024-07-19 09:59:31

2023-09-12 14:45:18

2023-12-05 13:25:00

數(shù)據(jù)訓(xùn)練

2025-05-06 00:45:00

2024-01-24 13:11:00

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號