偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

僅100種子題,合成數(shù)據(jù)質(zhì)量超GPT-5,阿里、上交提出Socratic-Zero框架

人工智能 新聞
Socratic-Zero 證明:在推理能力構(gòu)建中,高質(zhì)量的教學(xué)策略可能比模型規(guī)模更重要。一個(gè)僅用 100 個(gè)種子問(wèn)題啟動(dòng)的 32B Generator,竟能產(chǎn)出優(yōu)于 GPT-5 的訓(xùn)練數(shù)據(jù) —— 這為資源受限的團(tuán)隊(duì)提供了新的可能性。

本文(共同)第一作者為王少博(上交 AI)、焦政博(上財(cái))。(共同)通訊作者為魏虎(阿里巴巴)和張林峰(上交 AI)。本文其他作者來(lái)自阿里巴巴、武大、浙大等。

最近一篇來(lái)自阿里巴巴和上交等單位的 Agent 自進(jìn)化工作得到了推特大佬們的關(guān)注。首先是 Rohan Paul 的兩次轉(zhuǎn)發(fā):

網(wǎng)友對(duì)此也高度評(píng)價(jià):

讓我們看看這篇工作到底是怎么做的?

引言:從 “數(shù)據(jù)饑渴” 到 “自給自足”

當(dāng)前大語(yǔ)言模型在數(shù)學(xué)推理上的突破,高度依賴(lài)海量人工標(biāo)注數(shù)據(jù)。以 MetaMath 和 WizardMath 為代表的靜態(tài)增強(qiáng)方法,雖能通過(guò)提示工程合成訓(xùn)練樣本,但其生成的問(wèn)題質(zhì)量不穩(wěn)定,且無(wú)法動(dòng)態(tài)適配模型能力演進(jìn),導(dǎo)致訓(xùn)練信號(hào)效率低下。

為突破這一瓶頸,阿里巴巴與上海交通大學(xué) EPIC Lab 聯(lián)合提出 Socratic-Zero,一個(gè)完全無(wú)外部數(shù)據(jù)依賴(lài)的自主推理訓(xùn)練框架。該方法僅從 100 個(gè)種子問(wèn)題出發(fā),通過(guò)三個(gè)智能體的協(xié)同進(jìn)化,自動(dòng)生成高質(zhì)量、難度自適應(yīng)的課程,并持續(xù)提升模型推理能力。

  • 論文鏈接:https://arxiv.org/pdf/2509.24726
  • GitHub 地址:https://github.com/Frostlinx/Socratic-Zero 

蘇格拉底的 “助產(chǎn)術(shù)”:從哲學(xué)對(duì)話到智能體協(xié)同

兩千多年前,蘇格拉底在雅典街頭與青年對(duì)話,從不直接給出答案,而是通過(guò)一連串精準(zhǔn)的提問(wèn),引導(dǎo)對(duì)方暴露認(rèn)知盲區(qū)、修正錯(cuò)誤信念,最終 “自己生出” 真知。他稱(chēng)這種方法為 “精神助產(chǎn)術(shù)”(maieutics)—— 教師不是知識(shí)的灌輸者,而是思維的接生者。

這一古老智慧在今天的大模型時(shí)代煥發(fā)出驚人回響。當(dāng)現(xiàn)代 AI 面臨推理能力瓶頸,傳統(tǒng)路徑依賴(lài)海量標(biāo)注數(shù)據(jù) “喂養(yǎng)” 模型,而蘇格拉底卻啟示我們:真正的智能,或許不在于擁有多少答案,而在于能否通過(guò)高質(zhì)量的提問(wèn),激發(fā)自我修正與持續(xù)進(jìn)化的能力。

受此啟發(fā),阿里巴巴與上海交通大學(xué) EPIC Lab 將這一哲學(xué)理念轉(zhuǎn)化為可計(jì)算的協(xié)同機(jī)制,提出 Socratic-Zero—— 一個(gè)由 Solver(學(xué)生)、Teacher(導(dǎo)師)與 Generator(學(xué)徒)構(gòu)成的三智能體自進(jìn)化系統(tǒng)。在這里,沒(méi)有外部數(shù)據(jù)的 “喂養(yǎng)”,只有智能體之間的 “詰問(wèn)” 與 “反思”;沒(méi)有靜態(tài)課程的灌輸,只有動(dòng)態(tài)生成的挑戰(zhàn)與反饋。正如蘇格拉底所言:“我不能教人任何東西,只能讓他們思考?!?Socratic-Zero 正是在這一精神下,讓大模型學(xué)會(huì) “自己教自己推理”。

論文 Figure 1 (a) 蘇格拉底教學(xué)法展現(xiàn)的哲學(xué)根基:導(dǎo)師(蘇格拉底)如同思想助產(chǎn)士,通過(guò)探詢(xún)式提問(wèn)引導(dǎo)理解;實(shí)踐者(亞里士多德)并非被動(dòng)接受答案,而是循著理性探究之路獲得啟迪;學(xué)徒導(dǎo)師(柏拉圖)則通過(guò)觀察并內(nèi)化大師的方法來(lái)習(xí)得教學(xué)之道。(b) Socratic-Zero 框架將這一理念付諸實(shí)踐。在此框架中,教師 —— 一個(gè)強(qiáng)大的法律語(yǔ)言模型 —— 引導(dǎo)兩個(gè)智能體的協(xié)同進(jìn)化。解題器通過(guò)生成解決方案并借助教師反饋進(jìn)行優(yōu)化而不斷改進(jìn),生成器則通過(guò)策略性地提煉教師行為來(lái)進(jìn)化,從而為解題器生成日益適配的課程體系。

核心突破:在極簡(jiǎn)啟動(dòng)條件下,合成數(shù)據(jù)質(zhì)量全面超越 GPT-5、Gemini-2.5-Pro、Claude-4.1-Opus 等頂級(jí)閉源模型作為數(shù)據(jù)生成器時(shí)的表現(xiàn)。

方法詳解:三智能體 “蘇格拉底鐵三角”

Socratic-Zero 的核心是一個(gè)受蘇格拉底 “助產(chǎn)術(shù)” 啟發(fā)的多智能體系統(tǒng),包含三個(gè)角色:

  • Solver(學(xué)生):嘗試解答問(wèn)題,并通過(guò)偏好學(xué)習(xí)(DPO)從成功與失敗軌跡中自我修正;
  • Teacher(導(dǎo)師):基于 Solver 的錯(cuò)誤,動(dòng)態(tài)生成更具針對(duì)性的新問(wèn)題,精準(zhǔn)暴露其知識(shí)盲區(qū);
  • Generator(學(xué)徒):模仿 Teacher 的出題策略,通過(guò)價(jià)值加權(quán)監(jiān)督微調(diào)(WSFT)蒸餾其 “教學(xué)智慧”,實(shí)現(xiàn)課程的規(guī)模化生成。

三者構(gòu)成一個(gè)閉環(huán)自進(jìn)化系統(tǒng):Solver 的弱點(diǎn)驅(qū)動(dòng) Teacher 出題,Teacher 的行為被 Generator 學(xué)習(xí),Generator 產(chǎn)出的新問(wèn)題又反哺 Solver 訓(xùn)練 —— 全程無(wú)需人類(lèi)干預(yù)。

1. Solver 的在線偏好優(yōu)化(Online DPO)

Solver 在當(dāng)前課程上對(duì)每個(gè)問(wèn)題生成 ( k=8 ) 條推理軌跡。Teacher 的驗(yàn)證函數(shù)判斷每條軌跡是否正確,從而構(gòu)建偏好對(duì):正確軌跡為 “勝”,錯(cuò)誤軌跡為 “負(fù)”。

若 Solver 全部失敗,則使用課程中的參考答案作為唯一 “勝” 樣本,確保偏好信號(hào)始終存在。Solver 通過(guò) Direct Preference Optimization (DPO) 更新策略。若 Solver 全部失敗,則使用課程中的參考答案作為唯一 “勝” 樣本,確保偏好信號(hào)始終存在。

2. Teacher 的自適應(yīng)出題機(jī)制

Teacher 是一個(gè)固定的大模型(Qwen3-235B-A22B),具備兩個(gè)確定性函數(shù):

  • 驗(yàn)證函數(shù):判斷解法是否正確;
  • 問(wèn)題精煉函數(shù):基于 Solver 的錯(cuò)誤解法,生成一個(gè)新問(wèn)題及其參考答案。

新問(wèn)題的設(shè)計(jì)原則是:保留原問(wèn)題的數(shù)學(xué)本質(zhì),但針對(duì)性修復(fù) Solver 的推理漏洞。

關(guān)鍵保障機(jī)制:當(dāng) Solver 對(duì)某問(wèn)題全錯(cuò)時(shí),Teacher 會(huì)啟動(dòng) Self-Verification Protocol—— 重新求解該問(wèn)題,驗(yàn)證參考答案是否正確,防止低質(zhì)量問(wèn)題污染課程

3. Generator 的價(jià)值加權(quán)蒸餾(WSFT)

為避免持續(xù)調(diào)用昂貴的 Teacher,Generator 通過(guò) Weighted Supervised Fine-Tuning (WSFT) 學(xué)習(xí)其出題策略。關(guān)鍵創(chuàng)新在于引入價(jià)值函數(shù):

 4. 為何僅需 100 個(gè)種子?

論文 Appendix F 詳細(xì)說(shuō)明了種子選擇協(xié)議:

  • 難度對(duì)齊:種子來(lái)自 MATH 數(shù)據(jù)集 Level 2–4,確保 Solver 初始成功率 50% 上下,避免 “太易” 或 “全錯(cuò)”;
  • 領(lǐng)域覆蓋:100 個(gè)問(wèn)題均勻分布于代數(shù)、數(shù)論、幾何、組合等 7 個(gè)數(shù)學(xué)子領(lǐng)域;
  • 多樣性保障:通過(guò)嵌入聚類(lèi)確保解法路徑多樣,避免同質(zhì)化;
  • 質(zhì)量控制:所有種子經(jīng) Teacher 多次驗(yàn)證,排除歧義或錯(cuò)誤問(wèn)題。

這一精心設(shè)計(jì)的啟動(dòng)集,為后續(xù)自進(jìn)化提供了高質(zhì)量、高信息量的 “引信”。

實(shí)驗(yàn)結(jié)果:極簡(jiǎn)啟動(dòng),極致性能

1. Solver 性能:+20.2 個(gè)百分點(diǎn)提升

在 7 個(gè)數(shù)學(xué)推理基準(zhǔn)(AMC23、AIME24/25、Olympiad、MATH-500、Minerva、GSM8K)上,Socratic-Solver-8B(基于 Qwen3-8B)平均準(zhǔn)確率達(dá) 56.1%,相比 MetaMath 和 WizardMath(平均 40.7%),絕對(duì)提升 +15.4 個(gè)百分點(diǎn);相比 LLM2LLM 提升 +15.2 個(gè)百分點(diǎn)。

在高難度競(jìng)賽題上優(yōu)勢(shì)更顯著:

  • AIME-24:28.4% vs. 12.3%(+16.1)
  • Olympiad:55.1% vs. 35.9%(+19.2)

2. Generator 質(zhì)量:合成數(shù)據(jù)超越閉源大模型

研究團(tuán)隊(duì)用各模型生成 3,000 道數(shù)學(xué)題,微調(diào) DeepSeek-R1-Distill-Llama-8B 作為學(xué)生模型,測(cè)試其下游性能:

關(guān)鍵結(jié)論:僅用 100 個(gè)種子問(wèn)題啟動(dòng)的 Socratic-Generator-32B,其合成數(shù)據(jù)質(zhì)量已超越 GPT-5、Gemini-2.5-Pro 等閉源大模型作為數(shù)據(jù)生成器時(shí)的表現(xiàn)。

此外,Socratic-Generator-32B 的問(wèn)題有效性達(dá) 95.6%,接近 GPT-5(95.8%),遠(yuǎn)超其基座模型 Qwen3-32B(89.1%)。

工程價(jià)值:輕量、可復(fù)現(xiàn)、高性?xún)r(jià)比

Socratic-Zero 的訓(xùn)練流程高度工程友好:

  • 硬件:Solver 訓(xùn)練僅需 8×NVIDIA H20 GPU,Teacher 推理使用 16×AMD MI308X;
  • 評(píng)估可靠性:采用 MathRule(規(guī)則提?。?+ LLM Judge(語(yǔ)義驗(yàn)證) 雙驗(yàn)證機(jī)制,確保結(jié)果可信;
  • 可遷移性:框架設(shè)計(jì)通用,可擴(kuò)展至代碼等其他推理領(lǐng)域。

結(jié)語(yǔ)

Socratic-Zero 證明:在推理能力構(gòu)建中,高質(zhì)量的教學(xué)策略可能比模型規(guī)模更重要。一個(gè)僅用 100 個(gè)種子問(wèn)題啟動(dòng)的 32B Generator,竟能產(chǎn)出優(yōu)于 GPT-5 的訓(xùn)練數(shù)據(jù) —— 這為資源受限的團(tuán)隊(duì)提供了新的可能性。

更重要的是,它開(kāi)啟了一條零數(shù)據(jù)、自進(jìn)化的新路徑:無(wú)需人類(lèi)標(biāo)注,僅靠智能體之間的協(xié)同演化,就能實(shí)現(xiàn)推理能力的螺旋式上升。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-06-19 09:06:00

2024-01-22 13:57:00

模型訓(xùn)練

2025-10-27 09:00:09

2025-08-14 09:31:24

GPT-5AI

2025-06-25 08:53:00

模型AI強(qiáng)化學(xué)習(xí)

2024-01-18 12:30:03

2023-11-09 12:41:04

AI模型

2024-04-01 00:50:00

吳恩達(dá)智能體

2023-09-03 12:56:43

2025-09-23 09:13:37

2023-04-04 22:31:11

GPT-5人工智能

2025-08-19 16:05:27

GPT-5AI代碼

2025-06-27 07:10:00

合成數(shù)據(jù)AI人工智能

2023-04-13 13:38:59

2024-01-09 12:53:16

模型訓(xùn)練

2022-08-11 08:00:00

機(jī)器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2025-06-04 09:15:16

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2025-09-25 09:09:22

2023-06-08 07:58:29

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)