偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

可驗證、可泛化、可信賴:CompassJudger-2的"可驗證獎勵"如何煉成通用判斷新范式

人工智能
在LLM評估領(lǐng)域,判斷模型長期受限于狹窄專業(yè)化與有限魯棒性。CompassJudger-2通過可驗證獎勵機制與任務驅(qū)動數(shù)據(jù)策略,實現(xiàn)了7B小模型媲美235B巨無霸的判斷能力,為通用判斷模型樹立新標準。


大家好,我是肆〇柒。在大模型評估領(lǐng)域,判斷模型的局限性一直是個"老大難"問題:它們要么過于專業(yè)化,只能處理特定提示;要么缺乏足夠的世界知識,在知識密集型查詢上頻頻"翻車"。今天要介紹的CompassJudger-2,通過"可驗證獎勵機制",讓判斷模型第一次有了明確的"對錯"標準,實現(xiàn)了從狹窄專用到通用判斷的質(zhì)的飛躍。下面我們一起來理解一下這一技術(shù)突破背后的原理、實踐與影響,看看它如何重塑大模型評估的新標準。

判斷模型的發(fā)展脈絡

當下,LLM-as-judge(Large Language Model as judge)在評估大型語言模型(LLM)方面日益凸顯其重要性。隨著LLM在現(xiàn)實應用中的廣泛部署,準確評估響應質(zhì)量變得愈發(fā)關(guān)鍵。然而,當前的判斷模型普遍存在狹窄專業(yè)化和有限魯棒性的問題,削弱了其進行全面評估的能力。傳統(tǒng)基于規(guī)則的基準測試雖然在標準化任務中表現(xiàn)出色,但難以處理LLM輸出的變異性,往往因依賴復雜的正則表達式設(shè)計而無法應對邊緣情況。

在這個情況下,模型驅(qū)動的評估方法如獎勵模型(Reward Models)和LLM-as-Judge便受到研究者的關(guān)注,它們利用LLM的推理能力減少了評估工作量。然而,這些方法也引入了新的挑戰(zhàn):現(xiàn)有判斷模型的泛化能力受限,往往局限于特定提示或數(shù)據(jù)集。此外,這些LLM在知識密集型查詢上可能因世界知識不足而產(chǎn)生不準確判斷,限制了其在模型迭代改進中的應用。

CompassJudger系列的核心價值:作為首個整合多領(lǐng)域評判任務的開源模型系列,CompassJudger致力于解決上述挑戰(zhàn)。其最新迭代CompassJudger-2通過任務驅(qū)動的多領(lǐng)域數(shù)據(jù)整理策略,實現(xiàn)了判斷能力的顯著提升,為通用判斷模型樹立了新標準。

判斷模型技術(shù)路線全景圖

傳統(tǒng)獎勵模型

傳統(tǒng)獎勵模型主要提供單一獎勵值輸出,缺乏解釋性和可操作性反饋。雖然這些模型能有效評估模型響應,但無法提供詳細的判斷理由和改進建議,限制了其在模型迭代改進中的實用性。例如,InternLM2-20B-reward和Deepseek-GRM-27B等模型在RewardBench上表現(xiàn)良好,但其輸出僅包含獎勵分數(shù),缺乏對判斷過程的解釋。

專用判斷模型

專用判斷模型如Con-J和RISE代表了判斷模型發(fā)展的中間階段。這些模型通過DPO(Direct Preference Optimization)策略進行訓練,實現(xiàn)了比傳統(tǒng)獎勵模型更好的判斷性能。Con-J和RISE-Judge系列模型在特定任務上表現(xiàn)出色,但仍存在明顯局限:它們主要針對特定提示模板進行優(yōu)化,難以適應多樣化的評估場景。實證研究表明,這些模型在知識密集型查詢上的表現(xiàn)不佳,因為其訓練數(shù)據(jù)往往局限于特定領(lǐng)域,缺乏足夠的世界知識覆蓋。

通用判斷模型的演進

通用判斷模型是為了克服專用判斷模型的局限性,實現(xiàn)跨領(lǐng)域的判斷能力。CompassJudger-1作為首個整合多領(lǐng)域評判任務的開源模型,通過納入廣泛的評判任務顯著增強了泛化能力。然而,CompassJudger-1仍面臨魯棒性和泛化能力不足的問題,特別是在處理風格化判斷和知識密集型查詢時表現(xiàn)欠佳。

CompassJudger-2的突破性創(chuàng)新:CompassJudger-2的核心創(chuàng)新在于提出了一種以可驗證獎勵為核心的技術(shù)范式。該模型通過任務驅(qū)動的多領(lǐng)域數(shù)據(jù)整理策略,結(jié)合批判性思維鏈(CoT)數(shù)據(jù)生成和拒絕采樣技術(shù),實現(xiàn)了判斷能力的顯著提升。這一創(chuàng)新使CompassJudger-2能夠在多個判斷基準測試中取得卓越表現(xiàn),甚至其7B模型在判斷準確性上能與DeepSeek-V3和Qwen3-235B-A22B等顯著更大的模型相媲美。

有了高質(zhì)量的判斷模型和嚴謹?shù)挠柧毞椒ǎ€需要一個可靠的評估基準來驗證其性能。為此,研究團隊開發(fā)了JudgerBenchV2,解決了現(xiàn)有基準的局限性,為判斷模型提供了更全面、可靠的評估標準。

可驗證獎勵機制:CompassJudger-2的核心創(chuàng)新

可驗證獎勵機制的設(shè)計原理

可驗證獎勵機制的核心價值:這是CompassJudger-2區(qū)別于前代模型的關(guān)鍵創(chuàng)新,它解決了判斷模型在知識密集型查詢上的準確度問題,使模型判斷有了明確的"對錯"標準。

機制優(yōu)勢的具體體現(xiàn):這一機制通過與ground truth對比確保判斷準確性,有效解決了現(xiàn)有判斷模型在知識密集型查詢上的局限性。傳統(tǒng)判斷模型由于缺乏足夠的世界知識,在面對知識密集型問題時往往產(chǎn)生不準確判斷。例如,在評估模型對"量子力學中的海森堡不確定性原理是什么?"這類問題的回答時,傳統(tǒng)判斷模型可能因自身知識不足而無法識別錯誤答案。CompassJudger-2通過驗證機制確保只有準確的判斷被保留,大幅提升了在知識密集型查詢上的判斷質(zhì)量。

驗證流程的實操細節(jié):在數(shù)據(jù)整理過程中,CompassJudger-2特別關(guān)注驗證生成判斷的正確性。對于過時數(shù)據(jù)(基于2024年10月之前的模型生成),使用Qwen2.5-72B-Instruct重建判斷,并通過與人工標注的ground truth比較來驗證正確性,僅保留準確的判斷。這一驗證過程包含兩個關(guān)鍵環(huán)節(jié):首先,由Qwen2.5-72B-Instruct對原始判斷進行重建;其次,將重建結(jié)果與人工標注的ground truth進行比對,只有當兩者一致時,該判斷才被納入訓練數(shù)據(jù)。這種雙重驗證機制有效過濾了錯誤判斷,確保了訓練數(shù)據(jù)的高質(zhì)量。

批判性思維鏈(CoT)的工程實現(xiàn)

CompassJudger-2采用創(chuàng)新的思維鏈方法生成高質(zhì)量的指令-響應數(shù)據(jù),專為評判任務設(shè)計。該模型將評判任務分解為七個關(guān)鍵步驟,要求模型通過全面思考做出預測:

判斷任務中的推理路徑示意圖

1. 用戶需求分析:分析用戶的特定要求,識別用戶指令中的關(guān)鍵方面和約束條件

2. 模型A的優(yōu)點:評估模型A響應的優(yōu)勢,考慮其如何滿足用戶需求和約束

3. 模型A的缺點:識別模型A響應中的不足,指出未能滿足用戶請求的方面

4. 模型B的優(yōu)點:評估模型B響應的優(yōu)勢

5. 模型B的缺點:識別模型B響應的問題

6. 綜合推理:基于對兩個響應的分析,解釋哪個模型更好地滿足用戶需求

7. 最終選擇:根據(jù)推理得出結(jié)論,指出哪個模型提供了更適合用戶請求的響應 

CoT在訓練中的實際作用:這一七步推理路徑確保了判斷過程的系統(tǒng)性和全面性,避免了簡單二元判斷可能導致的偏見。例如,在評估兩個模型對"請解釋為什么天空是藍色的"問題的回答時,模型A可能提供了準確但過于簡略的解釋,而模型B可能提供了詳細但包含部分錯誤信息的解釋。通過七步推理,CompassJudger-2能夠系統(tǒng)分析兩個回答在科學準確性、詳細程度和易理解性等方面的優(yōu)缺點,從而做出更全面的判斷。

CoT生成質(zhì)量控制:為確保CoT數(shù)據(jù)質(zhì)量,研究團隊采用了嚴格的生成和篩選流程。首先,使用Qwen2.5-72B-Instruct作為骨干模型生成CoT數(shù)據(jù);其次,通過人工檢查和自動驗證相結(jié)合的方式篩選高質(zhì)量樣本;最后,對篩選后的樣本進行二次驗證,確保推理過程的邏輯連貫性和判斷的準確性。如下提供了完整CoT合成提示模板詳細指導模型如何執(zhí)行這一批判性分析過程,確保了生成數(shù)據(jù)的一致性和高質(zhì)量。

### CoT Synthesizing Prompt

Now we are reviewing a user's interaction with two models. Your task is to evaluate the responses from Model A and Model B by carefully analyzing the dialogue step by step, following a clear and structured thought process: 

1. User's Demand:
   - Carefully analyze the user's request. What is the user specifically asking for? What are the key aspects of the request that need to be fulfilled? Identify any constraints (e.g., time, format, quantity) the user has provided.

2. Strengths of Model A:
   - Identify the strengths of Model A's response. Consider how well it addresses the user's demand, meets the user's constraints, and how well it serves the intended purpose.

3. Weaknesses of Model A:
   - Identify the weaknesses of Model A's response. What aspects of the response fail to meet the user's request or constraints? What could have been improved?

4. Strengths of Model B:
   - Identify the strengths of Model B's response. Consider how well it addresses the user's demand, meets the user's constraints, and how well it serves the intended purpose.

5. Weaknesses of Model B:
   - Identify the weaknesses of Model B's response. What aspects of the response fail to meet the user's request or constraints? What could have been improved?

6. Reasoning:
   - Based on your analysis of both responses, explain which model better addresses the user's needs. Discuss which model's response is more suitable given the user's request and constraints.

7. Choice:
   - Conclude with a choice between Model A and Model B based on your reasoning. Indicate which model provides the more appropriate and useful response for the user's request.

Your final reply must be structured in the following format: 
{"User's Demand":"[The user's request or need]", 
"Strengths of Model A":"[Summary of the strengths of Model A]", 
"Weaknesses of Model A":"[Summary of the weaknesses of Model A]", 
"Strengths of Model B":"[Summary of the strengths of Model B]", 
"Weaknesses of Model B":"[Summary of the weaknesses of Model B]", 
"Reasoning":"[Explanation of which model is more suitable for the user's demand]", 
"Choice":"[Model A or Model B]"
}

譯文:

### 批判性思維鏈(CoT)合成提示

現(xiàn)在我們正在評審用戶與兩個模型的交互。你的任務是通過仔細分析對話,逐步評估模型A和模型B的響應,遵循清晰且結(jié)構(gòu)化的思考過程:

1. 用戶需求分析:
   - 仔細分析用戶的請求。用戶具體要求什么?需要滿足的關(guān)鍵方面是什么?識別用戶提供的任何約束條件(例如,時間、格式、數(shù)量)。

2. 模型A的優(yōu)點:
   - 識別模型A響應的優(yōu)勢??紤]它如何滿足用戶需求、符合用戶約束,以及如何實現(xiàn)預期目的。

3. 模型A的缺點:
   - 識別模型A響應的弱點。響應中哪些方面未能滿足用戶請求或約束?哪些方面可以改進?

4. 模型B的優(yōu)點:
   - 識別模型B響應的優(yōu)勢??紤]它如何滿足用戶需求、符合用戶約束,以及如何實現(xiàn)預期目的。

5. 模型B的缺點:
   - 識別模型B響應的弱點。響應中哪些方面未能滿足用戶請求或約束?哪些方面可以改進?

6. 綜合推理:
   - 基于對兩個響應的分析,解釋哪個模型更好地滿足了用戶需求。討論在給定用戶請求和約束條件下,哪個模型的響應更為合適。

7. 最終選擇:
   - 基于你的推理,得出在模型A和模型B之間的選擇結(jié)論。指出哪個模型為用戶提供更恰當、更有用的響應。

你的最終回復必須按照以下格式結(jié)構(gòu)化:
{"User's Demand":"[用戶的需求或請求]", 
"Strengths of Model A":"[模型A優(yōu)勢的總結(jié)]", 
"Weaknesses of Model A":"[模型A弱點的總結(jié)]", 
"Strengths of Model B":"[模型B優(yōu)勢的總結(jié)]", 
"Weaknesses of Model B":"[模型B弱點的總結(jié)]", 
"Reasoning":"[解釋哪個模型更適合用戶需求]", 
"Choice":"[模型A或模型B]"
}

策略梯度優(yōu)化的工程實踐

CompassJudger-2的訓練目標是最大化響應分布上的期望獎勵,其梯度可推導為:

理解策略梯度優(yōu)化的關(guān)鍵:這一優(yōu)化方法不同于傳統(tǒng)的監(jiān)督微調(diào)(SFT),它通過探索不同的響應軌跡來最大化期望獎勵,能夠更有效地學習評判任務的本質(zhì)。簡單來說,它讓模型"多嘗試幾種判斷方式,但只獎勵正確的判斷"。

CompassJudger-2的訓練框架

邊界損失的直觀理解:研究團隊探索了三種映射函數(shù)來優(yōu)化預測位置:

1. DPO損失(無參考模型):鼓勵模型增加正確答案的概率,同時降低錯誤答案的概率

2. 溫度損失:對logits進行溫度縮放,有效銳化ground truth標記周圍的概率分布(溫度)

3. 邊界損失:在ground truth標記和其他答案之間引入邊界,確保ground truth概率足夠高

策略梯度損失消融實驗結(jié)果

消融實驗表明,邊界損失在JudgerBenchV2、JudgeBench和RMB上均表現(xiàn)最佳,平均提升2.21%。邊界損失的數(shù)學表達為:

邊界損失的優(yōu)越性在于它不僅關(guān)注正確答案的概率,還確保正確答案與錯誤答案之間的概率差距足夠大,從而提高了模型的判斷魯棒性。與傳統(tǒng)SFT相比,邊界策略梯度損失特別適合評判任務,因為它關(guān)注預測的準確性的同時,也關(guān)注預測的置信度,使模型在面對模糊或有挑戰(zhàn)性的判斷時更加穩(wěn)健。

拒絕采樣如何提升泛化能力

拒絕采樣的核心思想:這是一種通過生成多個候選響應并篩選高質(zhì)量樣本的技術(shù),類似于"多試幾次,只保留最好的結(jié)果",有效解決了標準SFT階段探索有限的問題。

策略梯度優(yōu)化雖然直接最大化期望獎勵,但在標準SFT階段存在探索有限的問題,固定前綴限制了生成響應的多樣性。為解決這一探索瓶頸,CompassJudger-2利用拒絕采樣增強模型泛化能力。

實踐中,CompassJudger-2生成8個候選響應進行過濾。選擇8作為候選數(shù)量是基于消融實驗的結(jié)果:當候選數(shù)量少于8時,多樣性不足;當候選數(shù)量超過8時,邊際效益遞減,同時計算成本顯著增加。消融實驗表明,8個候選響應在性能提升和計算成本之間取得了最佳平衡。

拒絕采樣的計算成本分析:拒絕采樣確實增加了推理成本,因為需要生成多個候選響應。然而,研究團隊通過優(yōu)化采樣策略和并行計算,將額外開銷控制在可接受范圍內(nèi)。更重要的是,這種額外成本帶來了顯著的性能提升:RFT數(shù)據(jù)(通過拒絕采樣處理的公共獎勵數(shù)據(jù))對JudgerBenchV2性能的貢獻達到2.32%,在RMB數(shù)據(jù)集上更是貢獻了5.77%的性能提升。

RFT數(shù)據(jù)的生成過程:RFT數(shù)據(jù)是"通過拒絕采樣處理的公共獎勵數(shù)據(jù)",其生成過程包括以下關(guān)鍵步驟:

1. 從公共獎勵數(shù)據(jù)集中提取指令-響應對

2. 使用Qwen2.5-72B-Instruct為每個數(shù)據(jù)實例生成多個判斷

3. 通過拒絕采樣篩選出滿足ground truth標簽的高質(zhì)量樣本

4. 對篩選后的樣本進行二次驗證,確保判斷的準確性和一致性

數(shù)據(jù)消融實驗結(jié)果

通過這種方式,拒絕采樣不僅增強了模型的泛化能力,還促進了多樣化的前綴生成,為從SFT到策略梯度優(yōu)化架起了橋梁。數(shù)據(jù)消融實驗(上圖)顯示,RFT數(shù)據(jù)對判斷能力至關(guān)重要:移除RFT數(shù)據(jù)導致JudgerBenchV2性能下降2.32%,并在RMB數(shù)據(jù)集上導致一致性評估能力顯著下降。這表明拒絕采樣與RFT數(shù)據(jù)的協(xié)同效應,對提升模型的判斷一致性和泛化能力具有關(guān)鍵作用。

數(shù)據(jù)構(gòu)建策略的成功實施為模型提供了高質(zhì)量的訓練素材,但要全面評估判斷模型的性能,還需要一個更加完善、多維度的評估基準。JudgerBenchV2正是為此而設(shè)計,它通過混合判斷者策略和創(chuàng)新指標,實現(xiàn)了對判斷模型更全面、可靠的評估。

數(shù)據(jù)構(gòu)建策略的演進與創(chuàng)新

CompassJudger-1作為首個整合多領(lǐng)域評判任務的開源模型,奠定了通用判斷模型的基礎(chǔ)。其數(shù)據(jù)方法主要依賴于收集和整合公開可用的判斷數(shù)據(jù),但缺乏系統(tǒng)的數(shù)據(jù)整理和合成策略。作為基礎(chǔ)模型,CompassJudger-1在跨領(lǐng)域判斷能力上存在局限,特別是在處理知識密集型查詢和風格化判斷時表現(xiàn)不佳。

CompassJudger-2的多維度數(shù)據(jù)流水線

CompassJudger-2數(shù)據(jù)策略的核心價值:通過整合四類互補數(shù)據(jù)源,CompassJudger-2實現(xiàn)了專業(yè)性與通用性的平衡,使模型能在多種評判任務中保持高性能。

CompassJudger-2提出了一個全面的數(shù)據(jù)構(gòu)建框架,包括數(shù)據(jù)整理(Data Curation)和數(shù)據(jù)合成(Data Synthesis)兩個主要階段。

CompassJudger-2的數(shù)據(jù)構(gòu)建流水線

數(shù)據(jù)整理公共判斷數(shù)據(jù):分為過時數(shù)據(jù)和最新數(shù)據(jù),以2024年10月為界

  • 對于過時數(shù)據(jù),使用Qwen2.5-72B-Instruct重建判斷,并通過與人工標注ground truth比較驗證正確性
  • 對于最新數(shù)據(jù),利用ArenaHard、WildBench、MTBench等主觀評估數(shù)據(jù)集的判斷提示模板替換原始提示模板,增強多樣性公共獎勵數(shù)據(jù):這些數(shù)據(jù)缺乏批判注釋,不適合直接訓練生成式判斷模型
  • 使用Qwen2.5-72B-Instruct為每個數(shù)據(jù)實例生成多個判斷
  • 通過拒絕采樣進一步提高質(zhì)量

數(shù)據(jù)合成知識型數(shù)據(jù)集:聚合標準化基準(如MMLU、CMMLU、GSM8K)的模型輸出

  • 使用Qwen2.5-72B-Instruct評估其正確性并提供詳細理由
  • 僅保留經(jīng)ground truth答案驗證的正確評估聊天型數(shù)據(jù)集:生成具有對比特征的響應對
  • 指示Qwen2.5-72B根據(jù)指定風格要求選擇更優(yōu)響應
  • 創(chuàng)建對風格敏感的判斷數(shù)據(jù)

四類訓練數(shù)據(jù)的構(gòu)成與作用

1. 增強多樣性并修正質(zhì)量的公共判斷數(shù)據(jù):提供基礎(chǔ)判斷能力

2. 通過拒絕采樣處理的公共獎勵數(shù)據(jù)(RFT數(shù)據(jù)):提升判斷一致性和泛化能力

3. 從知識型和聊天型數(shù)據(jù)集生成的合成數(shù)據(jù):增強世界知識和風格適應性

4. 通用指令數(shù)據(jù)(G-SFT數(shù)據(jù)):維持模型的通用能力

數(shù)據(jù)整理策略

  • 2024年10月時間節(jié)點的選擇依據(jù):選擇2024年10月作為時間節(jié)點,是因為在此時間點前后,LLM的能力發(fā)生了顯著變化。2024年10月之前的模型(如ChatGPT)在處理復雜推理和知識密集型任務時存在明顯局限,而之后的模型(如Qwen2.5系列)在這些方面有顯著提升。通過這一時間劃分,研究團隊能夠有效區(qū)分高質(zhì)量和低質(zhì)量的判斷數(shù)據(jù)。
  • 人工標注ground truth的具體流程:人工標注由經(jīng)驗豐富的標注團隊完成,每位標注者都經(jīng)過嚴格篩選和培訓。標注過程采用雙盲評審機制,即每個樣本由兩名獨立標注者評估,當意見不一致時,由第三方專家進行仲裁。標注指南詳細規(guī)定了各類任務的判斷標準,確保標注的一致性和可靠性。
  • 提示模板替換的實現(xiàn)細節(jié):研究團隊從ArenaHard、WildBench、MTBench等數(shù)據(jù)集中提取了超過50種不同的判斷提示模板,這些模板在措辭、結(jié)構(gòu)和側(cè)重點上各不相同。通過隨機替換原始提示模板,不僅增強了數(shù)據(jù)的多樣性,還使模型能夠適應不同風格的判斷提示,提高了其在實際應用中的魯棒性。

數(shù)據(jù)合成策略

  • 知識型數(shù)據(jù)集的具體處理流程:對于MMLU、CMMLU等知識型基準,研究團隊首先收集多個LLM在這些基準上的輸出,然后使用Qwen2.5-72B-Instruct評估這些輸出的正確性,并生成詳細的推理過程。關(guān)鍵步驟是驗證評估的正確性:將Qwen2.5-72B-Instruct的評估結(jié)果與標準答案進行比對,只有當評估結(jié)果正確時,該樣本才被納入訓練數(shù)據(jù)。這一過程確保了知識型數(shù)據(jù)的高質(zhì)量和可靠性。
  • 聊天型數(shù)據(jù)集的風格控制實現(xiàn):在聊天型數(shù)據(jù)合成中,研究團隊定義了多個風格維度,如"簡潔vs詳細"、"正式vs隨意"、"技術(shù)性vs通俗性"等。通過在提示中明確指定這些風格要求,指導Qwen2.5-72B生成具有特定風格特征的響應對。例如,在"簡潔vs詳細"維度上,要求一個響應在50字內(nèi)完成回答,而另一個響應則需提供更詳細的解釋(200字以上)。這種控制確保了風格差異的明顯性,使模型能夠?qū)W習識別不同風格的優(yōu)缺點。
  • 數(shù)據(jù)多樣性的量化評估:為確保數(shù)據(jù)多樣性,研究團隊采用了多種評估方法,包括計算不同數(shù)據(jù)源之間的語義相似度、分析主題分布的均勻性,以及評估不同任務類型的覆蓋比例。結(jié)果顯示,CompassJudger-2的訓練數(shù)據(jù)在語義空間中分布廣泛,覆蓋了多種任務類型和風格,這為其出色的泛化能力奠定了基礎(chǔ)。

數(shù)據(jù)消融實驗

數(shù)據(jù)消融實驗揭示了各類數(shù)據(jù)對模型性能的影響:

數(shù)據(jù)消融實驗結(jié)果

  • RFT數(shù)據(jù)的關(guān)鍵作用:移除RFT數(shù)據(jù)導致JudgerBenchV2性能下降2.32%,JudgeBench下降1.29%,RMB下降5.77%。這表明RFT數(shù)據(jù)對判斷一致性評估能力至關(guān)重要,特別是在RMB數(shù)據(jù)集上表現(xiàn)尤為明顯。RMB數(shù)據(jù)集評估模型判斷的一致性(Best of N方法),而RFT數(shù)據(jù)通過拒絕采樣確保了判斷的穩(wěn)定性和一致性,因此對RMB性能影響最大。
  • RFT數(shù)據(jù)對特定數(shù)據(jù)集的積極影響:RFT數(shù)據(jù)不僅提升判斷能力,還增強了模型在GPQA-Diamond和ArenaHard等特定數(shù)據(jù)集上的表現(xiàn),凸顯了其對通用能力的促進作用。例如,在GPQA-Diamond(一個高難度知識密集型基準)上,RFT數(shù)據(jù)使模型性能提升了3.41%,這表明RFT數(shù)據(jù)中的高質(zhì)量知識判斷有效增強了模型的世界知識。
  • G-SFT數(shù)據(jù)的維持作用:移除G-SFT數(shù)據(jù)對判斷能力影響有限(JudgerBenchV2僅下降0.15%),但在MMLU Pro、GPQA等客觀基準測試中導致性能下降,表明通用指令數(shù)據(jù)主要維持模型的通用能力。G-SFT數(shù)據(jù)使模型在保持專業(yè)判斷能力的同時,不會忘記基礎(chǔ)語言理解和生成能力,實現(xiàn)了專業(yè)性與通用性的平衡。
  • 數(shù)據(jù)交互效應分析:實驗還揭示了不同類型數(shù)據(jù)之間的協(xié)同效應。例如,RFT數(shù)據(jù)與合成數(shù)據(jù)的組合產(chǎn)生了1+1>2的效果:當同時擁有這兩類數(shù)據(jù)時,JudgerBenchV2性能比單獨使用任一類數(shù)據(jù)時高出1.83%。這表明多樣化的數(shù)據(jù)來源能夠互補,共同提升模型的綜合能力。
  • 數(shù)據(jù)量與性能的關(guān)系:研究團隊還分析了數(shù)據(jù)量與模型性能的關(guān)系,發(fā)現(xiàn)判斷能力的提升與訓練數(shù)據(jù)量呈近似對數(shù)關(guān)系。當數(shù)據(jù)量達到一定規(guī)模后(約50萬樣本),性能提升逐漸放緩,這為未來數(shù)據(jù)收集提供了重要參考。

這些發(fā)現(xiàn)強調(diào)了多維度數(shù)據(jù)構(gòu)建策略的重要性:通過整合不同類型的數(shù)據(jù)源,CompassJudger-2不僅增強了判斷能力,還保持了良好的通用能力,實現(xiàn)了專業(yè)性與通用性的平衡。

有了高質(zhì)量的判斷模型和嚴謹?shù)臄?shù)據(jù)構(gòu)建策略,還需要一個可靠的評估基準來驗證其性能。JudgerBenchV2作為CompassJudger-2的配套評估基準,通過混合判斷者策略和創(chuàng)新指標,實現(xiàn)了對判斷模型更全面、可靠的評估。

評估基準:JudgerBenchV2

現(xiàn)有基準的局限性分析

現(xiàn)有判斷模型基準存在明顯不足:

  • RewardBench:專注于評估模型在聊天、困難聊天、推理和安全性四個類別中的獎勵能力,但面臨數(shù)據(jù)過時和評估場景有限的問題,導致許多模型在RewardBench上過擬合。
  • JudgeBench:基于模型確定MMLU-Pro和LiveCodeBench等數(shù)據(jù)集中答案正確性的能力評估判斷模型,測試其回答事實性問題的知識基礎(chǔ),但對評判任務的覆蓋不夠全面。
  • RMB:引入Best of N(BoN)方法,通過比較模型進行多次判斷來評估模型判斷的一致性,但仍未涵蓋足夠廣泛的評估場景。

JudgerBenchV2的創(chuàng)新設(shè)計

JudgerBenchV2的核心價值:作為判斷模型評估的新標準,它首次建立特定類別的判斷標準,通過混合判斷者策略和創(chuàng)新指標,實現(xiàn)更穩(wěn)健的評估,為未來判斷模型開發(fā)提供明確的評估框架和目標。

JudgerBenchV2作為CompassJudger-2的配套評估基準,解決了現(xiàn)有基準的局限性:

混合判斷者(MoJ)策略

  • 模型選擇依據(jù):JudgerBenchV2選擇DeepSeek-R1、DeepSeek-V3-0324和Qwen3-235B-A22B作為混合判斷者,主要基于三點考慮:(1)這些模型在多個基準測試中表現(xiàn)優(yōu)異;(2)它們在架構(gòu)和訓練數(shù)據(jù)上具有多樣性;(3)它們在評判任務上表現(xiàn)出互補的優(yōu)勢。例如,DeepSeek-R1在推理任務上突出,Qwen3-235B在知識密集型任務上表現(xiàn)優(yōu)異。
  • 多數(shù)共識機制的細節(jié):MoJ策略采用嚴格的多數(shù)共識規(guī)則:當三個判斷者中有至少兩個同意某一判斷時,該判斷被視為ground truth。當出現(xiàn)1:1:1的平局時,JudgerBenchV2采用額外的驗證步驟:首先檢查判斷理由的合理性,其次參考更廣泛的社區(qū)共識,最后由人工專家進行仲裁。這種機制有效減少了單一判斷者的系統(tǒng)性偏差。
  • MoJ與單一判斷者的對比:實驗表明,MoJ策略顯著降低了判斷的主觀性。與單一判斷者相比,MoJ策略使判斷結(jié)果的方差降低了37.6%,特別是在開放式問題上效果更為明顯。這證明了MoJ策略在建立可靠ground truth方面的有效性。

10,000問題覆蓋10個場景

  • K-means聚類的具體參數(shù):JudgerBenchV2通過CompassArena收集了超過100,000個真實用戶查詢(中英文),使用BERT嵌入作為特征表示,采用K-means聚類(K=100)將查詢分組。然后,通過人工審核將這些聚類歸納為10個有意義的場景類別,確保每個場景具有明確的語義邊界。
  • LLM分類難度級別的實現(xiàn):難度分類采用兩步法:首先,使用Qwen2.5-72B-Instruct對每個查詢生成難度評估(簡單、中等、困難);其次,通過人工抽樣驗證和調(diào)整,確保難度分類的準確性。最終,每個場景的100個查詢按1:1:1的比例分配簡單、中等和困難級別,實現(xiàn)難度平衡。
  • 場景平衡的具體措施:為確保語言和難度級別的平衡分布,JudgerBenchV2采用分層抽樣策略:首先,將查詢按語言(中文/英文)和難度(簡單/中等/困難)分層;然后,在每個子層中隨機抽取固定數(shù)量的樣本;最后,通過人工審核調(diào)整,確保每個場景的查詢在語言和難度上均衡分布。

雙維度評估指標

JudgerBenchV2基準測試詳細結(jié)果

RMB基準測試詳細結(jié)果

RewardBench基準測試詳細結(jié)果

指標設(shè)計的理論依據(jù):JudgerBenchV2的雙維度評估指標設(shè)計基于一個重要觀察:人類評分者經(jīng)常在整體模型排名上達成一致,盡管他們可能在個別樣本上存在分歧。例如,在LLM評估中,不同評分者可能對單個回答有不同偏好,但對模型的總體能力排名往往相似。樣本級準確率衡量模型在單個判斷上的準確性,而排名一致性衡量模型在整體能力評估上的可靠性。兩者結(jié)合提供了更全面的評估視角。

指標對模型評估的影響:使用雙維度指標改變了模型評估的結(jié)果。例如,RISE-Judge-Qwen2.5-7B在樣本級準確率上表現(xiàn)良好(46.12),但在排名一致性上較差,導致其綜合得分較低(46.12)。相比之下,CompassJudger-2-7B-Instruct在兩項指標上都表現(xiàn)優(yōu)異,實現(xiàn)了更高的綜合得分(60.52)。這表明雙維度指標能夠更準確地反映判斷模型的實際能力。

指標的敏感性分析:研究團隊對指標參數(shù)進行了敏感性分析,發(fā)現(xiàn)排名差異和分數(shù)差異的權(quán)重比為1:1時效果最佳。當排名差異權(quán)重過高時,指標過于關(guān)注整體排名而忽略單個判斷的準確性;當分數(shù)差異權(quán)重過高時,指標對微小的分數(shù)波動過于敏感。1:1的權(quán)重比在各種測試場景中表現(xiàn)最穩(wěn)定。

綜合性能指標:

評估流程標準化

JudgerBenchV2建立了標準化的評估流程:

1. 10個高性能模型的選擇標準:研究團隊從公開排行榜中選取了10個性能接近的模型,包括Qwen2.5系列、Llama3.1系列和InternLM3系列等。選擇標準包括:(1)在主流基準測試中的綜合得分;(2)模型規(guī)模的代表性(覆蓋7B-70B);(3)架構(gòu)多樣性(包含不同訓練方法的模型)。這些模型在多個基準測試中的性能差異控制在5%以內(nèi),確保了評估的公平性。

2. GPT-4o-mini作為策略模型的原因:選擇GPT-4o-mini作為策略模型,主要基于其在響應質(zhì)量和一致性方面的優(yōu)異表現(xiàn)。與更大版本的GPT-4相比,GPT-4o-mini在保持高質(zhì)量的同時,響應速度更快、成本更低,更適合大規(guī)模評估任務。實驗證明,GPT-4o-mini與其他高性能模型的配對結(jié)果具有高度一致性(r=0.92)。

3. 評估結(jié)果的置信度分析:JudgerBenchV2采用多次評估的方法計算結(jié)果的置信區(qū)間。每個評判任務由三個不同的判斷者獨立評估,最終結(jié)果取中位數(shù)。通過這種方法,JudgerBenchV2能夠提供評估結(jié)果的標準差和95%置信區(qū)間,增強了評估的可靠性和可解釋性。

JudgerBenchV2的行業(yè)意義

JudgerBenchV2作為判斷模型評估的新標準,具有重要行業(yè)意義:

  • 首次建立特定類別的判斷標準,提供更細致的評估維度
  • 通過混合判斷者策略和創(chuàng)新指標,實現(xiàn)更穩(wěn)健的評估
  • 為未來判斷模型開發(fā)提供明確的評估框架和目標
  • 推動判斷模型評估從單一準確率向綜合評估體系演進

評估基準的革新為判斷模型提供了更全面的驗證標準,而實證分析則進一步驗證了CompassJudger-2的實際性能優(yōu)勢。接下來,我們將通過具體數(shù)據(jù)對比,展示CompassJudger-2如何在多項基準測試中超越現(xiàn)有最佳模型。

性能對比與實證分析

CompassJudger-2 vs CompassJudger-1

CompassJudger-2相比前代模型實現(xiàn)了顯著性能提升:

  • JudgerBenchV2:60.52 vs 57.96,提升2.56個百分點
  • JudgeBench:63.06 vs 46.00,提升17.06個百分點(7B版本)
  • RMB:73.90 vs 77.63(32B版本),保持穩(wěn)定
  • RewardBench:90.96 vs 83.20,提升7.76個百分點

這些提升主要歸因于可驗證獎勵機制、批判性思維鏈數(shù)據(jù)生成和拒絕采樣策略。特別是在JudgeBench上的顯著改進,表明CompassJudger-2在知識密集型查詢上的判斷能力大幅提升,解決了前代模型的主要局限。

與行業(yè)領(lǐng)先模型的對比

CompassJudger-2在多項基準測試中超越了現(xiàn)有最佳模型:

判斷基準測試的主要結(jié)果

通用基準測試的結(jié)果

  • 7B小模型媲美超大規(guī)模模型:CompassJudger-2-7B在JudgerBenchV2上達到60.52,接近Qwen3-235B(61.40)
  • RewardBench上的領(lǐng)先:90.96 vs DeepSeek-V3(85.17)和Qwen3-235B(84.68)
  • JudgeBench上的卓越表現(xiàn):63.06 vs RISE-Judge-Qwen2.5-7B(38.06),提升25.00
  • 跨領(lǐng)域泛化能力:在所有基準測試中保持領(lǐng)先,平均得分72.11 vs RISE-Judge-Qwen2.5-7B(61.61)

值得注意的是,CompassJudger-2-7B模型在判斷準確性上能與顯著更大的模型相媲美,這證明了其數(shù)據(jù)構(gòu)建策略和訓練方法的有效性。模型規(guī)模效率的提升使高質(zhì)量判斷服務在資源受限環(huán)境中更具可行性。

風格判斷能力測試

風格判斷能力的核心價值:這一能力驗證了CompassJudger-2對提示變化的適應能力,證明其判斷能力不依賴于特定提示模板,而是真正理解了評判任務的本質(zhì)。

風格判斷能力測試揭示了CompassJudger-2在提示敏感性方面的顯著優(yōu)勢:

CompassJudger-2和RISE在風格判斷上的比較結(jié)果

  • 修改判斷提示后(添加"用戶偏好更詳細的響應"等要求),RISE-32B在Chat Hard子集性能下降10.67%
  • 相比之下,CompassJudger-2-32B僅下降0.27%,表現(xiàn)出極強的提示魯棒性
  • 在其他子集(如Chat、Safety、Reasoning)中,CompassJudger-2也表現(xiàn)出更小的性能波動

提示敏感性分析的深入解讀:上圖詳細展示了不同模型在修改提示前后的性能變化:RISE系列模型在Chat Hard子集上的性能下降最為顯著(10.67%),這表明它們對提示變化特別敏感;而CompassJudger-2系列模型在所有子集上的性能波動均控制在1%以內(nèi),展示了卓越的穩(wěn)定性。

這種魯棒性對于實際應用至關(guān)重要,因為在不同場景下可能需要調(diào)整判斷提示以適應特定需求。例如,在教育場景中,可能需要強調(diào)解釋的清晰度;在技術(shù)場景中,可能更關(guān)注答案的準確性。CompassJudger-2的提示魯棒性使其能夠靈活適應這些變化,而不會顯著降低判斷質(zhì)量。

批判能力的實質(zhì)性提升

批判能力是判斷模型價值的關(guān)鍵體現(xiàn)。表5展示了CompassJudger-2在模型改進方面的實質(zhì)性貢獻:

基于聊天數(shù)據(jù)集生成的批判對模型改進的效果

  • 當策略模型(如LLama3.1-8B-Instruct、Qwen2.5-7B-Instruct、InternLM3-8B-Instruct)基于CompassJudger-2的批判進行響應修訂時,在AlignBench、AlpacaEval和ArenaHard等主觀數(shù)據(jù)集上均取得顯著提升
  • 相比之下,使用RISE-Judge-Qwen2.5-7B作為批判模型往往導致性能下降
  • 例如,Qwen2.5-7B-Instruct在CompassJudger-2批判指導下,ArenaHard得分從47.86提升至51.15
### Critique Example-Prompt

Below is a user's question and a model's response. Please help identify the strengths and weaknesses of the model's reply so that it can better address the user's question.

The user's question is as follows: Write a poem about winter, requiring each sentence to be exactly five words long, and without using the words "winter" or "snow," yet still evoking a sense of the season.

The model's response is as follows: Frost paints silent trees. Chill lingers in the air. Footsteps fade on paths. Windows gleam with light. Hushed, the world awaits.

Now, please provide your feedback, highlighting the strengths and areas for improvement in the model's response.

譯文:

### 批判示例提示

以下是一個用戶的問題和模型的回復。請幫助識別該回復的優(yōu)勢和弱點,以便它能更好地解決用戶的問題。

用戶的問題如下:寫一首關(guān)于冬天的詩,要求每句恰好五個字,并且不能使用"冬天"或"雪"這些詞,但仍要喚起季節(jié)的感覺。

模型的回復如下:Frost paints silent trees. Chill lingers in the air. Footsteps fade on paths. Windows gleam with light. Hushed, the world awaits.

現(xiàn)在,請?zhí)峁┠愕姆答仯怀瞿P突貜偷膬?yōu)勢和需要改進的方面。

批判質(zhì)量的深度分析:批判示例進一步揭示了質(zhì)量差異。在詩歌創(chuàng)作任務中(要求寫一首關(guān)于冬天的詩,每句五個字,且不能使用"winter"或"snow"),RISE-Judge-Qwen2.5-7B錯誤地建議"將'Frost paints silent trees'改為'Snow blankets silent trees'",這直接違反了用戶的明確要求。而CompassJudger-2-7B-Instruct則提供了更精準、有建設(shè)性的反饋,指出"可以增加不同感官細節(jié)(如聲音、氣味)使詩歌更沉浸",同時嚴格遵守了用戶的約束條件。

這種高質(zhì)量批判能力使CompassJudger-2不僅是一個判斷工具,更是模型迭代改進的有力助手。批判能力的提升直接源于可驗證獎勵機制和批判性思維鏈訓練:通過監(jiān)督模型生成符合ground truth的批判,CompassJudger-2學會了如何提供既準確又有建設(shè)性的反饋,這對于LLM的持續(xù)優(yōu)化具有重要價值。盡管CompassJudger-2在實驗上取得了很好的成績,但它仍面臨一些挑戰(zhàn),這些挑戰(zhàn)也為未來應用火研究指明了方向。下面,我們探討當前局限性。

### Critique Example-RISE-Judge-Qwen2.5-7B Answer

Strengths of the Model's Response:
1. Conciseness and Adherence to Word Count: Each sentence is exactly five words long, as requested by the user.
2. Evocation of Winter: The response effectively evokes the sense of winter without explicitly using the words "winter" or "snow." Phrases like "Frost paints silent trees" and "Chill lingers in the air" convey the cold and serene aspects of winter.
3. Imagery and Atmosphere: The response uses vivid imagery to create a strong sense of atmosphere. Descriptions such as "Footsteps fade on paths" and "Windows gleam with light" paint a clear picture of a winter scene.
4. Coherence and Flow: The sentences flow well together, creating a coherent and engaging poem.

Areas for Improvement:
1. Inclusion of "Snow": While the user specifically asked to avoid the word "snow," it is a common and essential element of winter that could be subtly included to enhance the evocation of the season. For example, "Frost paints silent trees" could be modified to "Snow blankets silent trees" to strengthen the winter theme.
2. Variety in Sentence Structure: The response has a consistent structure with each sentence being a simple statement. Introducing a bit of variation in sentence structure could add to the poetic quality, such as using a question or exclamation to create a different tone or emphasis.
3. Enhancing Emotional Depth: While the response is atmospheric, adding a bit more emotional depth or personal touch could make the poem more engaging. For example, describing the "hushed, waiting world" as "yearning for spring" could add a layer of emotional resonance.

Overall, the model's response is strong and meets most of the user's requirements effectively. However, subtle adjustments could enhance its impact and completeness.

譯文:

### 批判示例-RISE-Judge-Qwen2.5-7B 回答

模型回復的優(yōu)勢:
1. 簡潔性和字數(shù)遵守:每句恰好五個字,符合用戶要求。
2. 冬季氛圍營造:回復有效地喚起了冬季的感覺,而沒有直接使用"冬天"或"雪"這些詞。像"Frost paints silent trees"和"Chill lingers in the air"這樣的短語傳達了冬季的寒冷和寧靜。
3. 意象和氛圍:回復使用生動的意象來營造強烈的氛圍。"Footsteps fade on paths"和"Windows gleam with light"等描述清晰地描繪了冬季場景。
4. 連貫性和流暢性:句子之間銜接良好,形成了連貫且引人入勝的詩歌。

需要改進的方面:
1. "雪"的包含:雖然用戶特別要求避免使用"snow"這個詞,但它是冬季常見且基本的元素,可以微妙地包含以增強季節(jié)感。例如,"Frost paints silent trees"可以修改為"Snow blankets silent trees"以加強冬季主題。
2. 句子結(jié)構(gòu)的多樣性:回復的結(jié)構(gòu)一致,每句都是簡單陳述。引入一些句子結(jié)構(gòu)的變化可以增加詩歌質(zhì)量,例如使用問句或感嘆句來創(chuàng)造不同的語氣或重點。
3. 增強情感深度:雖然回復有氛圍感,但增加一些情感深度或個人色彩可以使詩歌更具吸引力。例如,將"hushed, waiting world"描述為"yearning for spring"可以增添一層情感共鳴。

總體而言,模型的回復很強,有效地滿足了用戶的大部分要求。然而,細微的調(diào)整可以增強其影響力和完整性。

技術(shù)挑戰(zhàn)與未來方向

當前局限性

CompassJudger-2 目前仍面臨一些挑戰(zhàn):

  • 拒絕采樣帶來的推理成本問題:生成8個候選響應進行過濾的過程增加了推理成本,可能影響實際應用中的效率。在資源受限的環(huán)境中,這種額外開銷可能成為部署的障礙。
  • 數(shù)據(jù)合成中的幻覺風險:LLM在合成數(shù)據(jù)時可能產(chǎn)生幻覺,帶來潛在風險。特別是在知識密集型任務中,模型可能生成看似合理但實際錯誤的判斷。
  • 知識密集型查詢的評估挑戰(zhàn):盡管有所改進,但在高度專業(yè)領(lǐng)域的判斷準確性仍有提升空間。例如,在醫(yī)學、法律等專業(yè)領(lǐng)域,模型可能缺乏足夠的專業(yè)知識來做出準確判斷。

未來發(fā)展

針對當前局限,未來應用、研究方向包括:

  • 從文本到多模態(tài)判斷模型的擴展:比如可以將CompassJudger-2擴展到多模態(tài)和交互式評估場景的潛力。多模態(tài)判斷模型將能夠評估圖像、音頻和視頻內(nèi)容,滿足更廣泛的應用需求。
  • 交互式評估與動態(tài)反饋機制:開發(fā)能夠根據(jù)用戶反饋動態(tài)調(diào)整判斷標準的模型,使評估過程更加靈活和個性化。例如,模型可以根據(jù)用戶的特定偏好調(diào)整判斷權(quán)重。
  • 評估標準的社區(qū)共建與標準化:推動行業(yè)共識,建立更全面、公正的評估體系。通過社區(qū)協(xié)作,不斷改進評估標準和方法,提高判斷模型的可靠性和公信力。

總結(jié)

CompassJudger-2代表了通用判斷模型發(fā)展的新高度,其核心價值在于通過可驗證獎勵機制顯著提升了判斷準確性和魯棒性。研究證明,將真實標簽作為明確指導信號進行優(yōu)化,結(jié)合批判性思維鏈和拒絕采樣技術(shù),能有效培養(yǎng)模型的內(nèi)在批判性推理能力。

多領(lǐng)域數(shù)據(jù)構(gòu)建策略被證實對增強模型泛化能力至關(guān)重要。CompassJudger-2的數(shù)據(jù)流水線通過整合公共判斷數(shù)據(jù)、獎勵數(shù)據(jù)、知識型數(shù)據(jù)和聊天型數(shù)據(jù),實現(xiàn)了專業(yè)性與通用性的平衡,使模型能在多種評判任務中保持高性能。這種"數(shù)據(jù)即評估"的理念,為AI模型的持續(xù)迭代提供了可靠反饋閉環(huán),使評估真正成為模型進化的驅(qū)動力而非事后檢驗。

評估標準的演進從單一準確率向綜合評估體系轉(zhuǎn)變,JudgerBenchV2通過樣本級準確率和排名一致性雙維度評估,提供了更全面、可靠的判斷模型評估方法。這一范式轉(zhuǎn)變對AI應用落地具有深遠啟示:在金融風控、醫(yī)療診斷、法律咨詢等高風險領(lǐng)域,評估不應僅關(guān)注單點準確性,更要考察系統(tǒng)在整體決策邏輯上的一致性與可靠性。

CompassJudger-2的技術(shù)哲學在于平衡專業(yè)性與通用性的新范式,它證明了通過精心設(shè)計的訓練策略和數(shù)據(jù)構(gòu)建方法,可以開發(fā)出既專業(yè)又通用的判斷模型。這一突破為LLM評估領(lǐng)域樹立了新標準,也為AI應用落地提供了關(guān)鍵基礎(chǔ)設(shè)施——可靠的評估能力是AI系統(tǒng)走向成熟、獲得用戶信任的必經(jīng)之路。

圖片圖片

CompassJudger-2 已在GitHub開源(見參考資料),為研究社區(qū)提供高質(zhì)量的判斷模型。開源內(nèi)容包括模型權(quán)重、訓練代碼和評估工具,促進了技術(shù)的廣泛傳播和應用。

我為了方便大家在本地的低資源環(huán)境的部署使用,在周末特意制作了量化校準的版本。

模型倉庫地址在此??  https://www.modelscope.cn/collections/CompassJudger-2-Int-MixedPrecision-2b29a85183174f

責任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-07-24 11:41:47

2014-12-08 14:25:30

2024-12-04 11:09:10

2011-06-20 15:12:48

微軟木馬

2011-07-12 23:37:01

ITSS

2025-05-30 04:00:00

IBMRLVRGRPO

2025-09-12 09:05:00

2022-07-18 10:05:16

AI挑戰(zhàn)方案

2025-07-01 09:05:28

2015-04-27 18:53:21

H3Cloud/華三

2010-02-23 11:06:16

WCF可信賴會話

2025-08-04 09:20:07

2025-08-01 01:00:00

AI AgentRWA代幣化Agent

2023-12-23 23:29:15

數(shù)據(jù)材料LK-99

2018-08-03 17:03:00

商用軟件

2025-09-23 01:00:00

2025-05-30 02:00:00

獎勵模型RRMAI
點贊
收藏

51CTO技術(shù)棧公眾號