偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="lvjie"><strong id="lvjie"></strong></dfn>

<nav id="lvjie"><strong id="lvjie"></strong></nav>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

字節(jié)新推理模型逆襲DeepSeek，200B參數(shù)戰(zhàn)勝671B，豆包史詩級(jí)加強(qiáng)？

作者：量子位 2025-04-11 12:10:33

人工智能新聞

字節(jié)Seed團(tuán)隊(duì)聚焦大規(guī)模強(qiáng)化學(xué)習(xí)，并從三個(gè)角度提升了推理表現(xiàn)：數(shù)據(jù)、RL算法和RL基礎(chǔ)設(shè)施。

字節(jié)最新深度思考模型，在數(shù)學(xué)、代碼等多項(xiàng)推理任務(wù)中超過DeepSeek-R1了？而且參數(shù)規(guī)模更小。

同樣是MoE架構(gòu)，字節(jié)新模型Seed-Thinking-v1.5有200B總參數(shù)和20B激活參數(shù)。

對(duì)比DeepSeek-R1的671B總參數(shù)和37B激活參數(shù)，可以算得上輕量級(jí)了。

目前，完整的技術(shù)報(bào)告已公開發(fā)布，其中揭示了諸多秘訣。

字節(jié)Seed團(tuán)隊(duì)聚焦大規(guī)模強(qiáng)化學(xué)習(xí)，并從三個(gè)角度提升了推理表現(xiàn)：數(shù)據(jù)、RL算法和RL基礎(chǔ)設(shè)施。

可驗(yàn)證與不可驗(yàn)證問題

從數(shù)據(jù)開始說起，字節(jié)團(tuán)隊(duì)把RL訓(xùn)練數(shù)據(jù)分為兩個(gè)部分，具有明確答案的可驗(yàn)證問題和沒有明確答案的不可驗(yàn)證問題，采用不同的獎(jiǎng)勵(lì)建模方法。

這其中，模型的推理能力主要來自可驗(yàn)證問題，并可以推廣到不可驗(yàn)證問題。

可驗(yàn)證問題包括問題與答案配對(duì)的STEM問題、附帶單元測(cè)試的代碼問題，以及適合自動(dòng)驗(yàn)證的邏輯推理問題（24點(diǎn)、迷宮、數(shù)獨(dú)等）。

不可驗(yàn)證問題主要包括根據(jù)人類偏好評(píng)估的非推理任務(wù)，如創(chuàng)意寫作、翻譯、知識(shí)QA、角色扮演等。

對(duì)于不可驗(yàn)證問題，字節(jié)團(tuán)隊(duì)丟棄了樣本分?jǐn)?shù)方差低、難度低的數(shù)據(jù)。此類數(shù)據(jù)可能過于簡單或已在數(shù)據(jù)集中大量表示。離線實(shí)驗(yàn)表明，過度優(yōu)化此類樣本會(huì)導(dǎo)致模型的探索空間過早崩潰并降低性能。

此外，團(tuán)隊(duì)還打造了全新數(shù)學(xué)推理評(píng)測(cè)集BeyondAIME。

當(dāng)前的推理模型通常使用AIME作為評(píng)估數(shù)學(xué)推理能力的首選基準(zhǔn)，但該基準(zhǔn)每年只發(fā)布30個(gè)問題，有限的規(guī)?？赡軙?huì)導(dǎo)致高方差的評(píng)估結(jié)果，難以有效區(qū)分最先進(jìn)的推理模型。

字節(jié)與數(shù)學(xué)專家合作，根據(jù)既定的比賽形式開發(fā)原創(chuàng)問題。通過結(jié)構(gòu)修改和情景重新配置來系統(tǒng)地調(diào)整現(xiàn)有的比賽問題，確保不會(huì)發(fā)生直接重復(fù)。此外還確保答案不是容易猜的數(shù)值（例如問題陳述中明確提到的數(shù)字），以減少模型在沒有適當(dāng)推理的情況下猜出正確答案的機(jī)會(huì)。

RL算法

強(qiáng)化學(xué)習(xí)雖然強(qiáng)大，但訓(xùn)練起來也很不穩(wěn)定，經(jīng)常崩潰。

字節(jié)在技術(shù)報(bào)告中提到”有時(shí)，兩次運(yùn)行之間的分?jǐn)?shù)差異可能高達(dá)10分”。

針對(duì)這個(gè)問題，團(tuán)隊(duì)提出了VAPO和DAPO兩個(gè)RL框架，分別從基于價(jià)值和無價(jià)值的RL范式出發(fā)來穩(wěn)定訓(xùn)練。

VAPO和DAPO兩篇論文都已單獨(dú)發(fā)布。

此外，在Seed-Thining-v1.5中，還借鑒了之前學(xué)術(shù)界工作中的很多關(guān)鍵技術(shù)：

價(jià)值預(yù)訓(xùn)練(Value-Pretraining)，保證價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)一致
解耦的GAE(Decoupled-GAE)，讓兩個(gè)網(wǎng)絡(luò)更獨(dú)立高效
長度自適應(yīng)GAE(Length-adaptive GAE)，更好處理不同長度序列
解耦PPO損失(Clip-Higher)，為低概率token的增長創(chuàng)造，了更多空間鼓勵(lì)模型探索新方案
Token級(jí)損失(Token-level Loss)，平衡每個(gè)token對(duì)訓(xùn)練過程的影響。
正例增強(qiáng)(Postive Example LM Loss)，提高RL訓(xùn)練過程中正樣本的利用效率，從而提高模型整體性能

RL基礎(chǔ)設(shè)施

在Long-CoT生成過程中，字節(jié)團(tuán)隊(duì)觀察到各種提示詞之間的響應(yīng)長度差異較大，在生成過程中出現(xiàn)大量GPU空閑時(shí)間。

為了緩解長尾響應(yīng)生成的滯后問題，提出了SRS（流式Rollout系統(tǒng)），一種資源感知型調(diào)度框架，可戰(zhàn)略性地部署獨(dú)立的流式計(jì)算單元，將系統(tǒng)約束從內(nèi)存綁定轉(zhuǎn)換為計(jì)算綁定。

為了有效地大規(guī)模訓(xùn)練，團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)混合分布式訓(xùn)練框架，集成高級(jí)并行策略、動(dòng)態(tài)工作負(fù)載平衡和內(nèi)存優(yōu)化：

并行機(jī)制：將TP （張量并行）/EP （專家并行）/CP （上下文并行）與全分片數(shù)據(jù)并行（FSDP）組合在一起，具體來說，將TP/CP 應(yīng)用于注意力層，將EP應(yīng)用于 MoE 層。
序列長度平衡：DP等級(jí)之間的有效序列長度可能不平衡，導(dǎo)致計(jì)算工作量不平衡和訓(xùn)練效率低下。利用KARP算法在一個(gè)mini-batch內(nèi)重新排列輸入序列，使它們?cè)趍icro-batch之間保持平衡。
內(nèi)存優(yōu)化：采用逐層重新計(jì)算、激活卸載和優(yōu)化器卸載來支持更大micro-batch的訓(xùn)練，以覆蓋FSDP引起的通信開銷。
自動(dòng)并行：為了實(shí)現(xiàn)最佳系統(tǒng)性能，開發(fā)了AutoTuner 自動(dòng)調(diào)整系統(tǒng)，按照基于配置文件的解決方案對(duì)內(nèi)存使用情況進(jìn)行建模。然后估計(jì)各種配置的性能和內(nèi)存使用情況以獲得最優(yōu)配置。
檢查點(diǎn)：使用ByteCheckpoint支持從不同的分布式配置中以最小的開銷恢復(fù)檢查點(diǎn)，彈性訓(xùn)練以提高集群效率。

最終，在多項(xiàng)自動(dòng)評(píng)估中，Seed-Thinking-v1.5在AIME 2024基準(zhǔn)測(cè)試中取得86.7，與OpenAI的o3-mini-high模型的性能相當(dāng)。但在最近的AIME 2025和BeyondAIME中，Seed-Thinking-v1.5仍然落后于o3級(jí)別的性能。

對(duì)于GPQA任務(wù)，Seed-Thinking-v1.5達(dá)到77.3%的準(zhǔn)確率，接近o3-mini-high的性能。

在Codeforces等代碼生成場(chǎng)景中，Seed-Thinking-v1.5的性能與Gemini 2.5 Pro 的性能相當(dāng)，但仍落后于o3-mini-high。

Seed-Thinking-v1.5在SimpleQA上的表現(xiàn)不太理想。但團(tuán)隊(duì)認(rèn)為，該基準(zhǔn)測(cè)試預(yù)訓(xùn)練模型規(guī)模的相關(guān)性更強(qiáng)，而不是考驗(yàn)推理能力。

許多人看完這篇技術(shù)報(bào)告，都很感興趣，不過找了一圈也沒找到模型在哪發(fā)布。

從技術(shù)報(bào)告的口徑來看，該模型與目前豆包中的Doubao-1.5 Pro并不是一回事。

但從作者名單看，這是由字節(jié)Seed團(tuán)隊(duì)負(fù)責(zé)人吳永輝帶隊(duì)，主要成員都參與的大項(xiàng)目。

那么是否將來會(huì)部署到豆包APP，可以期待一波了。

論文地址：
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

責(zé)任編輯：張燕妮來源：量子位

強(qiáng)化學(xué)習(xí)模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<var id="9mb1i"></var>

<dfn id="9mb1i"><fieldset id="9mb1i"></fieldset></dfn>

<var id="9mb1i"><strong id="9mb1i"></strong></var>