偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首個(gè)開(kāi)源實(shí)現(xiàn)100%可復(fù)現(xiàn)的穩(wěn)定RL訓(xùn)練框架來(lái)了!2次結(jié)果完全重合

人工智能 新聞
自從這篇博客發(fā)布后,業(yè)界反響熱烈,一直期待開(kāi)源推理引擎能實(shí)現(xiàn)穩(wěn)定可用的確定性推理,或者更進(jìn)一步,實(shí)現(xiàn)完全可復(fù)現(xiàn)的RL訓(xùn)練。而現(xiàn)在,SGLang和slime一起給出了答案。

開(kāi)源框架實(shí)現(xiàn)100%可復(fù)現(xiàn)的穩(wěn)定RL訓(xùn)練!

下圖是基于Qwen3-8B進(jìn)行的重復(fù)實(shí)驗(yàn)。兩次運(yùn)行,一條曲線,實(shí)現(xiàn)了結(jié)果的完美重合,為需要高精度復(fù)現(xiàn)的實(shí)驗(yàn)場(chǎng)景提供了可靠保障。

這就是SGLang團(tuán)隊(duì)聯(lián)合slime團(tuán)隊(duì)的最新開(kāi)源成果。

近期,Thinking Machines Lab (由 OpenAI 前 CTO Mira Murati 創(chuàng)立) 發(fā)布了一篇文章——《克服LLM推理中的不確定性》,指出問(wèn)題的核心在于缺乏批次不變性 (batch invariance)。

自從這篇博客發(fā)布后,業(yè)界反響熱烈,一直期待開(kāi)源推理引擎能實(shí)現(xiàn)穩(wěn)定可用的確定性推理,或者更進(jìn)一步,實(shí)現(xiàn)完全可復(fù)現(xiàn)的RL訓(xùn)練。而現(xiàn)在,SGLang和slime一起給出了答案。

SGLang團(tuán)隊(duì)在Thinking Machines Lab發(fā)布的批次不變算子基礎(chǔ)之上,通過(guò)定制一系列注意力算子和采樣邏輯,實(shí)現(xiàn)了完全確定性推理。該實(shí)現(xiàn)同時(shí)保持與分塊預(yù)填充 (chunked prefill)、CUDA Graph、Radix Cache 和非貪婪采樣 (non-greedy sampling) 等關(guān)鍵功能的兼容性。

利用CUDA Graph,SGLang可以實(shí)現(xiàn)2.8倍的加速。與 Thinking Machines Lab博客中報(bào)告的61.5%性能下降相比,SGLang在FlashInfer和FlashAttention 3后端平均僅有34.35%的性能下降。

在此基礎(chǔ)上,SGLang團(tuán)隊(duì)聯(lián)合slime團(tuán)隊(duì)一起,以極少代碼實(shí)現(xiàn)了完全可復(fù)現(xiàn)的穩(wěn)定RL訓(xùn)練,具體細(xì)節(jié)現(xiàn)在全面公開(kāi)。

問(wèn)題的本質(zhì):為什么LLM推理不確定?

從大語(yǔ)言模型(LLM)推理中獲得一致輸出的能力越來(lái)越重要。例如,推理結(jié)果的不確定性可能會(huì)隱式地將在線策略強(qiáng)化學(xué)習(xí)(RL)轉(zhuǎn)換為離線策略RL。然而,即使將溫度降到0,由于使用了動(dòng)態(tài)批處理(Dynamic Batching) 和基數(shù)緩存(Radix Cache),采樣仍然不是確定性的。

Thinking Machines Lab的研究發(fā)現(xiàn),不確定性的最大來(lái)源是變化的批次大?。?/span>即使用戶重復(fù)提交相同的提示,輸出也可能在不同的運(yùn)行中有所變化,因?yàn)檎?qǐng)求可能與其他用戶的請(qǐng)求一起批處理,批次大小的差異導(dǎo)致不確定的推理結(jié)果。

更具體地說(shuō),不同的批次大小會(huì)影響內(nèi)核的歸約(reduction)分割過(guò)程。這導(dǎo)致每個(gè)歸約塊的順序和大小變化,由于浮點(diǎn)運(yùn)算的非結(jié)合性,可能導(dǎo)致不確定的輸出。為了解決這個(gè)問(wèn)題,他們實(shí)現(xiàn)了批次不變(batch invariant) 的歸約算子(RMSNorm、Matmul)。這些算子也作為配套庫(kù)發(fā)布供外部集成。

在Thinking Machines Lab工作的基礎(chǔ)上,SGLang提供了強(qiáng)大、高吞吐量的確定性 LLM 推理解決方案,將批次不變(batch invariant)算子、CUDA 圖、基數(shù)緩存和分塊預(yù)填充與高效性能相結(jié)合。通過(guò)全面的測(cè)試和強(qiáng)化學(xué)習(xí)訓(xùn)練實(shí)驗(yàn),其確定性得到了充分驗(yàn)證。

主要增強(qiáng)功能包括:

  • 集成Thinking Machines Lab的批次不變(batch invariant)算子。
  • 實(shí)現(xiàn)固定KV分割大小的批次不變注意力算子。支持多種后端,包括 FlashInfer、FlashAttention 3和Triton。
  • 與關(guān)鍵推理性能相關(guān)功能完全兼容,例如分塊預(yù)填充、CUDA圖、基數(shù)緩存等,當(dāng)啟用確定性推理時(shí),所有這些功能都仍受支持。
  • 支持按請(qǐng)求設(shè)置采樣種子(per-request sampling seed),即使在temperature>0的非貪婪采樣模式下也能實(shí)現(xiàn)確定性推理。

實(shí)驗(yàn)結(jié)果

確定性評(píng)估

引入了一個(gè)確定性測(cè)試,以驗(yàn)證推理結(jié)果在不同批處理?xiàng)l件下是否保持一致。該測(cè)試包含三個(gè)子測(cè)試,難度循序漸進(jìn):

  • 單一(Single):在不同批次大小下運(yùn)行相同的提示,檢查輸出是否保持一致。
  • 混合(Mixed):在同一批次中混合不同類型的提示(短提示和長(zhǎng)提示),并驗(yàn)證一致性。
  • 前綴(Prefix):使用來(lái)自同一長(zhǎng)文本但前綴長(zhǎng)度不同的提示,隨機(jī)進(jìn)行批處理,并測(cè)試結(jié)果在不同運(yùn)行中是否可復(fù)現(xiàn)。

以下是50次采樣試驗(yàn)的結(jié)果。數(shù)字表示每個(gè)子測(cè)試觀察到的獨(dú)特輸出數(shù)量(數(shù)值越低,確定性越高)。

離線推理性能評(píng)估:

使用三種常見(jiàn)的RL推理工作負(fù)載(256個(gè)輸入/輸出長(zhǎng)度不同的請(qǐng)求)來(lái)衡量非確定性模式和確定性模式的端到端延遲。

測(cè)試結(jié)果顯示,確定性推理具有良好的可用性,大部分性能下降控制在25%到45%之間,其中FlashInfer和FlashAttention 3后端的平均性能下降為34.35%。大部分開(kāi)銷來(lái)自未經(jīng)優(yōu)化的基于Triton編寫(xiě)的批次不變算子,這表明性能仍有很大的提升空間。

團(tuán)隊(duì)確實(shí)觀察到確定性推理比正常模式要慢。因此建議主要將其用于調(diào)試和復(fù)現(xiàn)性。SGLang團(tuán)隊(duì)未來(lái)的工作之一將專注于加速確定性推理,目標(biāo)是將性能差距縮小到20%以內(nèi),或理想情況下達(dá)到與正常模式持平。

使用方法

SGLang環(huán)境設(shè)置:

# 使用最新的主分支
git clone https://github.com/sgl-project/sglang.git
cd sglang
# 安裝 Python 依賴
pip install --upgrade pip
pip install -e "python[all]"

啟動(dòng)SGLang Server:

SGLang支持多種模型的確定性推理。例如,對(duì)于Qwen3-8B,您只需在啟動(dòng)服務(wù)器時(shí)添加—enable-deterministic-inference參數(shù):

python3 -m sglang.launch_server \
    --model-path Qwen/Qwen3-8B \
    --attention-backend <flashinfer|fa3|triton> \
    --enable-deterministic-inference

未來(lái)工作

團(tuán)隊(duì)未來(lái)的努力將集中在以下領(lǐng)域,以增強(qiáng)確定性推理的性能和可用性:

  • 更快的批次不變算子:批次不變算子是性能瓶頸,因此將努力優(yōu)化其配置并可能重寫(xiě)它們以提升性能。這對(duì)于提高 RL 推理的速度也至關(guān)重要。
  • 支持 MoE 模型:目前只支持像 QWen3-8B 或 LLaMa-3.1-8B 這樣的Dense模型的確定性推理。未來(lái)計(jì)劃將支持?jǐn)U展到像Qwen3-30B-A3B或DeepSeek-V3這樣的混合專家模型。
  • 增強(qiáng)基數(shù)緩存功能:將改進(jìn)基數(shù)樹(shù),使其與更廣泛的注意力算子兼容,超越目前對(duì)FlashAttention 3后端的限制。
  • 張量并行(Tensor Parallelism):觀察到TP1和TP2是確定性的,可能因?yàn)椴簧婕案↑c(diǎn)加法的結(jié)合率。將嘗試擴(kuò)展到更大的 TP size, 可能包括修改歸約算子以實(shí)現(xiàn)確定性。
  • FlexAttention集成:除了目前支持的注意力后端,計(jì)劃未來(lái)將確定性推理的支持?jǐn)U展到FlexAttention。

SGLang的確定性推理和slime的可復(fù)現(xiàn)訓(xùn)練功能目前正在積極完善中,團(tuán)隊(duì)誠(chéng)摯歡迎廣大用戶和開(kāi)發(fā)者積極試用,并提供寶貴的反饋意見(jiàn)。您的使用體驗(yàn)和建議將推動(dòng)這一重要功能的進(jìn)一步優(yōu)化,推動(dòng)確定性推理技術(shù)的發(fā)展。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-10-14 13:40:00

2025-06-05 08:40:00

2024-03-18 15:01:58

SoraAI人工智能

2023-10-12 17:27:21

算法AI

2023-05-19 11:00:19

數(shù)據(jù)集開(kāi)源

2025-06-03 08:09:00

AI智能體模型

2023-09-12 13:43:00

智能技術(shù)

2025-04-09 12:06:21

AI工具模型

2024-07-22 08:30:00

神經(jīng)網(wǎng)絡(luò)AI

2025-10-17 10:03:23

2025-06-09 08:56:00

2023-09-25 12:14:00

AI開(kāi)源

2025-07-30 09:12:00

2011-07-08 14:34:50

開(kāi)發(fā)框架

2025-04-01 09:00:00

模型訓(xùn)練開(kāi)源

2021-12-02 13:43:42

達(dá)摩院AliceMind人工智能

2023-05-08 15:36:50

模型AI

2024-07-29 09:10:00

模型數(shù)據(jù)

2025-05-14 08:51:00

2022-06-23 15:48:02

AI開(kāi)源GitHub
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)