偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

amei2000go
LV.5
這個(gè)用戶很懶,還沒有個(gè)人簡(jiǎn)介
聲望 709
關(guān)注 0
粉絲 13
私信
主帖 71
回帖
一、背景筆者在之前的文章中介紹了一系列偏同步訓(xùn)練方式的RL優(yōu)化方案,最近出了一系列異步訓(xùn)練工作,后續(xù)會(huì)逐步介紹。本文中先簡(jiǎn)單介紹來自阿里等團(tuán)隊(duì)的Roll系列中的RollFlash。對(duì)應(yīng)的論文為:[2510.11345]PartII:ROLLFlashAcceleratingRLVRandAgenticTrainingwithAsynchrony對(duì)應(yīng)的代碼庫(kù)為:GitHubalibabaROLL:AnEfficientandUserFriendlyScalingLibraryforReinforcementLearningwithLargeLanguageModels二、摘要同步RL后訓(xùn)練...
5天前 584瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景之前已經(jīng)介紹了一些了RL訓(xùn)練優(yōu)化的文章,它們往往針對(duì)特定場(chǎng)景或特定算法進(jìn)行優(yōu)化,而缺乏一些系統(tǒng)性的研究。正好看到Meta的ScaleRL,其對(duì)各種策略、技術(shù)進(jìn)行了比較全面的消融實(shí)驗(yàn),并提供了最佳實(shí)踐,我們這里對(duì)其進(jìn)行簡(jiǎn)單介紹。對(duì)應(yīng)的論文:[2510.13786]TheArtofScalingReinforcementLearningComputeforLLMs[1]二、摘要RL已成為L(zhǎng)LM的核心技術(shù),但是該領(lǐng)域還缺乏與預(yù)訓(xùn)練相媲美的可預(yù)測(cè)ScalingLaw。為此,作者進(jìn)行了大...
5天前 544瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景最近一直在關(guān)注RLInfra相關(guān)的工作,尤其是RL性能優(yōu)化,后續(xù)會(huì)逐漸介紹一下該領(lǐng)域的相關(guān)文章,本文先簡(jiǎn)單介紹一下字節(jié)新發(fā)布的RhymeRL。對(duì)應(yīng)的論文為:[2508.18588]HistoryRhymes:AcceleratingLLMReinforcementLearningwithRhymeRL二、摘要RL成為提升LLMReasoning能力的關(guān)鍵方法,與傳統(tǒng)預(yù)訓(xùn)練不同,RL包含多個(gè)階段:Rollout、Reward、Training,需要多種類型的Worker協(xié)同配合;除此之外,為了效率也可能引入異步訓(xùn)練方...
2025-09-22 07:05:04 1816瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景網(wǎng)絡(luò)互聯(lián)是大規(guī)模集群不可或缺的一部分,也是大規(guī)模模型訓(xùn)練中影響任務(wù)穩(wěn)定性和效率的關(guān)鍵因素,然而網(wǎng)絡(luò)相關(guān)問題的診斷和修復(fù)又是個(gè)老大難問題。本文我們介紹清華大學(xué)和阿里的SkeletonHunter系統(tǒng),其提供了一個(gè)不錯(cuò)的思路。對(duì)應(yīng)的論文為:SkeletonHunter:DiagnosingandLocalizingNetworkFailuresinContainerizedLargeModelTraining[1]相關(guān)工作可以參考我們之前的文章:LLaMA3背后的大規(guī)模GPU集群RoCE網(wǎng)絡(luò)建設(shè)HPN7.0:...
2025-09-10 00:20:17 1319瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景我們?cè)谥暗奈恼轮幸呀?jīng)介紹過很多對(duì)大規(guī)模AI集群建設(shè)和維護(hù)相關(guān)相關(guān)的文章,包含Meta、阿里、IBM、ImbueAI、字節(jié)、上海AIlab等等。今天簡(jiǎn)單介紹一篇新的文章,其相對(duì)比較簡(jiǎn)單,主要關(guān)注GPU異常,與我們之前介紹萬卡集群運(yùn)維中的Case高度重合,但也有一些不一樣的地方,就當(dāng)簡(jiǎn)單回顧。對(duì)應(yīng)的論文為:[2503.11901]CharacterizingGPUResilienceandImpactonAIHPCSystems[1]二、摘要論文對(duì)NCSADeltaAI集群(算力超過600PFLO...
2025-08-18 06:41:57 1709瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景隨著LongReasoning領(lǐng)域的快速發(fā)展,最近涌現(xiàn)出了諸多Reasoning模型,比如DeepSeekR1、DeepSeekR1Distill以及阿里的QwQ32B模型。這些模型在處理復(fù)雜任務(wù)時(shí)表現(xiàn)卓越,但與此同時(shí),我們也觀察到一些值得關(guān)注的現(xiàn)象。部分用戶在不必要的場(chǎng)景下盲目使用Reasoning模型,導(dǎo)致大量不必要的CoTToken被引入,直接推高了Inference成本。筆者在之前的CoTValve介紹文章中提到過:“LongCoT模型通常需要更長(zhǎng)的Token序列,這會(huì)顯著增加...
2025-08-18 06:32:29 2705瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景Meta趕在清明節(jié)期間發(fā)布了LLaMA4模型,目前看著比較倉(cāng)促,官方Blog信息比較混亂,也沒有發(fā)表技術(shù)報(bào)告,我們這里先根據(jù)官方Blog梳理相應(yīng)的信息。PS:Meta確實(shí)在PR中使用了一些常見的手段,比如避重就輕,揚(yáng)長(zhǎng)避短,但是個(gè)人感覺還不至于出現(xiàn)在后訓(xùn)練中刻意混入評(píng)估集這種情況。LLaMA3.1的技術(shù)報(bào)告很全面,筆者之前也做過深度解讀,期待Meta早日發(fā)表LLaMA4技術(shù)報(bào)告,展示更多相關(guān)細(xì)節(jié)內(nèi)容。對(duì)應(yīng)的官方Blog為:TheLlama4he...
2025-08-18 06:29:23 2372瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、引言LLM的Training與Inference存在很多共性,但也有極大的不同,LLMInference涉及的變量會(huì)更加復(fù)雜,需要采用的方案也會(huì)存在明顯區(qū)別,比如::不同的模型:通常不會(huì)使用單一模型解決所有問題,可能有不同規(guī)模、類型的模型,不同垂直場(chǎng)景的模型等。異構(gòu)硬件環(huán)境:在Inference場(chǎng)景可選擇的GPU設(shè)備遠(yuǎn)多于Training場(chǎng)景,比如可以使用A100、H100、B200,也可以采用H20、L40S、A30、T4,甚至可以選擇RTX5090、4080、3070等。復(fù)雜...
2025-08-04 00:57:59 2454瀏覽 1點(diǎn)贊 0回復(fù) 1收藏
?一、引言本文主要聚焦于大語言模型預(yù)訓(xùn)練相關(guān)階段的技術(shù)和行業(yè)最新進(jìn)展,其中包括常見的分布式策略、模型結(jié)構(gòu)、常見的優(yōu)化手段等??紤]到篇幅原因,暫不包含后訓(xùn)練、多模態(tài)等領(lǐng)域。二、模型結(jié)構(gòu)2.1概述當(dāng)前LLM基本上都是DecoderOnly的Transformer模型,只不過都會(huì)進(jìn)行一些修改。比如對(duì)Attention的修改衍生出來SoftmaxAttention系列和LinearAttention系列。而對(duì)FFN的修改衍生出了Dense模型和MoE模型。這個(gè)章節(jié)我們對(duì)這些模型結(jié)...
2025-08-04 00:49:43 2662瀏覽 1點(diǎn)贊 0回復(fù) 1收藏
一、背景筆者之前的文章中詳細(xì)介紹過NCCL初始化階段的拓?fù)浣!⑼ㄐ怕窂接?jì)算和優(yōu)化等工作,也介紹過一些LLM訓(xùn)練和推理中對(duì)NCCL的優(yōu)化工作。本文中,借著一篇新的論文具體介紹一下NCCL的內(nèi)部設(shè)計(jì)原理和運(yùn)行機(jī)制。對(duì)應(yīng)的論文:[2507.04786]DemystifyingNCCL:AnIndepthAnalysisofGPUCommunicationProtocolsandAlgorithms[1]NCCL對(duì)應(yīng)的代碼庫(kù):GitHubNVIDIAnccl:OptimizedprimitivesforcollectivemultiGPUcommunication[2]二、摘要...
2025-07-15 09:22:49 7203瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?一、背景在此前的內(nèi)容中,筆者曾介紹過DeepSeek的DeepEP、字節(jié)跳動(dòng)的Flux和Tilelink等系統(tǒng),這些系統(tǒng)在底層通信實(shí)現(xiàn)中均依賴于NVIDIA的NVSHMEM庫(kù)。事實(shí)上,字節(jié)跳動(dòng)后續(xù)的諸如Comet、Tritondistributed,以及其他針對(duì)細(xì)粒度計(jì)算與通信重疊(Overlap)優(yōu)化的工作,也都廣泛使用了NVSHMEM。本文將深入剖析NVSHMEM的初始化流程及其核心概念,以便從開發(fā)者視角理解其機(jī)制,為后續(xù)的定制化改造和工程實(shí)踐打下基礎(chǔ)。?也可以參考NVS...
2025-07-11 07:30:29 8437瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景最近看到SemiAnalysis團(tuán)隊(duì)制作了一個(gè)《AITokenFactoryEconomicsStack》的圖片(來自SemiAnalysis(SemiAnalysis)X[1]),深入分析了LLM推理成本鏈條中各個(gè)參與者的成本與利潤(rùn)情況,涵蓋從硬件資本支出(Neocloud)、推理服務(wù)提供商(InferenceProviders)到終端應(yīng)用層(Applications)的全棧視角,并且以H200GPU為例,進(jìn)行定量分析??紤]到之前主要關(guān)注整體的CapEx(資本成本)和Opex(運(yùn)維成本),因此借此機(jī)會(huì)進(jìn)一步理...
2025-07-11 07:20:46 1961瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景LLMInference中的數(shù)值穩(wěn)定性問題是一個(gè)長(zhǎng)期存在的挑戰(zhàn)。自從ChatGPT發(fā)布以來,關(guān)于同樣輸入下,盡管使用了GreedySearch,輸出仍然存在差異的問題就引發(fā)了廣泛關(guān)注。在我們之前的文章中,也曾涉及這一問題。最近,我們注意到一篇新的論文,針對(duì)這一問題進(jìn)行了深入分析和討論,本文將對(duì)其進(jìn)行簡(jiǎn)要介紹。對(duì)應(yīng)的論文:[2506.09501]GiveMeFP32orGiveMeDeathChallengesandSolutionsforReproducibleReasoning[1]二、摘要研究表...
2025-06-27 00:25:51 2452瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景筆者之前寫過FP8訓(xùn)練的綜述文章以及FP4訓(xùn)練和推理的綜述文章,本文對(duì)其進(jìn)一步補(bǔ)充,介紹NVIDIA最新的使用MXFP8預(yù)訓(xùn)練的方案。對(duì)應(yīng)的論文:[2506.08027]RecipesforPretrainingLLMswithMXFP8[1]二、摘要精度縮放——即在預(yù)訓(xùn)練過程中使用更少的比特來表示模型參數(shù)及相關(guān)Tensor——已成為一種在不犧牲精度前提下提升GPU效率的有效技術(shù)。NVIDIA最新BlackwellGPU中引入Microscaling(MX)格式,為Tensor量化提供了細(xì)粒度解決方...
2025-06-13 06:57:47 6779瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景最近華為推出了超節(jié)點(diǎn)CloudMatrix384,進(jìn)一步引發(fā)業(yè)內(nèi)對(duì)ScaleUp和ScaleOut的廣泛討論。不可避免地也會(huì)涉及與NVIDIA超節(jié)點(diǎn)NVL72的對(duì)比。ScaleUp和ScaleOut各自具有不同的優(yōu)劣勢(shì)和局限性。除了擴(kuò)展性和成本問題外,故障和容錯(cuò)也是一個(gè)不可忽略的挑戰(zhàn)。本文中,我們介紹一個(gè)NVIDIA最近在這一領(lǐng)域的研究工作,著重探討隨著ScaleUp域的擴(kuò)展,如何應(yīng)對(duì)相應(yīng)的容錯(cuò)問題。對(duì)應(yīng)的論文為:[2504.06095]NonuniformTensorParallelism...
2025-06-03 06:08:14 3874瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景在之前的系列文章中,筆者已經(jīng)系統(tǒng)性地介紹過大規(guī)模LLM訓(xùn)練面臨的各種挑戰(zhàn)以及可能涉及的問題和解決方案。在對(duì)大規(guī)模任務(wù)進(jìn)行Profiling分析的時(shí)候,面對(duì)成千上萬的kernel也經(jīng)??嗖豢把?,想要通過統(tǒng)計(jì)分析來診斷相應(yīng)的問題,并為優(yōu)化提供更多的可能性。碰巧看到了字節(jié)跳動(dòng)Seed的這篇文章,雖然社區(qū)內(nèi)沒有看到太多討論,不過其確實(shí)與我們的一些思路不謀而合,這里進(jìn)行簡(jiǎn)單介紹。其實(shí)文章中的大部分結(jié)論性內(nèi)容筆者在之前...
2025-05-20 06:24:53 4532瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景大模型,如大語言模型(LLM)和大型多模態(tài)模型(LMM),正在改變自然語言處理和多模態(tài)任務(wù)的格局。然而,這些模型的Inference過程面臨大計(jì)算、大內(nèi)存、高時(shí)延等諸多挑戰(zhàn)。為了應(yīng)對(duì)這些問題,分布式分離Inference系統(tǒng)應(yīng)運(yùn)而生,旨在通過將模型的不同部分分開處理來優(yōu)化性能。大體來說,大模型Inference經(jīng)歷了從單體到分布式,再到分離式的演進(jìn),并在繼續(xù)發(fā)展中:1.單體Inference階段(2020年前):模型完整加載至單個(gè)設(shè)...
2025-05-07 00:27:19 7163瀏覽 0點(diǎn)贊 1回復(fù) 0收藏
一、背景此前筆者對(duì)AIAgent研究的涉獵比較少,也基本沒有系統(tǒng)介紹過與Agent相關(guān)的內(nèi)容。然而,最近由Anthropic提出的MCP(ModelContextProtocol[1],模型上下文協(xié)議)在社區(qū)中引發(fā)廣泛關(guān)注,筆者也趁此機(jī)會(huì)“蹭蹭熱度”,了解下MCP到底是什么,了解一下MCP的基本概念和工作機(jī)制。在最初接觸MCP時(shí),也曾對(duì)其一些設(shè)計(jì)感到困惑。于是帶著這些疑問進(jìn)行了進(jìn)一步的調(diào)研,逐漸對(duì)MCP的組成及運(yùn)作方式有了初步的認(rèn)識(shí),比如:MCP中的Resou...
2025-04-22 06:51:21 7741瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景在大規(guī)模分布式訓(xùn)練場(chǎng)景中,計(jì)算和通信的重疊(Overlap)一直是一個(gè)關(guān)鍵的研究熱點(diǎn)。隨著硬件性能的提升,計(jì)算能力和通信帶寬之間的差距日益顯著。如下圖所示,硬件算力每2年大約擴(kuò)大3x,而通信帶寬每2年只提升1.4x,這種差距帶來的影響在大規(guī)模訓(xùn)練任務(wù)中愈加明顯。例如,在使用H100和A100集群進(jìn)行LLM訓(xùn)練時(shí),H100的通信開銷占比通常會(huì)高于A100。這種情況下,通信可能成為了系統(tǒng)性能的瓶頸,因此,如何在計(jì)算和通信之...
2025-04-09 06:48:28 4178瀏覽 1點(diǎn)贊 0回復(fù) 1收藏
獲得成就
已積累 9.6w 人氣
獲得 11 個(gè)點(diǎn)贊
獲得 11 次收藏