偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="5nbep"><menu id="5nbep"><tbody id="5nbep"></tbody></menu></rt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

小紅書開源首個(gè) AI 文本大模型：11.2T 精煉語(yǔ)料吊打海量數(shù)據(jù)，證明“大模型≠大數(shù)據(jù)”

2025-06-11 14:44:48

dots.llm1 是一個(gè) Mixture of Experts（MoE）結(jié)構(gòu)的語(yǔ)言模型。盡管總參數(shù)規(guī)模達(dá) 142B，但在每次推理中只激活 14B，有效控制了計(jì)算開銷。這種“低激活、高表現(xiàn)”的設(shè)計(jì)理念，是對(duì) MoE 架構(gòu)效率潛力的一種驗(yàn)證。

近日，在中文開源大模型愈發(fā)稀缺的背景下，小紅書旗下 hi lab 公布了中等規(guī)模的 MoE 模型 dots.llm1，以 1420 億總參數(shù)、每次僅激活 140 億參數(shù)的設(shè)計(jì)，達(dá)成與 Qwen2.5-72B 相近的性能，吸引了社區(qū)的關(guān)注。

圖片

據(jù)悉，dots.llm1 是一個(gè) Mixture of Experts（MoE）結(jié)構(gòu)的語(yǔ)言模型。盡管總參數(shù)規(guī)模達(dá) 142B，但在每次推理中只激活 14B，有效控制了計(jì)算開銷。這種“低激活、高表現(xiàn)”的設(shè)計(jì)理念，是對(duì) MoE 架構(gòu)效率潛力的一種驗(yàn)證。

圖片

它采用 6in128 的專家配置，并配有兩個(gè)共享 Expert，在架構(gòu)選擇上參考了 DeepSeek 系列；訓(xùn)練策略上，則使用穩(wěn)定的 WSD 學(xué)習(xí)率調(diào)度，先維持高學(xué)習(xí)率跑 10T token，再通過兩輪退火調(diào)整，分別聚焦知識(shí)強(qiáng)化與數(shù)學(xué)代碼領(lǐng)域。

在訓(xùn)練效率方面，hi lab 聯(lián)合 NVIDIA 中國(guó)團(tuán)隊(duì)對(duì) Megatron-LM 進(jìn)行了底層優(yōu)化：使用 Interleaved 1F1B + A2A overlap 的并行策略，讓計(jì)算覆蓋通信時(shí)間；同時(shí)，在 Grouped GEMM 的實(shí)現(xiàn)上做了調(diào)度層面改造，使 warpgroup 中專家的 token 分布更規(guī)整，最終實(shí)現(xiàn)前向階段提速 14%、反向階段提速近 7%。

這些看似技術(shù)細(xì)節(jié)的改動(dòng)，其實(shí)是讓 MoE 模型從“概念驗(yàn)證”邁向“工程可行”的關(guān)鍵步驟。

重點(diǎn)不在數(shù)據(jù)量，而在數(shù)據(jù)質(zhì)量

圖片

相比動(dòng)輒幾十萬(wàn)億 token 的訓(xùn)練數(shù)據(jù)，dots.llm1 用了 11.2T 的“高質(zhì)量 token”達(dá)成對(duì)比模型效果，在數(shù)據(jù)選擇上更傾向“精挑細(xì)選”而非“海量堆積”。

hi lab 的數(shù)據(jù)來源主要是 Common Crawl 和自主抓取的 Spider Web 數(shù)據(jù)，團(tuán)隊(duì)在清洗流程中融入了多層判別機(jī)制。例如，對(duì)網(wǎng)頁(yè)正文提取使用 trafilatura 的改進(jìn)版本，文檔去重采用 minhash 結(jié)合行級(jí)分析，避免重復(fù)和冗余內(nèi)容。對(duì)網(wǎng)頁(yè)首尾常見的噪聲句子，比如導(dǎo)航欄、版權(quán)信息等，還專門設(shè)計(jì)了“行級(jí)過濾”策略。

更進(jìn)一步，hi lab 還通過語(yǔ)義質(zhì)量分類器和 200 類別的數(shù)據(jù)平衡模型，對(duì)語(yǔ)料的類型結(jié)構(gòu)做出篩選，提升知識(shí)類文本占比，降低虛構(gòu)小說、電商數(shù)據(jù)等結(jié)構(gòu)化內(nèi)容的比例。在 PII 和內(nèi)容安全方面，也引入模型輔助標(biāo)注和人工審核，確保安全底線。

這些多層次的處理流程，是 dots.llm1 能以中等體量模型取得對(duì)標(biāo)性能的重要原因之一。

一次盡量完整的開源嘗試

圖片

與當(dāng)前很多國(guó)產(chǎn)大模型“僅開放模型權(quán)重”不同，hi lab 嘗試將 dots.llm1 開源做到相對(duì)完整。他們不僅放出了 final instruct 模型，還包含從預(yù)訓(xùn)練初期開始、每 1T token 存儲(chǔ)的中間 checkpoint，覆蓋多個(gè) base 模型、退火階段模型、超參數(shù)和 batch size 配置等。

此外，團(tuán)隊(duì)還開源了數(shù)學(xué)與代碼領(lǐng)域微調(diào)中使用的規(guī)則與驗(yàn)證機(jī)制。這種全流程的開放做法，不僅便于其他開發(fā)者繼續(xù)預(yù)訓(xùn)練或微調(diào)，也為研究人員觀察模型學(xué)習(xí)路徑、分析訓(xùn)練動(dòng)態(tài)提供了更多可能。

開源的基礎(chǔ)上，hi lab 明確表示歡迎社區(qū)在 dots.llm1 上進(jìn)行二次開發(fā)或任務(wù)定制，如長(zhǎng)文場(chǎng)景訓(xùn)練、指令微調(diào)或繼續(xù)預(yù)訓(xùn)練，并希望此舉能為中文大模型社區(qū)提供一種新范式。

最后，hi lab 是小紅書內(nèi)部較早布局 AI 的團(tuán)隊(duì)，強(qiáng)調(diào)“人文智能”愿景，關(guān)注 AI 與用戶之間的交互關(guān)系。團(tuán)隊(duì)成員多來自技術(shù)背景較強(qiáng)的公司，在工程效率、數(shù)據(jù)安全和復(fù)現(xiàn)性方面有較明確傾向。

github: https://github.com/rednote-hilab/dots.llm1

huggingface:https://huggingface.co/collections/rednote-hilab/dotsllm1-68246aaaaba3363374a8aa7c

小紅書：https://www.xiaohongshu.com/user/profile/683ffe42000000001d021a4c

責(zé)任編輯：武曉燕來源：大數(shù)據(jù)文摘

AI 文本大模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<samp id="8556t"></samp>