偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="8kgq4"></big>

<tfoot id="8kgq4"></tfoot>

<style id="8kgq4"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Hugging Face 推出 GOLD：讓不同模型家族也能做知識蒸餾

發(fā)布于 2025-11-3 07:24

瀏覽

0收藏

在最近Thinking Machines的新文章（見文末）里指出一種很有用的模型壓縮技術(shù)——在線策略蒸餾（On-Policy Distillation），它通過從高性能“教師”模型的概率分布中轉(zhuǎn)移知識來訓(xùn)練一個小的“學(xué)生”模型。這使得學(xué)生能夠模仿教師的任務(wù)性能，同時顯著減少大小和延遲。它讓小模型在特定領(lǐng)域達(dá)到大模型的表現(xiàn)，成本卻只有傳統(tǒng)方法的十分之一。

Hugging Face 推出 GOLD：讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

但這里有一個知識蒸餾一直存在的痛點：老師和學(xué)生必須用同一套分詞器。這意味著你不能讓 Llama 向 Qwen 學(xué)習(xí)，也不能讓 Gemma 向其他模型取經(jīng)。這就好比一個說中文的老師，只能教懂中文的學(xué)生。

Hugging Face 的研究團隊剛剛解決了這個問題。他們提出的 GOLD（General On-Policy Logit Distillation）方法，讓任意兩個模型之間（即使它們來自完全不同的模型家族）都能進(jìn)行在線知識蒸餾，不管它們用的是什么分詞器。

技術(shù)核心

出現(xiàn)這一問題的根源在于不對齊，比如：同一句話"Hugging Face is awesome!"，在不同分詞器下會變成完全不同的 token 序列：

Hugging Face 推出 GOLD：讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

Tokenizer A：[3, 1, 2] Tokenizer B：[2, 3, 1, 0] 這種不匹配造成兩個核心問題：序列長度不同，token ID 也不對應(yīng)。之前的方法，如ULD（Universal Logit Distillation）只能簡單截斷到最短長度，丟失信息還容易錯位。

Hugging Face 推出 GOLD：讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

GOLD 通過三步解決跨分詞器蒸餾：

增量解碼：同時解碼教師和學(xué)生模型的 token，獲取各自的概率分布
文本對齊：將相同可見文本的片段分組，識別需要合并的 token 位置
概率合并：在每組內(nèi)合并相關(guān)概率，通過對數(shù)概率求和保持語義完整性

Hugging Face 推出 GOLD：讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

具體來說：

序列對齊：不再簡單截斷到最短長度，而是識別需要合并的 token，通過對數(shù)概率求和來合并語義相關(guān)的片段。這樣"Hugging"和" Face"可以合并成一個完整的概念。
詞匯對齊：先找出兩個分詞器中相同的 token（即使 ID 不同），對這些 token 使用直接映射；對無法匹配的部分，才回退到 ULD 的排序方法。最終損失函數(shù)結(jié)合兩部分：L_GOLD = w1 * L_GKD + w2 * L_ULD

Hugging Face 推出 GOLD：讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

這樣即使 token 邊界不同，也能保證在完整輸出上計算損失函數(shù)。

實驗效果

數(shù)學(xué)任務(wù)跨家族蒸餾：用 Qwen 教師模型指導(dǎo) LLaMA 學(xué)生模型，在數(shù)學(xué)任務(wù)上表現(xiàn)良好，甚至超過了 GRPO 方法。

Hugging Face 推出 GOLD：讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

個性化（領(lǐng)域）蒸餾：先用 SFT 提升模型的代碼能力，然后用蒸餾恢復(fù) IFEval 分?jǐn)?shù)。這驗證了前面提到的"專業(yè)能力與通用能力平衡"問題的解決方案。

Hugging Face 推出 GOLD：讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

同時需要指出的是，分詞器相似度確實影響效果，但仍然強于強化學(xué)習(xí)。Llama-3.2-1B 與 Qwen3-4B 的相似度 0.64，最終成績 0.42；Gemma-3-1b 相似度只有 0.063，表現(xiàn)相應(yīng)較差。

Hugging Face 推出 GOLD：讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

使用方法

GOLD 已經(jīng)集成到 TRL 庫中，使用相當(dāng)簡單：

from trl.experimental.gold import GOLDConfig, GOLDTrainer

trainer = GOLDTrainer(
    model="meta-llama/Llama-3.2-1B-Instruct",
    teacher_model="Qwen/Qwen2.5-0.5B-Instruct",
    args=GOLDConfig(
        output_dir="gold-model", 
        use_uld_loss=True, 
        teacher_tokenizer_name_or_path="Qwen/Qwen2.5-0.5B-Instruct"
    ),
    train_dataset=train_dataset,
)
trainer.train()

更多：https://huggingface.co/docs/trl/main/en/gold_trainer

想要在自己的場景嘗試在線策略知識蒸餾，官方給出了如下是利用A??ccelerate訓(xùn)練的????（Accelerate是什么？可以閱讀此書：）??配置用例：

SFT配置：

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/scripts/sft.py \
  --model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name open-r1/codeforces-cots \
  --dataset_config solutions_decontaminated \
  --bf16 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 32 \
  --learning_rate 1e-5 \
  --num_train_epochs 1 \
  --max_length 16384 \
  --logging_steps 1 \
  --report_to trackio \
  --trackio_project Qwen3-4B-SFT-Codeforces \
  --output_dir data/Qwen3-4B-SFT-Codeforces \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-SFT-Codeforces \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr \
  --use_liger_kernel

蒸餾配置：

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/experimental/gold/gold.py \
  --model_name_or_path <sft-model> \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name allenai/tulu-3-sft-mixture \
  --dataset_train_split train \
  --bf16 \
  --learning_rate 1e-7 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 64 \
  --num_train_epochs 1 \
  --eval_strategy steps \
  --eval_steps 100 \
  --temperature 1.0 \
  --top_p 0.95 \
  --top_k 0 \
  --max_new_tokens 2048 \
  --max_prompt_length 512 \
  --lmbda 0.25 \
  --beta 0.0 \
  --use_uld_loss \
  --use_extended_uld \
  --uld_use_hybrid_loss \
  --uld_crossentropy_weight 0.0 \
  --uld_distillation_weight 1.0 \
  --uld_student_temperature 1.0 \
  --uld_teacher_temperature 1.0 \
  --uld_hybrid_unmatched_weight 1.0 \
  --uld_hybrid_matched_weight 1.0 \
  --teacher_model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --logging_steps 1 \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-GKD-Tulu \
  --report_to trackio \
  --trackio_project Qwen3-4B-GKD-Tulu \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr

小結(jié)

這一突破非常有實用價值。以前你只能在同一家族內(nèi)做知識蒸餾，現(xiàn)在可以跨家族進(jìn)行。在線策略蒸餾對于需要在資源受限環(huán)境下部署高性能模型的場景特別有用，可以用最好的模型作為教師，采各家所長，訓(xùn)練出適合自己場景的模型。

On-Policy Distillation：https://thinkingmachines.ai/blog/on-policy-distillation/

本文轉(zhuǎn)載自??AI工程化??，作者：ully

標(biāo)簽

已于2025-11-3 07:24:13修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Hugging Face全面擁抱LangChain：全新官方合作包

ermulong ? 7774瀏覽 ? 0回復(fù)
如何使用Hugging Face Transformers為情緒分析微調(diào)BERT？

51CTO內(nèi)容精選 ? 4702瀏覽 ? 0回復(fù)
AI慢思考蒸餾進(jìn)快思考，Llama2躍升至GPT-4水平，不寫過程也能做對題

Crystalcxt ? 3222瀏覽 ? 0回復(fù)
使用Hugging Face Transformer檢測文本中的情緒

51CTO內(nèi)容精選 ? 4069瀏覽 ? 0回復(fù)
大模型微調(diào)：Hugging Face Transformers全流程實戰(zhàn)

51CTO內(nèi)容精選 ? 9461瀏覽 ? 0回復(fù)
小白也能讀懂的GraphRAG知識圖譜全流程解析，多圖預(yù)警！

AI博物院 ? 1.2w瀏覽 ? 0回復(fù)
如何使用Hugging Face Transformers微調(diào)F5以回答問題？

51CTO內(nèi)容精選 ? 3928瀏覽 ? 0回復(fù)
如何使用BART模型和Hugging Face Transformers總結(jié)文本？

51CTO內(nèi)容精選 ? 4166瀏覽 ? 0回復(fù)
一鍵部署AI聊天機器人，SambaNova與Hugging Face攜手帶來全新體驗

Halo咯咯 ? 3945瀏覽 ? 0回復(fù)
Hugging Face 發(fā)布 SmolVLM：用于設(shè)備端推理的 2B 參數(shù)視覺語言模型

Halo咯咯 ? 5401瀏覽 ? 0回復(fù)
Hugging Face 發(fā)布免費開放課程，微調(diào)本地LLMs模型

Halo咯咯 ? 3959瀏覽 ? 0回復(fù)
smolagents：Hugging Face 開源的Agent框架，用代碼驅(qū)動 Agent 的新思路

Syrupup ? 6873瀏覽 ? 0回復(fù)
Hugging Face 發(fā)布 Picotron：解決 LLM 訓(xùn)練 4D 并行化的微型框架

Halo咯咯 ? 3504瀏覽 ? 0回復(fù)
一文說清楚"知識蒸餾"（讓“小模型”也能擁有“大智慧”）

AI取經(jīng)路 ? 2.1w瀏覽 ? 0回復(fù)
蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws

輕薄滴假象 ? 3219瀏覽 ? 0回復(fù)
LLMs的知識蒸餾：技術(shù)和應(yīng)用

柏企閱文 ? 4516瀏覽 ? 0回復(fù)
在 Hugging Face 上部署語音轉(zhuǎn)語音模型

mb67d4200f74d5e ? 2565瀏覽 ? 0回復(fù)
基于代理知識蒸餾技術(shù)克服文檔提取和RAG策略失敗問題?

51CTO內(nèi)容精選 ? 2612瀏覽 ? 0回復(fù)
Hugging Face 推出 AI Sheets，讓你像用 Excel 一樣用大模型處理數(shù)據(jù)

Halo咯咯 ? 5068瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Qwen 3 VL 模型已并入 llama.cpp，ollama同步支持 1天前發(fā)布
Emu3.5：能夠原生預(yù)測下一狀態(tài)的多模態(tài)世界模型，媲美Nano Banana 1天前發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： Glyph：文本轉(zhuǎn)圖片解決長上下文困境，智譜把“DeepSeek-OCR”具像化了

下一篇： Unsloth發(fā)布Qwen3-VL本地運行和微調(diào)指南，修復(fù)隱藏bug

社區(qū)精華內(nèi)容

目錄

<cite id="5f1ba"><track id="5f1ba"></track></cite>