偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="d7tgz"></thead>

<button id="d7tgz"></button>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

破解AI對不同上下?位置的敏感度不?致，新框架使出“解鈴還須系鈴人”

2025-10-27 09:00:00

人工智能新聞

論?提出了 Pos2Distill，?個創(chuàng)新的“位置到位置”蒸餾框架。該框架旨在將模型在優(yōu)勢位置的強?能?遷移?劣勢位置，從?有效緩解位置偏?。

語言模型遭遇嚴重的位置偏見，即模型對不同上下?位置的敏感度不?致。模型傾向于過度關注輸?序列中的特定位置，嚴重制約了它們在復雜推理、??本理解以及模型評估等關鍵任務上的表現(xiàn)。

例如，在對?兩個候選答案時，模型常因偏好?個選項?損害其作為評估器的公正性與可靠性。

針對這?挑戰(zhàn)，論?提出了 Pos2Distill，?個創(chuàng)新的“位置到位置”蒸餾框架。該框架旨在將模型在優(yōu)勢位置的強?能?遷移?劣勢位置，從?有效緩解位置偏?。

其核?思想恰如古語所云：“解鈴還須系鈴?”，利?模型??已習得的知識，來糾正其??的系統(tǒng)性偏差。

其基本原理可以概括為：利?位置本?造成的性能不均衡，來對抗位置偏差這?問題。

團隊發(fā)現(xiàn)，位置偏差在“檢索”和“推理”這兩類任務中誘發(fā)的表現(xiàn)不同，因此基于上述核?原理，團隊分別設計了兩種專?的實現(xiàn)?案：Pos2Distill-R1和Pos2Distill-R2。

采?Pos2Distill?法后，模型在??本檢索和推理任務中的所有位置上都表現(xiàn)出更好的?致性，這兩個專?設計的系統(tǒng)不僅在各?對應的任務上表現(xiàn)優(yōu)異，彼此之間還表現(xiàn)出很強的跨任務泛化能?。

已有的工作：在信息豐富的場景中，例如檢索增強?成、?上下?推理以及將?語?模型（LLM）?作評判者等，位置偏差構成了重?障礙。當關鍵信息被任意分布在輸?的各個位置時，LLM 常常?法有效識別和整合這些核 ?內(nèi)容，最終導致其在各種應?中出現(xiàn)意外的失敗。為緩解PB問題：

一類工作試圖通過修改與上下?敏感度不均相關的關鍵架構組件或內(nèi)部表示來進?減輕位置偏見。然?，盡管近期在縮?性能差距??取得了?些進展，模型在“優(yōu)勢位置”和“劣勢位置”之間的信息利?率依然存在巨?差異。

另?類研究?法則采?了密集的上下?感知訓練，通過合成具有細粒度信息感知的訓練數(shù)據(jù)來提升模型性能。但是，這類數(shù)據(jù)驅動的?法通常在數(shù)據(jù)合成和計算資源??都需付出?昂的成本。

因此，學術界和?業(yè)界迫切需要?種能夠克服這些局限、既有效??效的策略來緩解PB。

方法

先導實驗：分析揭示，PB在“檢索”和“推理”這兩種不同的任務范式下表現(xiàn)出不同的?為。

Natural PB for Retrieval：在檢索任務（retrieval）中，PB主要表現(xiàn)為“詞元偏移”（token-shifting），即在黃金文檔所處位置不同，大部分的response具有相似的前綴，只在關鍵的生成位置發(fā)生分歧，由此誘發(fā)retrieval的失敗。一旦這些錯誤的token能夠被修正，模型又可以輸出正確的答案；

Compound PB for Reasoning：在推理任務中，PB 既體現(xiàn)在檢索過程中的變化，也體現(xiàn)在推理過程中發(fā)生的改變，最終導致思維鏈條的偏移（thought shifting）。因此，至關重要的是通過整合真正相關的信息與推理鏈來重塑整體的響應軌跡。

針對這兩種情況相應地開發(fā)了兩個系統(tǒng)：Pos2Distill-R1 和 Pos2Distill-R2。Pos2Distill-R1 通過引? KL 散度（Kullback-Leibler divergence）損失來提供細粒度的糾正信號，從?緩解檢索任務中的“詞元偏移”。

Pos2Distill-R2 則通過蒸餾來?優(yōu)勢位置輸?的優(yōu)質CoT響應，來指導和糾正劣勢位置的推理軌跡，從?解決推理任務中的“思維偏移”。

算法設計（Pos2Distill-R1 for Retrieval）：該框架由兩個核心模塊組成：如圖 4a 所示的平凡位置激活和優(yōu)勢位置錨定。前者促進將高表現(xiàn)的優(yōu)勢位置中的有效處理能力遷移至利用不足的無效位置；后者確保優(yōu)勢位置已建立性能的保持，從而縮小無效位置與優(yōu)勢位置之間的差距。

平凡位置激活：為糾正 token shifting 行為，在每個生成步驟中利用 KL 散度作為細粒度的對齊信號。

位置感知的對齊：PB引發(fā)的優(yōu)勢位置與不同平凡位置之間的對齊難度具有位置依賴性，因此具有高對齊難度的位置應該優(yōu)先實施梯度更新。

因此激活平凡位置的損失為：

優(yōu)勢位置的錨定：在蒸餾過程中，模型會意識到關鍵信息可能出現(xiàn)在上下文窗口的任意位置，這可能會削弱對優(yōu)勢位置（sink position）的顯著注意力，從而潛在地損害在多樣下游任務中的整體能力。為防止這一問題引入錨定損失，以保持優(yōu)勢位置的有效性。

訓練目標損失：融合了激活損失（activation loss）和錨定損失（anchoring loss），形式化表示為：

算法設計（Pos2Distill-R2 for Reasoning）：

首先從優(yōu)勢位置采樣鏈式思維（CoT）推理軌跡。類似于檢索任務的過程，為每組位置構建 (K) 個不同的平凡提示。隨后使用交叉熵（CE）損失函數(shù)對提示及其對應的推理軌跡 (Cadv) 進行優(yōu)化，以有效捕獲推理模式。形式化地表示為：

實驗

Pos2Distill-R1實驗結果：Pos2Distill-R1 表現(xiàn)出魯棒且?致的性能，?論???檔的位置如何，都顯著減少了由位置引起的性能差異。例如，在 WebQ 數(shù)據(jù)集，Pos2Distill-R1 使 Llama-3-8B 在20個位置上實現(xiàn)了 56.7%的平均準確率。該性能與 dgold 位于最佳“匯聚位置”（sink position）時達到的 57.9% 相當，這說明從優(yōu)勢到劣勢位置的知識遷移是成功的，?這正是 Pos2Distill-R1 的核?原理。

可解釋性結果：由于PB源自于大語言模型的架構與參數(shù)，希望通過分析Pos2Distill-R1的內(nèi)部動態(tài)機制來揭示其作用原理并提供可解釋性說明。記錄當黃金文檔從1移動到20時，對20個文檔的注意力分布。Pos2Distill-R1通過動態(tài)地將注意力焦點持續(xù)對齊到相關文檔上，從而強化了上下文一致性，促進了更為準確的檢索。

Pos2Distill-R2實驗結果：?論是在域內(nèi)性能還是在域外泛化??，Pos2Distill-R2 都超越了現(xiàn)有的?我訓練?法。如表2，在 MusiQue 數(shù)據(jù)集上訓練時，Pos2Distill-R2 實現(xiàn)了 42.8 的精確匹配（EM）得分，優(yōu)于所有領先的基線。此外，本?法表現(xiàn)出強?的跨領域泛化能?；例如，在 HotpotQA 數(shù)據(jù)集上，它達到了 58.3 的EM 得分，?最強的基線模型為50.9。研究結果表明，與傳統(tǒng)的逐實例訓練相?，訓練?語?模型在多樣化、分散的???檔位置上進?推理，可能更有效地增強其?上下?推理能?。這?洞?為提升復雜?上下?任務中的推理能?提供了新視?。

關于兩個系統(tǒng)的討論：

兩個系統(tǒng)都表現(xiàn)出對其相互任務的顯著泛化能?。具體??，主要為檢索任務優(yōu)化的 Pos2Distill-R1 證明了其增強的上下?檢索能?也改善了?上下?推理，在 MusiQue 任務上產(chǎn)?了 3.3% 的增?。相反，為推理任務優(yōu)化的 Pos2Distill-R2 表明，其所獲得的在?上下?中的推理熟練度也增強了上下?感知，從?有益于檢索性能。盡管存在這種跨任務泛化，但每個系統(tǒng)在其主要領域都表現(xiàn)卓越：Pos2Distill-R2 在復雜的?上下?推理任務上取得了更優(yōu)性能，? Pos2Distill-R1 在這些任務上表現(xiàn)滯后，在檢索任務上則反之亦然。

這表明緩解位置偏差（PB）存在著不同的底層動態(tài)，并可能受到思維鏈（CoT）存在或缺失的影響。因此，開發(fā)這兩種專?化的 Pos2Distill 設計被證明是既必要?有效的。

論文地址：https://arxiv.org/abs/2508.15709

開源地址：https://github.com/AMAP-ML/Pos2Distill

責任編輯：張燕妮來源：量子位

AI 模型訓練

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<thead id="hsqzd"></thead>

<tt id="hsqzd"></tt>