Embedding黑箱成為歷史!這個(gè)新框架讓模型“先解釋,再學(xué)Embedding”
讓模型先解釋,再學(xué)Embedding!
來自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人員,最新推出可解釋的生成式Embedding框架——GRACE。

過去幾年,文本表征(Text Embedding)模型經(jīng)歷了從BERT到E5、GTE、LLM2Vec,Qwen-Embedding等不斷演進(jìn)的浪潮。這些模型將文本映射為向量空間,用于語義檢索、聚類、問答匹配等任務(wù)。
然而,大多數(shù)方法有一個(gè)共同缺陷:
它們把大語言模型當(dāng)成“啞巴編碼器”使用——輸入文本,輸出向量,卻無法告訴我們?yōu)槭裁催@兩個(gè)文本相似。
這種 “對比學(xué)習(xí)+池化” 的做法雖然有效,但本質(zhì)上拋棄了大語言模型(LLM) 的推理與生成能力,使得Embedding(嵌入)成為一個(gè)純粹的統(tǒng)計(jì)結(jié)果。
而在需要高可解釋性、高魯棒性的任務(wù)中(例如問答匹配、跨域檢索、推薦系統(tǒng)),這種黑箱式表征往往成為瓶頸。
對此,GRACE框架正是為解決上述瓶頸而生——
核心思想:把“對比學(xué)習(xí)”變成“強(qiáng)化學(xué)習(xí)”
GRACE的關(guān)鍵創(chuàng)新在于,重新定義對比學(xué)習(xí)信號的意義。
在傳統(tǒng)范式中,InfoNCE是一種“懲罰式損失”(loss),即讓正樣本靠近,負(fù)樣本遠(yuǎn)離;而在GRACE中,研究人員把它改造成一種“獎(jiǎng)勵(lì)”(reward),讓模型主動(dòng)學(xué)習(xí)如何解釋相似性。
簡單來說,GRACE不再是“把文本壓成向量”,而是“讓模型先解釋,再學(xué)Embedding”——
模型首先生成每個(gè)文本的“推理說明(rationale)”,然后再將這些rationale編碼成Embedding。獎(jiǎng)勵(lì)信號會(huì)鼓勵(lì)模型產(chǎn)生更有邏輯、更語義一致的推理。

方法總覽:生成、表征、優(yōu)化三位一體
概括而言,GRACE包含三個(gè)關(guān)鍵模塊:
1、Rationale-Generating Policy(生成式思維鏈)
模型首先對輸入文本生成解釋性推理鏈(rationale)。例如:“該段文本描述了對比學(xué)習(xí)的局限性,并提出了一種基于獎(jiǎng)勵(lì)優(yōu)化的新方法?!?/span>
這些rationale是顯式的自然語言輸出,既增強(qiáng)模型理解力,又可直接審查其語義判斷過程。
2、Representation Extraction(可解釋表征)
在得到rationale后,模型把“輸入+rationale”拼接,計(jì)算上下文隱藏狀態(tài),并進(jìn)行Masked Mean Pooling得到最終Embedding。
這種Embedding既包含語義信息,又保留了reasoning trace,使得模型的表示空間更穩(wěn)、更語義一致。
3、Contrastive Rewards(獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí)目標(biāo))
研究人員把對比學(xué)習(xí)目標(biāo)重新定義為獎(jiǎng)勵(lì)函數(shù):
- R?:Contrastive Reward:提升query與正樣本相似度,懲罰負(fù)樣本。
- R?:Consistency Reward:不同生成的rationale要相似,防止不穩(wěn)定。
- R?:Hard Negative Reward:重點(diǎn)區(qū)分“最容易混淆”的負(fù)樣本。
整體優(yōu)化目標(biāo)為,通過GRPO(Group Relative Policy Optimization)進(jìn)行強(qiáng)化學(xué)習(xí)更新。同時(shí),GRACE也可以適用于其他策略梯度的強(qiáng)化學(xué)習(xí)算法,效果依舊顯著。
訓(xùn)練流程:有監(jiān)督+無監(jiān)督統(tǒng)一框架
GRACE既可以用帶標(biāo)簽的query–document對訓(xùn)練(supervised),也可以無監(jiān)督地自對齊(unsupervised)。
- 有監(jiān)督階段
基于公開的E5訓(xùn)練集(1.5M樣本),模型學(xué)習(xí)query–positive–negative三元組的語義關(guān)系。
相比傳統(tǒng)InfoNCE,GRACE通過生成式強(qiáng)化學(xué)習(xí)讓每個(gè)pair都帶有可解釋reasoning。
- 無監(jiān)督階段
借鑒SimCSE思路,對每個(gè)文本生成多個(gè)rationale,互相作為正樣本。獎(jiǎng)勵(lì)鼓勵(lì)同一文本不同解釋的表征一致,不同文本表征區(qū)分。
這種雙模式統(tǒng)一,使GRACE可以適配任何預(yù)訓(xùn)練LLM,無需大規(guī)模新標(biāo)注數(shù)據(jù)。
實(shí)驗(yàn)結(jié)果:跨任務(wù)全面提升
研究人員在MTEB全套56個(gè)數(shù)據(jù)集(含Retrieval、 Rerank、Clustering、STS、Classification、PairClass、Summarization)上全面評測。
共測試四個(gè)主流LLM骨干:
- Qwen2.5-1.5B / 3B
- LLaMA-3.2-3B
- Qwen3-4B
結(jié)果發(fā)現(xiàn),GRACE不僅在平均得分上全面超越所有基線,在retrieval、pair classification、clustering等任務(wù)上更是顯著領(lǐng)先。


此外,鑒于傳統(tǒng)對比學(xué)習(xí)往往導(dǎo)致模型“過擬合語義空間”,損害生成與推理能力。
研究人員驗(yàn)證了GRACE在通用任務(wù)(GSM8K、MMLU、FEVER、BBH、HumanEval)上的影響,結(jié)果顯示性能幾乎無下降,Δ<0.5%,遠(yuǎn)好于InfoNCE基線的“災(zāi)難性遺忘”。

這意味著,GRACE在不損失生成能力的前提下,大幅提升嵌入能力。
同時(shí),以往我們只能看到模型輸出的Embedding,但無法理解它“認(rèn)為這兩個(gè)文本相似”的原因。
但GRACE改變了這一點(diǎn):每個(gè)Embedding背后,都有一段生成式reasoning trace。
這讓Embedding從黑箱向可審查的「透明表征」轉(zhuǎn)變——用戶不僅能“用”Embedding,還能“看懂”Embedding。
整體而言,GRACE提出了一種全新的生成式表征學(xué)習(xí)框架:
- 讓LLM“先思考后生成”
- 用獎(jiǎng)勵(lì)而非損失驅(qū)動(dòng)
- 同時(shí)獲得強(qiáng)性能與高可解釋性
團(tuán)隊(duì)表示,這不僅是Embedding模型的一次范式轉(zhuǎn)變,更是邁向“能解釋自身理解過程”的大模型的重要一步。
論文鏈接:https://arxiv.org/abs/2510.04506
代碼與模型:https://github.com/GasolSun36/GRACE


































