轉(zhuǎn)轉(zhuǎn)LLM應(yīng)用-重排階段商品粒度的跨品類搭配
1 背景
2 數(shù)據(jù)準備
2.1 pair收集
2.2 pair處理
3 LLM標注打分
3.1 評估標準
3.2 prompt拆分設(shè)計
4 模型訓練
4.1 樣本定義
4.2 微調(diào)Qwen 7b
4.3 bert蒸餾
5 總結(jié)與展望
1.背景
轉(zhuǎn)轉(zhuǎn)首頁推薦每刷主要由興趣商品與可能感興趣的探索商品填充,探索品類是根據(jù)興趣品類關(guān)聯(lián)出的結(jié)果。商品搭配在重排階段,通過構(gòu)建跨品類搭配pair對,訓練模型,讓模型學習到商品的合理搭配,進行精細化探索,提升搭配效率與用戶體驗。
整個過程分為兩階段,第一階段pair的收集與大模型標注處理,第二階段基于Qwen 7B進行bert蒸餾解決大模型上線耗時問題。
2.數(shù)據(jù)準備
2.1 pair收集
根據(jù)用戶歷史行為獲取商品粒度pair對,并進行如下預(yù)處理,最終得到不同頻次pair。

2.2 pair處理
我們根據(jù)頻次將pair 分為高頻、中頻、低頻三類:
- 高頻:默認大多數(shù)用戶常見的行為偏好搭配,這類pair直接進行人工抽檢,然后進行數(shù)據(jù)清洗。
- 中頻:由于行為頻次一般,置信度一般,使用大模型校驗,確保搭配的合理性,最后人工抽檢,清洗數(shù)據(jù)。
- 低頻:對于長尾N品類,由于商品行為較少,并不代表沒有合理的搭配,人工從中挑出合理搭配,使用大模型進行few shot learning,補充長尾N的pair,最后人工抽檢,清洗數(shù)據(jù)。
整個過程如下圖所示:

3 LLM標注打分
3.1 評估標準
我們從商品品類、顏色、品牌、成色、型號5個維度來評估商品之間的可搭配性,每個維度評分范圍1-10,并根據(jù)實際場景,為不同的屬性配比不同權(quán)重1%-100%,綜合分數(shù)越高表明可搭配性越強。以品類為例,關(guān)聯(lián)關(guān)系強弱不同,給予的評分也不同,其他屬性以此類推。

3.2 prompt拆分設(shè)計
在使用大模型打分的時候,如果prompt篇幅較長,耗時就會嚴重超標,無法接受,考慮拆分屬性,多個屬性并發(fā)進行。以品類為例,prompt如下所示:

4.模型訓練
由于大模型上線耗時問題,我們通過蒸餾方式,部署bert到線上。
4.1 樣本定義
每個pair的分數(shù)范圍在1-10,中低頻pair的分數(shù)根據(jù)大模型打分定義,高頻pair默認10分。
4.2 微調(diào)Qwen 7b
蒸餾之前,先將樣本通過微調(diào)Qwen 7B,讓模型獲取商品搭配的垂直領(lǐng)域能力。
loss:

4.3 bert蒸餾
蒸餾的框架大致如下,其中,Teacher就是微調(diào)后的Qwen 7b,Student是bert(340M)。

損失函數(shù)由兩部分組成,第一部分是學生向老師看齊的distill_loss,這部分不計算梯度,第二部分就是搭配關(guān)系的task_loss,temp表示權(quán)重:

5.總結(jié)與展望
- 在首頁feed上線后,策略覆蓋流量上pv商詳?shù)竭_率提升+6%,uv商詳?shù)竭_率提升5%。
- 利用大模型標注能力,有效地節(jié)省了人力,可以大規(guī)模生產(chǎn)樣本。
- bert蒸餾,使得大模型知識應(yīng)用于線上成為可能。
- 商品品類豐富,目前使用的商品屬性粒度較粗,但具有一定普適性,未來會考慮分類目使用更細粒度的商品屬性進行搭配優(yōu)化。
- 未來會進一步在新用戶上嘗試,區(qū)別在于新用戶并沒有興趣點擊行為,這時候針對非興趣商品之間,兩個或多個關(guān)聯(lián)商品聯(lián)合搭配展示給用戶。
關(guān)于作者
郭志偉、英銳,轉(zhuǎn)轉(zhuǎn)算法工程師,主要負責推薦場景精排及重排相關(guān)工作。































