27個大模型混戰(zhàn)電商領(lǐng)域,DeepSeek-R1&V3仍是最強丨首個中文電商問答基準(zhǔn)評估結(jié)果
全面評估大模型電商領(lǐng)域能力,首個聚焦電商基礎(chǔ)概念的可擴(kuò)展問答基準(zhǔn)來了!
ChineseEcomQA,來自淘天集團(tuán)。
此前,大模型常因生成事實性錯誤信息而受限,而傳統(tǒng)基準(zhǔn)又難以兼顧電商任務(wù)的多樣性與領(lǐng)域特殊性。
但隨著大模型在電商領(lǐng)域的廣泛應(yīng)用,如何精準(zhǔn)評估其對專業(yè)領(lǐng)域知識的掌握成為關(guān)鍵挑戰(zhàn)。
為此,ChineseEcomQA針對性進(jìn)行了3大核心設(shè)計:
- 基礎(chǔ)概念覆蓋:覆蓋20大行業(yè),聚焦10類核心電商概念(如行業(yè)分類、品牌屬性、用戶意圖等),包含1800組高質(zhì)量問答,適配多樣電商任務(wù);
- 混合數(shù)據(jù)構(gòu)建:融合LLM生成、檢索增強(RAG)與人工標(biāo)注,確保數(shù)據(jù)質(zhì)量與領(lǐng)域?qū)I(yè)性;
- 平衡評估維度:兼顧行業(yè)通用性與專業(yè)性,支持精準(zhǔn)領(lǐng)域能力驗證。
ChineseEcomQA構(gòu)建流程
從電子商務(wù)基本元素(用戶行為、商品信息等)出發(fā),團(tuán)隊總結(jié)出電子商務(wù)概念的主要類型。
最終定義了從基礎(chǔ)概念到高級概念的10個子概念(具體詳見論文):
行業(yè)分類、行業(yè)概念、類別概念、品牌概念、屬性概念、口語概念、意圖概念、評論概念、相關(guān)性概念、個性化概念。
然后,研究人員采用混合的數(shù)據(jù)集構(gòu)建過程,結(jié)合LLM驗證、RAG驗證和嚴(yán)格的人工標(biāo)注,確?;鶞?zhǔn)符合三個核心特性:
- 專注基礎(chǔ)概念
- 電商知識通用性
- 電商知識專業(yè)性
具體來說,構(gòu)建ChineseEcomQA主要分為自動化問答對生成和質(zhì)量驗證兩個階段。
第一階段,問答對生成。
研究者收集了大量知識豐富且涵蓋各種相關(guān)概念的電子商務(wù)語料庫。
然后,提示大模型(GPT-4o)根據(jù)給定的內(nèi)容忠實地生成問答對;對于比較開放的問題,要求大模型同時提供非?;靵y和困難的候選答案。
從而自動化地構(gòu)建出大量問答對作為初始評測集。
第二階段,質(zhì)量驗證。
我們開發(fā)了一個多輪自動化流程對生成的問答對進(jìn)行驗證,重新生成或過濾不符合標(biāo)準(zhǔn)的問題。
具體包括大模型驗證、電子商務(wù)通用知識驗證、電子商務(wù)專業(yè)知識驗證、電子商務(wù)事實性驗證、難度篩選、人工驗證。
經(jīng)過多重嚴(yán)格篩選,最終得到均勻覆蓋10大類電商子概念的1800條高質(zhì)量問答對作為終版數(shù)據(jù)集。
DeepSeek-R1和V3表現(xiàn)最佳
評估了11個閉源模型和16個開源模型,得出如下排名榜:
(注:對于子概念,IC、IDC、CC、BC、AC、SC、ITC、RVC、RLC 和 PC 分別代表“行業(yè)分類”“行業(yè)概念”“類別概念”“品牌概念”“屬性概念”“口語概念”“意圖概念”“評論概念”“相關(guān)性概念”和“個性化概念”)
總的來看,DeepSeek-R1和DeepSeek-V3是表現(xiàn)最好的模型,展示了強大的基礎(chǔ)模型(推理模型)在電子商務(wù)領(lǐng)域的巨大潛力。
此外,研究團(tuán)隊對主流模型表現(xiàn)分析并得出了以下發(fā)現(xiàn):
- 更大的模型在高級電商概念上表現(xiàn)更好,遵循Scaling Law,但小模型在特定電商任務(wù)上仍面臨顯著挑戰(zhàn)。
- 中文社區(qū)模型(如Qwen系列、GLM-4)在電商場景適應(yīng)性上表現(xiàn)突出,尤其是在高級電子商務(wù)概念上。雖然O1-preview在基本概念上表現(xiàn)更好,但在更高級的概念上面臨困難。
- 某些類型的電子商務(wù)概念(如相關(guān)性概念)仍然對 LLM 構(gòu)成重大挑戰(zhàn)。大參數(shù)量模型由于其強大的通用能力,可以泛化到電商任務(wù)上,而小參數(shù)量模型則更有困難。這些特點體現(xiàn)了專門開發(fā)電商領(lǐng)域模型的必要性。
- Deepseek-R1-Distill-Qwen系列的表現(xiàn)不如原始的Qwen系列,主要原因是在推理過程中引入知識點錯誤,進(jìn)而導(dǎo)致最終結(jié)論出錯。
- 開源模型和閉源模型之間的性能差距很小。以Deepseek為代表的開源模型使二者達(dá)到了相似的水平。
- 通過引入RAG策略,模型的性能顯著提升,縮小了不同模型之間的性能差距。
- LLM的自我評估能力(校準(zhǔn))在不同模型中存在差異,更大的模型通常表現(xiàn)出更好的校準(zhǔn)能力。
- Reasoning LLM需警惕“思維鏈中的事實性錯誤累積”,尤其是蒸餾模型。
同時,團(tuán)隊還在ChineseEcomQA上探索了模型校準(zhǔn)、RAG、推理模型思維過程等熱門研究課題(具體詳見論文)。
模型往往對回答“過于自信”
一個完美校準(zhǔn)的模型應(yīng)該表現(xiàn)出與其預(yù)測準(zhǔn)確度一致的置信度。
ChineseEcomQA團(tuán)隊通過提示模型在回答問題的同時給出其對回答內(nèi)容的置信度(范圍0到100),探索模型的事實準(zhǔn)確性與置信度之間的關(guān)系。
結(jié)果顯示,o1-preview表現(xiàn)出最佳對齊性能,其次是o1-mini。
然而,大多數(shù)模型始終低于完美對齊線,表明模型普遍存在過度自信的趨勢。
這凸顯了改進(jìn)大型語言模型校準(zhǔn)以減輕過度自信產(chǎn)生錯誤響應(yīng)的巨大空間。
RAG仍是快速提升模型能力的捷徑
研究過程中,團(tuán)隊探討了RAG策略在ChineseEcomQA數(shù)據(jù)集上增強LLM領(lǐng)域知識的有效性。
具體來說,研究者在類別概念和品牌概念上的設(shè)置重現(xiàn)了一個RAG系統(tǒng)。
結(jié)果顯示,所有模型都通過RAG都得到了顯著提升。研究人員總結(jié)出三個詳細(xì)的結(jié)論。
第一,對于小型LLM,引入RAG信息可以顯著提高評估指標(biāo)的絕對值。
例如,Qwen2.5-14B實現(xiàn)了27.9%的改進(jìn)。
第二,對于大型LLM,RAG也可以實現(xiàn)顯著的相對改進(jìn)。
例如,DeepSeek-V3的平均相對改進(jìn)達(dá)到了10.44%(準(zhǔn)確率從77.4提高到85.5)。
第三,在RAG設(shè)置下,模型之間的性能仍然遵循縮放規(guī)律,但差距迅速縮小。
例如,Deepseek-V3和Qwen2.5-72B之間的準(zhǔn)確率差異從12.1%縮小到 4%。
總之,RAG仍是增強LLM電子商務(wù)知識的有效方法。
警惕“思維鏈中的事實性錯誤累積”
在主要結(jié)果中,Deepseek-R1取得了最佳結(jié)果,充分展示了Reasoning LLM在開放領(lǐng)域中的潛力。
然而,在從Deepseek-R1蒸餾出的Qwen系列模型上,準(zhǔn)確率明顯低于預(yù)期。
由于開源Reasoning LLM揭示了它們的思維過程,研究者進(jìn)一步調(diào)查其錯誤的原因,并將推理模型的思維過程分為以下四種類型:
- Type A:Reasoning LLM通過自我反思反復(fù)確認(rèn)正確答案。
- Type B:Reasoning LLM最初犯了錯誤,但通過自我反思糾正了錯誤。
- Type C:Reasoning LLM通過自我反思引入知識錯誤,導(dǎo)致原本可能正確的答案被修改為不正確的答案。
- Type D:Reasoning LLM反復(fù)自我反思。雖然最終得出了答案,但并沒有通過反思獲得高度確定和自信的答案。
總體而言,Type A和Type B是通過擴(kuò)大test-time計算量獲得的推理能力;Type C和Type D是膚淺的自我反思,導(dǎo)致最終答案不正確。
由于Deepseek-R1強大的buase模型能力表現(xiàn)出更好的泛化能力。
相比之下,在某些特定領(lǐng)域蒸餾的DeepSeek-R1-Distill-Qwen系列似乎在膚淺的自我反思方面遇到了困難。中間推理步驟中事實錯誤的積累增加了整體錯誤率。
對于較小的推理LLM,開放領(lǐng)域的推理能力不能直接通過數(shù)理邏輯能力來泛化,需要找到更好的方法來提高它們的性能。
One More Thing
該論文核心作者包括陳海斌,呂康滔,袁愈錦,蘇文博,研究團(tuán)隊來自淘天集團(tuán)算法技術(shù) - 未來生活實驗室。
該實驗室聚焦大模型、多模態(tài)等AI技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應(yīng)用,引領(lǐng) AI 在生活消費領(lǐng)域的技術(shù)創(chuàng)新。
淘天集團(tuán)算法技術(shù) - 未來生活實驗室團(tuán)隊將持續(xù)更新和維護(hù)數(shù)據(jù)集及評測榜單,歡迎廣大研究者使用我們的評測集進(jìn)行實驗和研究~
論文鏈接:https://arxiv.org/abs/2502.20196
項目主頁:https://openstellarteam.github.io/ChineseEcomQA/
代碼倉庫:https://github.com/OpenStellarTeam/ChineseEcomQA
數(shù)據(jù)集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-EcomQA