27個大模型混戰(zhàn)電商領(lǐng)域，DeepSeek-R1&V3仍是最強丨首個中文電商問答基準(zhǔn)評估結(jié)果

作者：量子位 2025-03-17 08:48:00

人工智能新聞

隨著大模型在電商領(lǐng)域的廣泛應(yīng)用，如何精準(zhǔn)評估其對專業(yè)領(lǐng)域知識的掌握成為關(guān)鍵挑戰(zhàn)。

全面評估大模型電商領(lǐng)域能力，首個聚焦電商基礎(chǔ)概念的可擴(kuò)展問答基準(zhǔn)來了！

ChineseEcomQA，來自淘天集團(tuán)。

此前，大模型常因生成事實性錯誤信息而受限，而傳統(tǒng)基準(zhǔn)又難以兼顧電商任務(wù)的多樣性與領(lǐng)域特殊性。

但隨著大模型在電商領(lǐng)域的廣泛應(yīng)用，如何精準(zhǔn)評估其對專業(yè)領(lǐng)域知識的掌握成為關(guān)鍵挑戰(zhàn)。

為此，ChineseEcomQA針對性進(jìn)行了3大核心設(shè)計：

基礎(chǔ)概念覆蓋：覆蓋20大行業(yè)，聚焦10類核心電商概念（如行業(yè)分類、品牌屬性、用戶意圖等），包含1800組高質(zhì)量問答，適配多樣電商任務(wù)；
混合數(shù)據(jù)構(gòu)建：融合LLM生成、檢索增強（RAG）與人工標(biāo)注，確保數(shù)據(jù)質(zhì)量與領(lǐng)域?qū)I(yè)性；
平衡評估維度：兼顧行業(yè)通用性與專業(yè)性，支持精準(zhǔn)領(lǐng)域能力驗證。

ChineseEcomQA構(gòu)建流程

從電子商務(wù)基本元素（用戶行為、商品信息等）出發(fā)，團(tuán)隊總結(jié)出電子商務(wù)概念的主要類型。

最終定義了從基礎(chǔ)概念到高級概念的10個子概念（具體詳見論文）：

行業(yè)分類、行業(yè)概念、類別概念、品牌概念、屬性概念、口語概念、意圖概念、評論概念、相關(guān)性概念、個性化概念。

然后，研究人員采用混合的數(shù)據(jù)集構(gòu)建過程，結(jié)合LLM驗證、RAG驗證和嚴(yán)格的人工標(biāo)注，確?；鶞?zhǔn)符合三個核心特性：

專注基礎(chǔ)概念
電商知識通用性
電商知識專業(yè)性

具體來說，構(gòu)建ChineseEcomQA主要分為自動化問答對生成和質(zhì)量驗證兩個階段。

第一階段，問答對生成。

研究者收集了大量知識豐富且涵蓋各種相關(guān)概念的電子商務(wù)語料庫。

然后，提示大模型（GPT-4o）根據(jù)給定的內(nèi)容忠實地生成問答對；對于比較開放的問題，要求大模型同時提供非?；靵y和困難的候選答案。

從而自動化地構(gòu)建出大量問答對作為初始評測集。

第二階段，質(zhì)量驗證。

我們開發(fā)了一個多輪自動化流程對生成的問答對進(jìn)行驗證，重新生成或過濾不符合標(biāo)準(zhǔn)的問題。

具體包括大模型驗證、電子商務(wù)通用知識驗證、電子商務(wù)專業(yè)知識驗證、電子商務(wù)事實性驗證、難度篩選、人工驗證。

經(jīng)過多重嚴(yán)格篩選，最終得到均勻覆蓋10大類電商子概念的1800條高質(zhì)量問答對作為終版數(shù)據(jù)集。

DeepSeek-R1和V3表現(xiàn)最佳

評估了11個閉源模型和16個開源模型，得出如下排名榜：

（注：對于子概念，IC、IDC、CC、BC、AC、SC、ITC、RVC、RLC 和 PC 分別代表“行業(yè)分類”“行業(yè)概念”“類別概念”“品牌概念”“屬性概念”“口語概念”“意圖概念”“評論概念”“相關(guān)性概念”和“個性化概念”）

總的來看，DeepSeek-R1和DeepSeek-V3是表現(xiàn)最好的模型，展示了強大的基礎(chǔ)模型（推理模型）在電子商務(wù)領(lǐng)域的巨大潛力。

此外，研究團(tuán)隊對主流模型表現(xiàn)分析并得出了以下發(fā)現(xiàn)：

更大的模型在高級電商概念上表現(xiàn)更好，遵循Scaling Law，但小模型在特定電商任務(wù)上仍面臨顯著挑戰(zhàn)。
中文社區(qū)模型（如Qwen系列、GLM-4）在電商場景適應(yīng)性上表現(xiàn)突出，尤其是在高級電子商務(wù)概念上。雖然O1-preview在基本概念上表現(xiàn)更好，但在更高級的概念上面臨困難。
某些類型的電子商務(wù)概念（如相關(guān)性概念）仍然對 LLM 構(gòu)成重大挑戰(zhàn)。大參數(shù)量模型由于其強大的通用能力，可以泛化到電商任務(wù)上，而小參數(shù)量模型則更有困難。這些特點體現(xiàn)了專門開發(fā)電商領(lǐng)域模型的必要性。
Deepseek-R1-Distill-Qwen系列的表現(xiàn)不如原始的Qwen系列，主要原因是在推理過程中引入知識點錯誤，進(jìn)而導(dǎo)致最終結(jié)論出錯。
開源模型和閉源模型之間的性能差距很小。以Deepseek為代表的開源模型使二者達(dá)到了相似的水平。
通過引入RAG策略，模型的性能顯著提升，縮小了不同模型之間的性能差距。
LLM的自我評估能力（校準(zhǔn)）在不同模型中存在差異，更大的模型通常表現(xiàn)出更好的校準(zhǔn)能力。
Reasoning LLM需警惕“思維鏈中的事實性錯誤累積”，尤其是蒸餾模型。

同時，團(tuán)隊還在ChineseEcomQA上探索了模型校準(zhǔn)、RAG、推理模型思維過程等熱門研究課題（具體詳見論文）。

模型往往對回答“過于自信”

一個完美校準(zhǔn)的模型應(yīng)該表現(xiàn)出與其預(yù)測準(zhǔn)確度一致的置信度。

ChineseEcomQA團(tuán)隊通過提示模型在回答問題的同時給出其對回答內(nèi)容的置信度（范圍0到100），探索模型的事實準(zhǔn)確性與置信度之間的關(guān)系。

結(jié)果顯示，o1-preview表現(xiàn)出最佳對齊性能，其次是o1-mini。

然而，大多數(shù)模型始終低于完美對齊線，表明模型普遍存在過度自信的趨勢。

這凸顯了改進(jìn)大型語言模型校準(zhǔn)以減輕過度自信產(chǎn)生錯誤響應(yīng)的巨大空間。

RAG仍是快速提升模型能力的捷徑

研究過程中，團(tuán)隊探討了RAG策略在ChineseEcomQA數(shù)據(jù)集上增強LLM領(lǐng)域知識的有效性。

具體來說，研究者在類別概念和品牌概念上的設(shè)置重現(xiàn)了一個RAG系統(tǒng)。

結(jié)果顯示，所有模型都通過RAG都得到了顯著提升。研究人員總結(jié)出三個詳細(xì)的結(jié)論。

第一，對于小型LLM，引入RAG信息可以顯著提高評估指標(biāo)的絕對值。

例如，Qwen2.5-14B實現(xiàn)了27.9%的改進(jìn)。

第二，對于大型LLM，RAG也可以實現(xiàn)顯著的相對改進(jìn)。

例如，DeepSeek-V3的平均相對改進(jìn)達(dá)到了10.44%（準(zhǔn)確率從77.4提高到85.5）。

第三，在RAG設(shè)置下，模型之間的性能仍然遵循縮放規(guī)律，但差距迅速縮小。

例如，Deepseek-V3和Qwen2.5-72B之間的準(zhǔn)確率差異從12.1%縮小到 4%。

總之，RAG仍是增強LLM電子商務(wù)知識的有效方法。

警惕“思維鏈中的事實性錯誤累積”

在主要結(jié)果中，Deepseek-R1取得了最佳結(jié)果，充分展示了Reasoning LLM在開放領(lǐng)域中的潛力。

然而，在從Deepseek-R1蒸餾出的Qwen系列模型上，準(zhǔn)確率明顯低于預(yù)期。

由于開源Reasoning LLM揭示了它們的思維過程，研究者進(jìn)一步調(diào)查其錯誤的原因，并將推理模型的思維過程分為以下四種類型：

Type A：Reasoning LLM通過自我反思反復(fù)確認(rèn)正確答案。
Type B：Reasoning LLM最初犯了錯誤，但通過自我反思糾正了錯誤。
Type C：Reasoning LLM通過自我反思引入知識錯誤，導(dǎo)致原本可能正確的答案被修改為不正確的答案。
Type D：Reasoning LLM反復(fù)自我反思。雖然最終得出了答案，但并沒有通過反思獲得高度確定和自信的答案。

總體而言，Type A和Type B是通過擴(kuò)大test-time計算量獲得的推理能力；Type C和Type D是膚淺的自我反思，導(dǎo)致最終答案不正確。

由于Deepseek-R1強大的buase模型能力表現(xiàn)出更好的泛化能力。

相比之下，在某些特定領(lǐng)域蒸餾的DeepSeek-R1-Distill-Qwen系列似乎在膚淺的自我反思方面遇到了困難。中間推理步驟中事實錯誤的積累增加了整體錯誤率。

對于較小的推理LLM，開放領(lǐng)域的推理能力不能直接通過數(shù)理邏輯能力來泛化，需要找到更好的方法來提高它們的性能。

One More Thing

該論文核心作者包括陳海斌，呂康滔，袁愈錦，蘇文博，研究團(tuán)隊來自淘天集團(tuán)算法技術(shù) - 未來生活實驗室。

該實驗室聚焦大模型、多模態(tài)等AI技術(shù)方向，致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應(yīng)用，引領(lǐng) AI 在生活消費領(lǐng)域的技術(shù)創(chuàng)新。

淘天集團(tuán)算法技術(shù) - 未來生活實驗室團(tuán)隊將持續(xù)更新和維護(hù)數(shù)據(jù)集及評測榜單，歡迎廣大研究者使用我們的評測集進(jìn)行實驗和研究～

論文鏈接：https://arxiv.org/abs/2502.20196
項目主頁：https://openstellarteam.github.io/ChineseEcomQA/
代碼倉庫：https://github.com/OpenStellarTeam/ChineseEcomQA
數(shù)據(jù)集下載：https://huggingface.co/datasets/OpenStellarTeam/Chinese-EcomQA

責(zé)任編輯：張燕妮來源：量子位

大模型 AI 生成

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

27個大模型混戰(zhàn)電商領(lǐng)域，DeepSeek-R1&V3仍是最強丨首個中文電商問答基準(zhǔn)評估結(jié)果