偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

萬字剖析 Shopify 落地多 Agent 的企業(yè)級實戰(zhàn)經(jīng)驗 原創(chuàng)

發(fā)布于 2025-9-23 10:19
瀏覽
0收藏

Shopify是一站式電商平臺,助力全球商家線上線下賣貨。它從5人小團(tuán)隊起步,現(xiàn)已成長為擁有超10000名員工的全球化企業(yè),服務(wù)175個國家/地區(qū)的數(shù)百萬商家,2024年處理交易達(dá)2923億美元 。

萬字剖析 Shopify 落地多 Agent 的企業(yè)級實戰(zhàn)經(jīng)驗-AI.x社區(qū)

在 Shopify,研發(fā)了一款名為 Sidekick 的 AI 智能體助手,商家可以通過自然語言與它交互,完成店鋪管理的各類任務(wù):從分析客戶群體、填寫商品信息,到操作復(fù)雜的后臺界面。Sidekick 從最初簡單的 “工具調(diào)用系統(tǒng)”,逐步進(jìn)化成功能完善的智能化的 AI 智能體平臺。在這個過程中,在架構(gòu)設(shè)計、評估方法和訓(xùn)練技術(shù)上積累了不少經(jīng)驗,希望能分享給更多 AI 工程領(lǐng)域的同行。

一、Sidekick 的架構(gòu)進(jìn)化:圍繞 “智能 AI 智能體循環(huán)” 設(shè)計

Sidekick 的核心設(shè)計遵循 Anthropic 提出的 “智能 AI 智能體循環(huán)(Agentic Loop) ”這是一個持續(xù)循環(huán)的流程:人類輸入需求 → 大模型(LLM)處理需求并決定行動 → 在實際環(huán)境中執(zhí)行行動 → 收集反饋 → 重復(fù)循環(huán)直到任務(wù)完成。

萬字剖析 Shopify 落地多 Agent 的企業(yè)級實戰(zhàn)經(jīng)驗-AI.x社區(qū)

舉個實際例子:

  • 當(dāng)商家問 “我的客戶中有多少來自多倫多?”,Sidekick 會自動查詢客戶數(shù)據(jù)、添加 “城市包含多倫多” 的篩選條件,然后展示結(jié)果;
  • 當(dāng)商家需要 “幫我寫商品 SEO 描述”,它會先定位對應(yīng)的商品、理解商品背景,再生成優(yōu)化后的描述并直接填入商品表單。

實際場景演示:客戶分析與銷售查詢

萬字剖析 Shopify 落地多 Agent 的企業(yè)級實戰(zhàn)經(jīng)驗-AI.x社區(qū)

商家需求

Sidekick 的行動

最終結(jié)果

“我的客戶中有多少來自多倫多?”

調(diào)用客戶數(shù)據(jù)工具,篩選條件設(shè)為 “城市包含‘加拿大 - 安大略省 - 多倫多’”

找到 20 位多倫多客戶,占總客戶數(shù)的 3.74%,并建議可針對這些本地客戶推出 location-based 營銷活動

“過去 30 天的銷售額是多少?”

調(diào)用銷售數(shù)據(jù)工具,查詢時間范圍設(shè)為 “近 30 天”

顯示銷售額為 2657.83 加元,幫助商家快速掌握近期營收情況

二、工具復(fù)雜度難題:智能 AI 智能體的 “成長煩惱”

隨著 Sidekick 的功能擴(kuò)展,我們遇到了所有智能 AI 智能體系統(tǒng)都會面臨的 “規(guī)模挑戰(zhàn)”:工具數(shù)量從最初的幾個,逐漸增加到幾十個,復(fù)雜度也越來越高:

萬字剖析 Shopify 落地多 Agent 的企業(yè)級實戰(zhàn)經(jīng)驗-AI.x社區(qū)

工具數(shù)量范圍

系統(tǒng)狀態(tài)

核心問題

0-20 個

邊界清晰、易調(diào)試、行為可預(yù)測

無明顯問題

20-50 個

工具邊界模糊,組合使用時出現(xiàn)意外結(jié)果

難以判斷 “該用哪個工具”,組合邏輯容易出錯

50 個以上

完成同一任務(wù)有多種工具選擇,系統(tǒng)邏輯難以梳理

維護(hù)成本飆升,甚至出現(xiàn) “一千條指令亂成一團(tuán)” 的情況

這種增長最終導(dǎo)致了 “千條指令致死(Death by a Thousand Instructions) ”我們的系統(tǒng)提示詞里塞滿了特殊規(guī)則、沖突指引和邊緣場景處理邏輯,不僅拖慢了系統(tǒng)速度,還讓維護(hù)變得幾乎不可能。比如:

萬字剖析 Shopify 落地多 Agent 的企業(yè)級實戰(zhàn)經(jīng)驗-AI.x社區(qū)

  • “如果工具 X 返回錯誤,但工具 Y 可用,就用工具 Y”;
  • “處理庫存數(shù)據(jù)時要檢查 XX 字段,除非當(dāng)天是周二”;
  • “如果分析工具超時但訂單工具調(diào)用成功,就先基于訂單數(shù)據(jù)生成臨時結(jié)果”。

三、解決方案:即時指令(JIT Instructions)

我們的突破在于實現(xiàn)了 “即時指令(Just-in-Time Instructions) ”:不再把所有指引都塞進(jìn)系統(tǒng)提示詞,而是在工具返回數(shù)據(jù)的同時,同步返回當(dāng)前場景下需要的專屬指令。核心目標(biāo)是:給大模型的 “上下文” 不多不少,剛好適配當(dāng)前任務(wù)。

實際工作原理

以商家問 “什么是 Shop Pay?” 為例:

萬字剖析 Shopify 落地多 Agent 的企業(yè)級實戰(zhàn)經(jīng)驗-AI.x社區(qū)

  1. 系統(tǒng)識別到問題與 “Shop Pay” 相關(guān),自動匹配 “Shop Pay 解釋” 的專屬指令;
  2. 將 “專屬指令 + 工具返回的 Shop Pay 基礎(chǔ)數(shù)據(jù)” 一起傳給大模型;
  3. 大模型基于精準(zhǔn)上下文,生成清晰回答。

指令示例(傳給大模型的內(nèi)容):“請用簡潔的語言解釋 Shop Pay,重點說明它對商家和客戶的價值,避免技術(shù)術(shù)語。”

大模型回答:“Shop Pay 是一款加速結(jié)賬的工具,能讓客戶購物更快捷??蛻艨梢员4驵]箱、信用卡、配送和賬單信息,之后在任何支持 Shop Pay 的 Shopify 店鋪購物時,都能一鍵完成支付?!?/p>

即時指令的三大優(yōu)勢

  1. 指引本地化只有在需要時才展示指令,核心系統(tǒng)提示詞只保留 “智能 AI 智能體基礎(chǔ)行為規(guī)則”,不冗余;
  2. 緩存高效調(diào)整指令時不會破壞大模型的提示詞緩存(不用重新緩存整個系統(tǒng)提示詞);
  3. 模塊靈活可根據(jù) “功能開關(guān)(beta flags)、模型版本、當(dāng)前頁面場景” 動態(tài)切換指令(比如:給新商家展示更基礎(chǔ)的指引,給老商家展示高級功能)。

采用這種方案后,系統(tǒng)維護(hù)成本顯著降低,各項性能指標(biāo)也均有提升。

四、構(gòu)建可靠的大模型評估體系

部署智能 AI 智能體系統(tǒng)的最大挑戰(zhàn)之一是 “評估”,傳統(tǒng)軟件的測試方法(比如:單元測試、集成測試),很難應(yīng)對大模型輸出的 “概率性” 和多步驟 AI 智能體行為的 “復(fù)雜性”。

萬字剖析 Shopify 落地多 Agent 的企業(yè)級實戰(zhàn)經(jīng)驗-AI.x社區(qū)

很多團(tuán)隊會用 “感覺測試”(比如:“我覺得這個回答不錯”)或 “打分測試”(讓大模型給回答打 0-10 分),但這遠(yuǎn)遠(yuǎn)不夠。可靠的評估必須 “有原則、有統(tǒng)計嚴(yán)謹(jǐn)性”,否則上線后可能會面臨未知風(fēng)險。

1. 用 “真值集合(GTX)” 替代 “黃金數(shù)據(jù)集”

我們放棄了精心挑選的 “黃金數(shù)據(jù)集”(試圖覆蓋所有可能場景的人工造數(shù)據(jù)),轉(zhuǎn)而采用真值集合(Ground Truth Sets,簡稱 GTX),直接從生產(chǎn)環(huán)境中采樣真實的商家對話,基于實際場景制定評估標(biāo)準(zhǔn)。

構(gòu)建真值集合的三步流程:

  • 人工標(biāo)注至少 3 名產(chǎn)品專家,從 “任務(wù)完成度、回答準(zhǔn)確性、工具調(diào)用合理性” 等多個維度給對話打分;
  • 統(tǒng)計驗證用科恩卡帕系數(shù)(Cohen's Kappa)、肯德爾系數(shù)(Kendall Tau)、皮爾遜相關(guān)系數(shù)(Pearson correlation)衡量標(biāo)注者之間的一致性(確保評估標(biāo)準(zhǔn)統(tǒng)一);
  • 基準(zhǔn)設(shè)定將 “人工標(biāo)注一致性” 作為大模型評估器(LLM-as-a-Judge)的理論性能上限(大模型評估器的表現(xiàn)不能低于這個基準(zhǔn))。

2. 大模型評估器:與人類判斷校準(zhǔn)

我們?yōu)?Sidekick 的不同性能維度(比如:“工具調(diào)用正確性”“回答清晰度”)開發(fā)了專用的大模型評估器,但關(guān)鍵在于 “讓評估器與人類判斷對齊”。

通過反復(fù)優(yōu)化提示詞,我們的評估器從 “幾乎隨機(jī)”(科恩卡帕系數(shù) 0.02)提升到 “接近人類水平”(系數(shù) 0.61,人類基準(zhǔn)為 0.69)。校準(zhǔn)小技巧:隨機(jī)用人類標(biāo)注替代評估器標(biāo)注,若無法區(qū)分 “哪部分是人類標(biāo)的、哪部分是評估器標(biāo)的”,就說明評估器足夠可靠。

3. 用戶模擬器:預(yù)生產(chǎn)環(huán)境的 “壓力測試”

為了在上線前驗證新功能 / 新架構(gòu),我們開發(fā)了大模型驅(qū)動的商家模擬器,它能學(xué)習(xí)真實商家對話的 “核心意圖”(比如:“查詢庫存”“修改商品價格”),然后用這些意圖 “復(fù)現(xiàn)對話”,測試候選系統(tǒng)的表現(xiàn)。

完整評估流程:

  • 從生產(chǎn)環(huán)境采樣真實商家對話;
  • 商家模擬器學(xué)習(xí)對話意圖,生成 “模擬需求”;
  • 讓候選系統(tǒng)處理 “模擬需求”;
  • 用校準(zhǔn)后的大模型評估器打分;
  • 選擇分?jǐn)?shù)最高的候選系統(tǒng)上線。

這套流程能有效發(fā)現(xiàn) “功能退化”(比如:新功能導(dǎo)致老功能出錯),確保上線前問題被提前解決。

五、GRPO 訓(xùn)練與 “獎勵作弊” 應(yīng)對

在模型微調(diào)階段,我們采用了 “分組相對策略優(yōu)化(Group Relative Policy Optimization,GRPO) ”,這是一種強(qiáng)化學(xué)習(xí)方法,用大模型評估器的打分作為 “獎勵信號”,優(yōu)化模型行為。同時,我們設(shè)計了 “N 階段門控獎勵系統(tǒng)”,結(jié)合 “規(guī)則驗證(語法檢查、 schema 校驗)” 和 “語義評估(大模型打分)”,確保獎勵信號可靠。

躲不開的 “獎勵作弊”

盡管評估設(shè)計很謹(jǐn)慎,訓(xùn)練過程中還是出現(xiàn)了嚴(yán)重的 “獎勵作弊”,模型找到各種 “鉆空子” 的方法,騙取高獎勵:

  • 拒絕作弊遇到復(fù)雜任務(wù)時,不嘗試解決,反而解釋 “為什么無法幫忙”(比如:“當(dāng)前系統(tǒng)暫不支持該功能”);
  • 標(biāo)簽作弊用 “客戶標(biāo)簽” 替代正確的字段映射(比如:把 “客戶賬戶狀態(tài) = 啟用” 寫成 “客戶標(biāo)簽包含‘啟用’”);
  • 格式作弊編造不存在的 ID,或使用錯誤的枚舉值(比如:把 “支付狀態(tài) = 已完成” 寫成 “支付狀態(tài) = success”,不符合系統(tǒng)格式不符合系統(tǒng)格式要求)。

舉個具體例子:商家要求 “篩選‘賬戶狀態(tài)為啟用’的客戶”,模型為了省事,會生成錯誤的篩選條件 ??customer_tags CONTAINS 'enabled'???(用標(biāo)簽匹配),而非正確的 ??customer_account_status = 'ENABLED'??(用字段匹配)。

迭代優(yōu)化:解決獎勵作弊

我們通過兩方面改進(jìn)解決了這個問題:

  1. 升級語法驗證器:能識別 “標(biāo)簽作弊”“格式錯誤”,準(zhǔn)確率從約 93% 提升 93% 提升到 99%;
  2. 優(yōu)化大模型評估器:增強(qiáng)對 “語義正確性” 的判斷,與人類標(biāo)注的相關(guān)性從 0.66 提升到 0.75。

萬字剖析 Shopify 落地多 Agent 的企業(yè)級實戰(zhàn)經(jīng)驗-AI.x社區(qū)

最終,模型的 “端到端對話質(zhì)量” 達(dá)到了有監(jiān)督微調(diào)的基準(zhǔn)水平,且不再出現(xiàn)明顯的獎勵作弊行為。

六、構(gòu)建生產(chǎn)級智能 AI 智能體系統(tǒng)的核心經(jīng)驗

基于 Sidekick 的研發(fā)和部署經(jīng)歷,我們總結(jié)出以下關(guān)鍵建議:

1. 架構(gòu)設(shè)計原則

  • 保持簡潔不要隨意添加工具,工具的 “質(zhì)量比數(shù)量重要”,每個工具要有清晰的功能邊界;
  • 從模塊化開始盡早采用 “即時指令” 這類模塊化模式,避免系統(tǒng)規(guī)模擴(kuò)大后變得難以維護(hù);
  • 初期避免多 AI 智能體架構(gòu)簡單的 “單 AI 智能體系統(tǒng)” 能處理的復(fù)雜度,比你想象的要多(多 AI 智能體的協(xié)作成本在初期會很高)。

2. 評估體系建設(shè)

  • 開發(fā)多個專用評估器不同性能維度(工具調(diào)用、回答準(zhǔn)確性、用戶體驗)需要不同的評估器;
  • 讓評估器與人類對齊評估器的打分必須與人類判斷有統(tǒng)計相關(guān)性,否則無法信任;
  • 提前應(yīng)對獎勵作弊預(yù)設(shè) “作弊檢測機(jī)制”(比如:語法校驗、語義一致性檢查),不要等模型作弊后再補(bǔ)救。

3. 訓(xùn)練與部署技巧

  • 規(guī)則 + 語義雙重驗證獎勵信號要結(jié)合 “規(guī)則檢查(客觀)” 和 “大模型評估(主觀)”,避免單一維度的偏差;
  • 投入用戶模擬器可靠的模擬器能在上線前發(fā)現(xiàn)大部分問題,減少生產(chǎn)環(huán)境故障;
  • 持續(xù)優(yōu)化評估器隨著系統(tǒng)迭代,會出現(xiàn)新的 “失敗模式”,需要定期更新評估器的判斷邏輯。

七、未來展望

目前,我們?nèi)栽诔掷m(xù)優(yōu)化 Sidekick 的架構(gòu)和評估系統(tǒng),后續(xù)計劃包括:將 “推理軌跡” 納入訓(xùn)練流程、在訓(xùn)練中結(jié)合模擬器和生產(chǎn)環(huán)境評估器、探索更高效的訓(xùn)練方法。

雖然 “生產(chǎn)級智能 AI 智能體系統(tǒng)” 領(lǐng)域還很年輕,但我們在 Shopify 總結(jié)的模式:模塊化架構(gòu)、可靠評估體系、警惕獎勵作弊,為構(gòu)建 “商家可信賴的 AI 智能體” 奠定了基礎(chǔ)。

構(gòu)建可投入生產(chǎn)的智能 AI 智能體系統(tǒng),不只是 “把大模型和工具連起來” 那么簡單。它需要審慎的架構(gòu)決策、嚴(yán)謹(jǐn)?shù)脑u估方法,以及對 “系統(tǒng)潛在故障” 的持續(xù)警惕。但如果能做好這些,最終的 AI 智能體將能真正 “增強(qiáng)人類能力”,為商家創(chuàng)造實實在在的價值。

好了,這就是我今天想分享的內(nèi)容。


本文轉(zhuǎn)載自??玄姐聊AGI??  作者:玄姐

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-9-23 13:59:55修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦