偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

圖像算法助力提效轉(zhuǎn)轉(zhuǎn)商品審核

人工智能 算法
我們?cè)诘谝还?jié)介紹了商品上架審核的背景,我們?yōu)槭裁匆獙徍艘约皩徍说膬?nèi)容,同時(shí)分析了當(dāng)前業(yè)務(wù)中人工審核面臨的一些問(wèn)題,然后給出了算法賦能業(yè)務(wù)帶來(lái)的好處。

一、商品審核背景介紹

轉(zhuǎn)轉(zhuǎn)是一家主營(yíng)二手商品交易的電商平臺(tái)。根據(jù)交易主體的不同,可以形成C2C、C2B、B2C等交易關(guān)系。比如個(gè)人用戶在轉(zhuǎn)轉(zhuǎn)app的自由市場(chǎng)發(fā)布商品進(jìn)行售賣屬于C2C模式、轉(zhuǎn)轉(zhuǎn)公司提供手機(jī)和其他電子產(chǎn)品的郵寄與上門回收C2B服務(wù),轉(zhuǎn)轉(zhuǎn)app還提供官方驗(yàn)和質(zhì)保與售后的二手B2C商品。本文將重點(diǎn)介紹轉(zhuǎn)轉(zhuǎn) B2C 賣場(chǎng)商品上架審核過(guò)程中圖像算法的應(yīng)用。

由于二手商品的非標(biāo)品性質(zhì),即便同一sku下的不同庫(kù)存商品間也存在著成色差異。平臺(tái)為了提升用戶體驗(yàn),增加商品信息的透明度,在展示二手商品時(shí)全部采用實(shí)拍商品圖,避免使用渲染的標(biāo)品圖片。這就涉及到對(duì)每個(gè)上架商品的相關(guān)展示圖片進(jìn)行信息準(zhǔn)確性、圖片質(zhì)量等各方面的審核問(wèn)題。

業(yè)務(wù)發(fā)展初期,上架商品的相關(guān)展示圖片均由人工審核來(lái)保證圖片的質(zhì)量和準(zhǔn)確性,審核的內(nèi)容主要有以下幾個(gè)方面:

  • 展示圖與實(shí)際商品是否一致,避免“貨不對(duì)板”的情況出現(xiàn);
  • 展示圖照片是否清晰,流水化作業(yè)的商品圖拍攝過(guò)程中偶爾會(huì)出現(xiàn)相機(jī)對(duì)焦失誤的情況;
  • 手機(jī)、平板電腦等電子產(chǎn)品需要保證沒(méi)有臟污,并在重點(diǎn)部位貼防拆標(biāo);
  • 為了商品圖片在app中的展示效果,要對(duì)商品圖進(jìn)行適當(dāng)剪裁使得商品在圖片中居中。

隨著業(yè)務(wù)的發(fā)展,每日上架商品日益增多,人工審核在審核效率和準(zhǔn)確性上逐漸暴露出了一些問(wèn)題:

  • 審核工作枯燥、易疲勞,人工審核出錯(cuò)概率較高;
  • 圖片清晰度的判斷偏主觀,不同審核人員之間的審核標(biāo)準(zhǔn)很難拉齊;
  • 人工審核處理量已經(jīng)逐漸落后于商品上架量,對(duì)于賣場(chǎng)商品的發(fā)布造成了瓶頸。

針對(duì)審核內(nèi)容里面的重復(fù)性工作,我們使用了圖像領(lǐng)域相關(guān)的分類、回歸、檢測(cè)等技術(shù),用算法模型輸出輔助人工判斷,在提升了審核結(jié)果的準(zhǔn)確度的同時(shí)大幅提升了審核流程的效率。

二、自動(dòng)審核方案

上架審核需要審核的內(nèi)容包括以下幾點(diǎn):

  • 商品展示圖和對(duì)應(yīng)的sku信息是否一致。
  • 商品拍攝是否清晰。
  • 商品是否貼了防拆標(biāo)。
  • 商品是否臟污。
  • 商品是否處于圖像中心區(qū)域。

針對(duì)需要審核需要,我們?cè)O(shè)計(jì)了如下解決方案:

需要審核的項(xiàng)目解決方案商品展示圖和對(duì)應(yīng)的sku是否一致圖像匹配商品拍攝是否清晰回歸方案商品是否貼了防拆標(biāo)檢測(cè)方案商品是否臟污檢測(cè)方案商品是否處于圖像中心區(qū)域檢測(cè)方案

下圖給出了B2C商品上架審核主要的審核項(xiàng)示意圖:

圖片

審核示例圖

2.1、商品展示圖和對(duì)應(yīng)的sku信息是否一致

商城售賣商品都需要對(duì)商品進(jìn)行實(shí)物拍照展示,但是在商品上架到商城的過(guò)程中,由于人工失誤等情況,會(huì)出現(xiàn)商品展示圖和對(duì)應(yīng)的sku信息不匹配的情況。舉個(gè)簡(jiǎn)單的例子,商品的sku信息是iphone11-紅色,但是展示圖卻是iphoneX-綠色。這個(gè)問(wèn)題可以和圖像分類問(wèn)題對(duì)應(yīng)上,相當(dāng)于根據(jù)圖像信息,判斷商品類別。但是簡(jiǎn)單的使用分類算法無(wú)法很好的解決我們的問(wèn)題,直接使用分類存在以下問(wèn)題:

類別是有限的,不管輸入圖像是否在類別中,都一定會(huì)輸出一個(gè)類別。

由于類別的固定,導(dǎo)致無(wú)法處理新增的sku。

由于分類方法存在上面的問(wèn)題,我們改變了策略,使用圖像匹配的方案。我們訓(xùn)練一個(gè)較好的特征提取器,再使用圖像匹配方案,就可以較好的解決新加類別的問(wèn)題。我們選取的方案和學(xué)術(shù)中的Face Recognition 、Person Re-Identification、Image Retrieval等方向的解決方案基本一致,主要流程包括圖像特征提取、圖像相似度計(jì)算、排序、輸出結(jié)果。其中圖像特征提取這塊是大家研究的重點(diǎn)方向,傳統(tǒng)圖像匹配特征包括SIFT、SURF、ORB特征等,基于深度學(xué)習(xí)的圖像特征提取主要是CNN神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。下圖給出了我們的方案:

圖片

商品suk審核方案

?訓(xùn)練階段:訓(xùn)練階段主要是使用交叉熵?fù)p失聯(lián)合三元組損失訓(xùn)練一個(gè)分類網(wǎng)絡(luò),其中骨干網(wǎng)絡(luò)嘗試了MobileNet、ResNet、ShuffleNet、OSNet等。我們的實(shí)驗(yàn)結(jié)果顯示ResNet模型的精度略高,因此選取了ResNet作為我們的骨干網(wǎng)絡(luò)。

圖片

三元組示例

公式1給出的是二分類交叉熵?fù)p失函數(shù),其中表示樣本的輸出值,表示樣本對(duì)應(yīng)的標(biāo)簽。公式2給出了三元組損失函數(shù),表示錨點(diǎn)樣本對(duì)應(yīng)的特征向量,表示與錨點(diǎn)樣本類別相同的樣本對(duì)應(yīng)的特征向量,表示與錨點(diǎn)樣本不同類別的樣本對(duì)應(yīng)的特征向量。特征空間內(nèi),負(fù)樣本距離錨點(diǎn)樣本的距離減去正樣本到錨點(diǎn)的距離應(yīng)大于。

交叉熵?fù)p失函數(shù)是常見(jiàn)的分類損失函數(shù),三元組損失函數(shù)是人臉識(shí)別、行人重識(shí)別中常用的損失函數(shù)。三元組損失函數(shù),可以使特征在特征空間呈現(xiàn)一簇一簇的特征,其帶來(lái)的好處就是可以得到更加魯棒的特征。若單獨(dú)使用三元組損失函數(shù),模型的收斂速度較慢,因此我們使用交叉熵?fù)p失和三元組損失進(jìn)行聯(lián)合監(jiān)督學(xué)習(xí),以加速模型收斂,同時(shí)提升模型精度。

測(cè)試階段:測(cè)試階段選取訓(xùn)練好的backbone做特征提取器,用來(lái)提取embedding特征。提取查詢圖像特征并與gallery庫(kù)中的特征計(jì)算余弦相似度,得到相似性排序列表,再選取排序列表中top1圖像對(duì)應(yīng)的類別作為查詢圖像的類別輸出。但是我們?cè)跇?gòu)建gallery時(shí),一個(gè)sku存放了三張圖像,對(duì)應(yīng)著不同的拍攝場(chǎng)景,因此我們對(duì)top5輸出進(jìn)行knn后得到查詢圖像對(duì)應(yīng)的sku。

上線運(yùn)行:為了保證匹配算法輸出的sku一定是準(zhǔn)確的,我們輸出了排序列表中的top1相似度,當(dāng)相似度小于一定值threshold時(shí),會(huì)輸出報(bào)警信息,進(jìn)行人工審核。這個(gè)策略保證了算法輸出的sku信息準(zhǔn)確性。

2.2、商品拍攝是否清晰

拍攝商品的過(guò)程中,由于商品移動(dòng)或者沒(méi)對(duì)好焦距,導(dǎo)致拍攝出的商品較為模糊。為了給用戶帶更好的購(gòu)物體驗(yàn),我們會(huì)在審核的過(guò)程中打回這些商品,重新拍出符合要求的商品圖后才能上架。單純針對(duì)圖像拍照是否清晰,可以理解為圖像分類問(wèn)題。由于圖像是否模糊的標(biāo)注具有主觀性,同時(shí)二分類無(wú)法很好的刻畫(huà)出圖像的模糊度,因此在實(shí)際的審核過(guò)程中,一線審核人員對(duì)于輕微模糊的圖像往往會(huì)給出不同的判定結(jié)果,這類情況大大的影響了審核結(jié)果的一致性,導(dǎo)致商城中的商品展示效果有好有壞。

為了解決上面的問(wèn)題,我們把圖像的模糊度分為三個(gè)級(jí)別,模糊度由高到低分別是明顯模糊、輕微模糊、清晰。并給出對(duì)應(yīng)的分值,分別為2,1,0分。多人對(duì)同一張圖進(jìn)行打分,并去掉同時(shí)出現(xiàn)打分為明顯模糊和清晰的圖像,剩余的圖像進(jìn)行數(shù)值歸一化,得到圖像的模糊度分值。當(dāng)然,我們可以把模糊程度細(xì)分為四類,比如明顯模糊,輕微模糊、細(xì)微模糊、清晰,并且讓更多的標(biāo)注人員標(biāo)注同一張圖,這樣我們可以得到更加細(xì)膩的標(biāo)簽值,這樣也能帶來(lái)更好的預(yù)測(cè)結(jié)果。但是鑒于資源有限,我們只把模糊度劃分為三個(gè)級(jí)別,讓三個(gè)同學(xué)進(jìn)行標(biāo)注。由此,我們把二分類問(wèn)題轉(zhuǎn)化為了回歸問(wèn)題,并且可以很好的隔離開(kāi)業(yè)務(wù)標(biāo)準(zhǔn)。下面的表格給出了我們?nèi)绾伟逊诸惾蝿?wù)變成回歸任務(wù)。

圖片名同學(xué)一打分同學(xué)二打分同學(xué)三打分總分(0-6)歸一化得分圖片1明顯模糊輕微模糊明顯模糊55/6=0.83圖片2輕微模糊輕微模糊明顯模糊44/6=0.67圖片3清晰輕微模糊清晰10.17..................

同樣的,我們還是使用卷積神經(jīng)網(wǎng)絡(luò),然后把分類損失函數(shù)變成回歸損失函數(shù),我們選用了MSE作為回歸任務(wù)的損失函數(shù),其中表示樣本的預(yù)測(cè)值,表示樣本的標(biāo)簽。

模型的輸出值代表圖像的模糊程度,我們把二分類任務(wù)變成回歸任務(wù)后,可以帶來(lái)諸多好處。首先就是算法開(kāi)發(fā)與業(yè)務(wù)解耦合,不會(huì)因?yàn)闃I(yè)務(wù)標(biāo)準(zhǔn)的變更導(dǎo)致算法模型失效;同時(shí)業(yè)務(wù)方可以根據(jù)業(yè)務(wù)需求設(shè)置不同的模糊度閾值用來(lái)控制商城圖像的清晰程度。

2.3、商品是否貼了防拆標(biāo)、是否臟污、是否處于中心區(qū)域

針對(duì)商品是否貼了防拆標(biāo)、是否臟污、是否處于中心區(qū)域問(wèn)題,我們使用檢測(cè)方案。這三個(gè)項(xiàng)中,防拆標(biāo)和物品的檢測(cè)都較為簡(jiǎn)單。防拆標(biāo)檢測(cè)中的防拆標(biāo)特征單一,因此比較容易訓(xùn)練出一個(gè)檢測(cè)準(zhǔn)確率相當(dāng)模型;商品是否居中檢測(cè)中,物品較大,且數(shù)據(jù)好收集,也能訓(xùn)練出一個(gè)準(zhǔn)確率相當(dāng)高的商品檢測(cè)模型。

臟污的檢測(cè)則比較困難,因?yàn)椴糠峙K污目標(biāo)較小,且樣本不易獲取。針對(duì)這個(gè)問(wèn)題,我們?cè)跀?shù)據(jù)收集的過(guò)程中選取主動(dòng)學(xué)習(xí)的策略去尋找到更多正樣本(檢測(cè)任務(wù)中的正樣本指的是我們需要檢測(cè)的樣本類)。其方式也很簡(jiǎn)單,我們?cè)诔跗谑褂靡慌鷶?shù)據(jù)訓(xùn)練檢測(cè)模型,隨后用該模型以非常低的置信度在大批量未標(biāo)注的數(shù)據(jù)中選取可疑正樣本,再讓人工對(duì)該批數(shù)據(jù)進(jìn)行標(biāo)注,隨后再用新數(shù)據(jù)更新訓(xùn)練模型,這便是一輪循環(huán)。我們可以多次重復(fù)該步驟,最后可以得到一個(gè)媲美人工的檢測(cè)模型。

2.4、算法的應(yīng)用策略

對(duì)于計(jì)算機(jī)視覺(jué)中常見(jiàn)的分類、檢測(cè)等任務(wù),我們無(wú)法同時(shí)保證模型的召回和精度同時(shí)達(dá)到100%的指標(biāo),因此在實(shí)際的應(yīng)用過(guò)程中,需要結(jié)合實(shí)際業(yè)務(wù),考慮選取模型是采用高精度還是高召回的狀態(tài)。下圖給出了召回率和精度關(guān)系的曲線圖(圖片來(lái)源于周志華老師的<機(jī)器學(xué)習(xí)>一書(shū))

圖片

PR曲線圖

針對(duì)我們的審核業(yè)務(wù),我們采取的是高召回策略,也就是保證模型可以盡可能把不符合要求的商品圖都找出來(lái),其代價(jià)就是精度會(huì)相應(yīng)的降低。我們召回有拍攝有問(wèn)題商品后,會(huì)人工介入審核,因此那些被誤召回的例子不會(huì)對(duì)業(yè)務(wù)造成影響。

在算法的輔助下,目前上架審核同學(xué)的工作量降低了50%。經(jīng)過(guò)算法的商品圖像中,有50%的商品通過(guò)算法,可以直接上架到商城app,剩余的疑似有問(wèn)題的商品都會(huì)被算法識(shí)別出來(lái),然后再人工復(fù)審。

三、總結(jié)

我們?cè)诘谝还?jié)介紹了商品上架審核的背景,我們?yōu)槭裁匆獙徍艘约皩徍说膬?nèi)容,同時(shí)分析了當(dāng)前業(yè)務(wù)中人工審核面臨的一些問(wèn)題,然后給出了算法賦能業(yè)務(wù)帶來(lái)的好處。

在第二節(jié),我們?cè)敿?xì)的介紹了算法模塊。根據(jù)上架審核項(xiàng)的不同,我們采用了三種方式分別去解決三個(gè)不同的任務(wù)。并介紹了算法應(yīng)用落地所選取的高召回率犧牲預(yù)測(cè)精度的方案,以及這種方案的可行性,最后給出了算法上線取得的效果。

責(zé)任編輯:武曉燕 來(lái)源: 轉(zhuǎn)轉(zhuǎn)技術(shù)
相關(guān)推薦

2023-12-27 18:15:42

組裝式生態(tài)提效開(kāi)發(fā)中心

2023-05-10 09:10:31

App組件化開(kāi)發(fā)

2009-02-27 15:09:00

傳真服務(wù)器企業(yè)服務(wù)器

2024-09-12 09:15:43

2025-01-13 12:58:44

2023-06-02 11:55:02

jvm多線程并發(fā)

2020-07-14 22:10:23

百度

2014-01-14 17:43:37

NEC圖像識(shí)別

2025-03-14 00:25:00

轉(zhuǎn)轉(zhuǎn)運(yùn)營(yíng)系統(tǒng)

2025-09-09 07:05:00

JavaScrip代碼開(kāi)發(fā)

2025-02-26 12:00:00

JavaScript代碼開(kāi)發(fā)

2024-07-23 09:49:45

2024-07-11 11:31:17

2022-04-28 12:17:26

瀏覽器連字符hyphens
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)