偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

【W(wǎng)OT2018】實踐才能出真知,人工智能在行業(yè)業(yè)務應用中的探索實踐

原創(chuàng)
新聞
本屆WOT峰會的《業(yè)務實踐》分論壇上,來自蘑菇街的圖像搜索技術負責人宋宏亮,貝殼找房租賃平臺的數(shù)據(jù)策略負責人嚴言,金山辦公的AI領域?qū)<?、高級工程師黃鴻波,分別從各自行業(yè)業(yè)務場景出發(fā),分享了人工智能的業(yè)務實踐案例。

【51CTO.com原創(chuàng)稿件】2018年11月30日-12月1日,由51CTO主辦的WOT2018全球人工智能技術峰會在北京粵財JW萬豪酒店召開。本屆峰會從人工智能技術賦能行業(yè)升級的角度出發(fā),緊跟技術潮流,緊抓時事熱點,覆蓋人工智能平臺工具、算法模型、語音視覺等技術主題內(nèi)容,帶來了一場AI前沿理論與尖端技術激烈碰撞的知識盛宴!

本屆WOT峰會的《業(yè)務實踐》分論壇上,來自蘑菇街的圖像搜索技術負責人宋宏亮,貝殼找房租賃平臺的數(shù)據(jù)策略負責人嚴言,金山辦公的AI領域?qū)<?、高級工程師黃鴻波,分別從各自行業(yè)業(yè)務場景出發(fā),分享了人工智能的業(yè)務實踐案例,與到場的聽眾一起探索人工智能在不同行業(yè)中的業(yè)務應用。

視覺搜索技術系統(tǒng)與業(yè)務應用

隨著移動應用和內(nèi)容業(yè)務的發(fā)展,視覺搜索技術日益成為用戶增長和應用體驗提升的關鍵因素。蘑菇街圖像搜索技術負責人宋宏亮在《視覺搜索技術系統(tǒng)與業(yè)務應用》的演講中,首先分析了圖像檢索的兩種方式,然后結(jié)合蘑菇街的海量圖片/商品數(shù)據(jù)和互聯(lián)網(wǎng)業(yè)務場景,介紹了蘑菇街在視覺搜索方向上的技術探索和業(yè)務實踐演進歷程,并通過具體的業(yè)務案例,解讀了視覺搜索技術的落地應用之路。

蘑菇街的圖像搜索技術負責人宋宏亮

蘑菇街的圖像搜索技術負責人宋宏亮

據(jù)宋宏亮介紹,圖像檢索是計算機視覺方向出現(xiàn)較早并廣泛研究的領域,按照描述圖像內(nèi)容方式的不同可以分為兩類,一類是基于文本的圖像檢索,另一類是基于內(nèi)容的圖像檢索。隨著圖像數(shù)據(jù)快速增長,基于文本的圖像檢索方法的問題日益凸現(xiàn),后來業(yè)界達成共識,認為索引圖像信息的最有效方式應該是基于圖像內(nèi)容自身的。

基于內(nèi)容的圖像檢索技術將圖像內(nèi)容的表達和相似性度量交給計算機進行自動的處理,克服了采用文本進行圖像檢索所面臨的缺陷,并且充分發(fā)揮了計算機擅于計算的優(yōu)勢,大大提高了檢索的效率,從而為海量圖像庫的檢索開啟了新的大門。當然,這種方式也存在缺點,主要表現(xiàn)為特征描述與高層語義之間存在著難以填補的語義鴻溝,并且這種語義鴻溝是不可消除的。

目前,基于內(nèi)容的圖像檢索技術已經(jīng)深入到了許許多多的領域,為人們的生活生產(chǎn)提供了極大的便利。基于內(nèi)容的圖像檢索技術在電子商務、版權保護、醫(yī)療診斷、公共安全、街景地圖等工業(yè)領域具有廣闊的應用前景。其中,在電子商務方面,谷歌的Goggles、 阿里巴巴的拍立淘等閃拍購物應用,允許用戶抓拍上傳至服務器端,在服務器端運行圖片檢索應用從而為用戶找到相同或相似的衣服并提供購買店鋪的鏈接。

典型的基于內(nèi)容的圖像檢索基本框架

典型的基于內(nèi)容的圖像檢索基本框架

電商場景的數(shù)據(jù)來源主要包含賣家和用戶兩個部分。其中,賣家分為普通商家和直播主播,普通賣家上傳商品圖,包括商品主圖、附圖、SKU圖和詳情圖等,主播生產(chǎn)直播內(nèi)容,也包含了商品的截圖和視頻。而用戶分為普通用戶和達人用戶,普通用戶對應的內(nèi)容是UGC、買家秀等,達人用戶則是PGC內(nèi)容。基于以上數(shù)據(jù)源,就可以構建后臺的圖像數(shù)據(jù)庫,對圖像數(shù)據(jù)處理,包括款式屬性識別、OCR文字識別、圖像特征檢索等。

宋宏亮表示,電商中的圖像數(shù)據(jù)集具有三個主要特征:圖像數(shù)據(jù)量大、特征維度高以及要求響應時間短。對于一般圖像檢索,在檢索相同的物體或目標時,易受拍攝環(huán)境的影響,比如光照變化、尺度變化、視角變化、遮擋以及背景的雜亂等都會對檢索結(jié)果造成較大的影響;對于非剛性的物體,在進行檢索時,物體的形變也會對檢索結(jié)果造成很大的影響。

而電商場景下的視覺檢索還有很多其他的難題。比如:電商平臺上每天都有頻繁的商品上架和下架,對整體的索引構建造成很大挑戰(zhàn);數(shù)據(jù)規(guī)模是把雙刃劍,雖然有足夠的數(shù)據(jù)可以進行模型訓練,但是龐大的數(shù)據(jù)給搜索帶來了壓力;因商家上傳低質(zhì)量的買家需求圖片或者放錯類目等原因,導致數(shù)據(jù)的質(zhì)量不能得到保障。

面對以上挑戰(zhàn),蘑菇街視覺搜索技術團隊進行了很多技術研發(fā),最終構建了如下圖所示的視覺搜索技術架構。從圖中我們可以看到,接收到用戶搜索查詢,先進行類目預測,再進行目標檢測,檢測出所需要的內(nèi)容;接下來,通過特征提取器,提取圖像的特征的表達;然后,基于ANN檢索得到一些充分的檢索結(jié)果;最后,通過ReRank的方式得到最終結(jié)果。

蘑菇街視覺搜索技術架構

蘑菇街視覺搜索技術架構

緊接著,宋宏亮為大家解讀了其中的一些重點技術。

類目預測:主要針對圖像質(zhì)量評估、同圖過濾、類目分類三個方向展開。

圖像質(zhì)量評估:需要基于不同的類別進行分析,例如,較多自然景色和人肖像不同。有12個評價標準:BalancingElement,ColorHarmony,Content,DoF,Light,MotionBlur,Object,Repetition,RuleOfThirds,Symmetry,VividColor,Score。

同圖過濾:采用phash(全稱是感知哈希算法,Perceptual hash algorithm),使用該方法可以對每個圖片生成一個哈希值,任意兩個圖分別轉(zhuǎn)為二進制表示,然后計算他們的hamming distance,兩張圖片的距離越相近, 說明兩張圖片就越相似。

類目分類:建立類目樹,分為了十個大類和504個四級類目,縮小檢索數(shù)據(jù)量,提升檢索精度。

圖像特征學習:作為遷移學習的一種,finetune能夠?qū)eneral的特征轉(zhuǎn)變?yōu)閟pecial的特征,從而使得轉(zhuǎn)移后的特征能夠更好的適應目標任務,而圖像檢索最根本的問題,仍在于如何在目標任務上獲得更好的特征表達(共性與可區(qū)分性)。一種很自然的方式便是在特定的檢索任務上,我們對imageNet學得的general的特征通過finetune的方式,使得表達的特征能夠更好的適應我們的檢索任務。通過基本的classification loss的finetune的方式,能夠較大幅度的提高檢索的mAP。

那么在具體的業(yè)務中,視覺搜索技術是怎么應用的呢?這里我們舉個例子,在電商基礎業(yè)務中,需要對商家上傳的商品圖片進行同款審核,并對審核后的結(jié)果做在線巡查,基于視覺搜索技術上線了同款識別系統(tǒng)進行同款商品判斷,系統(tǒng)識別準確率為99.06%,漏檢率為3%。

貝殼租房的真房源模型與信用體系建設

當前,在房屋租賃領域,仍存在著諸如房源信息不真實,信任體系缺失,以及信息匹配效率偏低等痛點。貝殼找房租賃平臺數(shù)據(jù)策略部負責人嚴言從貝殼租房自身的實踐經(jīng)驗出發(fā),介紹了貝殼租房通過大數(shù)據(jù)與機器學習的方法管控房源真實性,同時建立完善的租賃信用體系,不斷提升商家提供的服務品質(zhì),提高行業(yè)信息匹配效率。

貝殼找房租賃平臺數(shù)據(jù)策略部負責人嚴言

貝殼找房租賃平臺數(shù)據(jù)策略部負責人嚴言

【W(wǎng)OT2018】實踐才能出真知,人工智能在行業(yè)業(yè)務應用中的探索實踐

針對上圖中所示的諸多市場痛點,貝殼找房是怎樣解決的呢?貝殼找房的真房源模型設計和解決方案是怎樣的呢?

嚴言表示,首先我們要清楚真實房源的標準是什么。根據(jù)目前的非真實房源情況,貝殼找房定義了四個標準:第一,真實存在。房子要真實存在,不能是出租根本不存在的一套房子;第二,真實在租。房子需要是真實在租狀態(tài),不是剛剛租出去了,而要去看別的房源;第三,真實感知。提供的信息需要與房屋真實情況一樣,比如圖片與出租房屋一致。第四,真實價格。

其次,要清楚在住的領域與租賃領域正在面臨的問題有什么不一樣。具體差別,我們可以從下圖中了解:

【W(wǎng)OT2018】實踐才能出真知,人工智能在行業(yè)業(yè)務應用中的探索實踐

基于以上考慮,貝殼找房技術團體設計了如下圖所示的房源品質(zhì)控制整體框架:

【W(wǎng)OT2018】實踐才能出真知,人工智能在行業(yè)業(yè)務應用中的探索實踐

框架圖中左邊是數(shù)據(jù)源、平臺對接、數(shù)據(jù)流轉(zhuǎn)、基于品控的產(chǎn)品或服務四部分內(nèi)容,右邊是品控系統(tǒng),主要包括真房源模型與信用體系的建設。在真房源模型中,真房源的統(tǒng)計方法主要是抽樣統(tǒng)計,延遲統(tǒng)計(記錄每天鏡像),樂觀性統(tǒng)計(只查驗全部疑似問題房源)。

【W(wǎng)OT2018】實踐才能出真知,人工智能在行業(yè)業(yè)務應用中的探索實踐

在上面圖中我們可以看到,之前提到的四真標準。對此,嚴言表示,針對每一個真的標準,都需要建立獨立的模型。以“真實在租”這個標準為例,需要用房態(tài)模型去判斷房子的當前狀態(tài),比如通過語音識別,用戶與經(jīng)紀人在聯(lián)系的過程中,經(jīng)紀人有沒有出現(xiàn)違禁。最終針對四個標準點下所有的模型,綜合出一個真實度排序,從而實現(xiàn)真房源的門限和問題房源門限能夠不斷地接近和同時下降。

也就是說,在高于N1這個門限,可以認為不需要人工接入,系統(tǒng)判定95%以上的置信度,就是一個真房源,省去人工介入。如果判定在N3以下,系統(tǒng)判定置信度95%是一個問題房源,也不需要人工介入。但是,不可能完全拋棄人工,有些內(nèi)容是系統(tǒng)無法界定的,就被稱為疑似房源,需要線上和線下的綜合判斷。

首先,需要讓N1和N3盡量接近,實現(xiàn)疑似房源量總量下降。其次,讓N1和N3盡量接近之后,再讓其下降,讓真房源的比例越來越高,最終實現(xiàn)優(yōu)化。從量化上來看,希望達到三個目的:固定與量化優(yōu)秀服務者的行業(yè)經(jīng)驗,兼顧真房源門限與問題房源門限,降低線下審核人力,提高作業(yè)效率。

最后談及加盟平臺下的信用體系建設,嚴言認為,疏導才是治本。怎樣疏導呢?就是讓為真房源做貢獻的商家獲得利益。完善的信用體系是保證租賃市場良好運轉(zhuǎn)的基石;通過商家信用分,服務者信用檔案以及租客信用分的建設,正向引導,賦能行業(yè);有了商家信用分,就可以區(qū)分出信用良好的商家,在商機和運營活動上給予激勵,樹立標桿作用。

【W(wǎng)OT2018】實踐才能出真知,人工智能在行業(yè)業(yè)務應用中的探索實踐

知識圖譜在企業(yè)中的落地

金山辦公AI領域?qū)<摇⒏呒壒こ處燑S鴻波在分享中指出,在面向?qū)ο蟮臅r代里,我們常說萬物皆對象,之前我們只是來分析對象的個體,隨著互聯(lián)網(wǎng)和社交網(wǎng)絡的發(fā)展,對象與對象之間的聯(lián)系變得越來越緊密,我們把一個對象稱之為一個實體,我們現(xiàn)在對于實體之間關系的分析變得尤為重要,我們可以使用知識圖譜相關技術,來挖掘?qū)嶓w之間的關系,從而找到其中的商業(yè)價值,打造自己的知識圖譜應用。

金山辦公AI領域?qū)<?、高級工程師黃鴻波

金山辦公AI領域?qū)<?、高級工程師黃鴻波

黃鴻波認為,數(shù)據(jù)量的龐大,非結(jié)構化的保存以及歷史數(shù)據(jù)的積累,導致我們的信息知識體或者各種各樣的實體越來越膨脹,我們需要將各種各樣的知識連接起來,形成知識圖譜。

知識圖譜一般用在哪里?黃鴻波介紹說,以金山辦公為例,做知識圖譜主要是用來找人與人之間的關系,用戶與用戶之間的關系,這是很多公司中比較常用的一種應用。另外,還有實體與實體之間的關系,比如知識與知識之間的關系,企業(yè)與企業(yè)之間的關系。

黃鴻波認為,可以把實體理解為以前面向?qū)ο笾械膶ο?。任何一個事物都可以是一個對象,放在知識圖譜里,可以說任何一個對象都可以成為一個實體,這就是知識圖譜的一個核心概念。

【W(wǎng)OT2018】實踐才能出真知,人工智能在行業(yè)業(yè)務應用中的探索實踐

知識圖譜在農(nóng)業(yè)中的應用

以知識圖譜在農(nóng)業(yè)中的應用為例,氮素缺乏會導致哪些病癥,氮素過量會有哪些病癥,對這些病癥應該作何處理,有什么防治方法。在研究知識圖譜的時候就是尋找關系,從而建立各個實體之間的關系。

提到知識圖譜中的圖數(shù)據(jù)庫選型。黃鴻波表示,在做知識圖譜或者知識圖譜的選型中,最常見的問題就是圖數(shù)據(jù)庫的選擇問題。任何一家公司做知識圖譜的目的都是落地。Neo4j和Cayley是知識圖譜中比較常用的兩個圖數(shù)據(jù)庫,最終金山辦公技術團隊選擇了Cayley。

為什么選擇Cayley?首先考慮數(shù)據(jù)體量問題,所選用的數(shù)據(jù)庫是否能夠支持大體量的數(shù)據(jù)。Neo4j的缺點:一是不開源,開源版沒有核心內(nèi)容,一旦出現(xiàn)問題后期難以處理;二是不支持分布式,無法做分布式存儲、集群。此外,黃鴻波強調(diào),在選擇圖數(shù)據(jù)庫的時候,除了分析圖數(shù)據(jù)庫的體量是否能夠滿足自身的數(shù)據(jù)庫,還要看是否能夠支持單機的運算速度以及性能,考慮實際的應用場景需求。

最后,黃鴻波表示,知識圖譜的落地主要有六個方面:知識的建模、知識的獲取、知識的融合、知識的存儲、知識的計算、知識的應用。

以上內(nèi)容是51CTO記者根據(jù)WOT2018全球人工智能技術峰會的《業(yè)務實踐》分論壇演講內(nèi)容整理,更多關于WOT的內(nèi)容請關注51cto.com。

【W(wǎng)OT2018】實踐才能出真知,人工智能在行業(yè)業(yè)務應用中的探索實踐

【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責任編輯:藍雨淚 來源: 51CTO
相關推薦

2018-06-25 16:14:28

AI人工智能貝殼找房

2018-04-02 09:14:10

人工智能鏈家WOT2018

2018-12-01 16:11:34

WOT2018人工智能51CTO

2017-12-05 15:03:45

人工智能餓了么大數(shù)據(jù)

2022-08-25 14:06:33

人工智能游戲

2022-08-09 13:48:30

人工智能時尚行業(yè)聊天機器人

2018-11-30 12:04:15

AIWOT51CTO

2021-12-16 12:23:47

人工智能建筑行業(yè)AI

2021-05-28 14:47:06

人工智能零售行業(yè)AI

2022-08-04 15:14:27

人工智能建筑科學

2021-08-24 19:30:43

AI人工智能

2021-11-04 14:28:53

人工智能AI深度學習

2018-12-24 10:56:42

人工智能硬件WOT

2023-08-30 10:50:19

2022-07-13 15:05:27

人工智能農(nóng)業(yè)

2020-08-11 11:48:27

人工智能AI行業(yè)應用

2020-08-11 12:56:32

人工智能AI

2022-08-18 14:37:39

人工智能社交媒體數(shù)字化

2018-11-30 17:22:52

人工智能AI機器學習

2018-05-28 09:39:14

人工智能
點贊
收藏

51CTO技術棧公眾號