偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

【NCTS峰會回顧】融360艾輝:AI模型測試探秘

開發(fā) 前端 人工智能
2019年10月26日,由Testin主辦的第二屆NCTS中國云測試行業(yè)峰會在京召開,此次峰會以“AI+未來”為主題,匯聚來自國內(nèi)外測試領(lǐng)域的知名專家學者、領(lǐng)先企業(yè)決策者、高層技術(shù)管理者、媒體從業(yè)者等,共同探討高端云測試技術(shù)。

 2019年10月26日,由Testin主辦的第二屆NCTS中國云測試行業(yè)峰會在京召開,此次峰會以“AI+未來”為主題,匯聚來自國內(nèi)外測試領(lǐng)域的知名專家學者、領(lǐng)先企業(yè)決策者、高層技術(shù)管理者、媒體從業(yè)者等,共同探討高端云測試技術(shù),幫助測試從業(yè)者了解最前沿行業(yè)趨勢,及最新的行業(yè)實踐。

[[283753]]

會上,融360高級技術(shù)經(jīng)理艾輝做《AI模型測試探秘》主題演講。艾輝分享了AI在金融科技的應(yīng)用場景并指出,AI在金融行業(yè)的商業(yè)場景變現(xiàn)領(lǐng)域做的相對成熟,這主要得益于數(shù)據(jù)的質(zhì)量,以及數(shù)據(jù)的豐富度,它們對模型的效果起著極其重要的作用。

以下為艾輝演講實錄:

很高興和大家分享我們在過去一段時間里基于AI模型評估的測試實踐。簡短的做一下自我介紹,先后從事云計算云存儲、跨境電商、O2O外賣、金融風控業(yè)務(wù)的質(zhì)量保障與工程效率。

首先給大家介紹當下AI的主要應(yīng)用場景。AI在金融領(lǐng)域的落地主要包括:物流、廣告推薦、個性化推薦、倉儲、無人駕駛等等。目前看來,AI在金融行業(yè)的商業(yè)場景變現(xiàn)領(lǐng)域做的相對成熟,這主要得益于數(shù)據(jù)的質(zhì)量,以及數(shù)據(jù)的豐富度,它們對模型的效果起著極其重要的作用。AI在金融科技領(lǐng)域的主要場景包括:智能營銷、智能欺詐、智能風控、理賠、支付場景指紋識別、人臉識別等等。

進一步解釋一下AI的基礎(chǔ)概念和交叉關(guān)系。通常來說,我們是模擬智能應(yīng)用,機器學習只是AI的一個分支,如果是機器學習加圖像識別,就是視覺領(lǐng)域的應(yīng)用;如果是機器學習加語音識別,就是自然語言處理。假如說機器學習和其它稀奇古怪的應(yīng)用結(jié)合,就是數(shù)據(jù)挖掘。

機器學習,就是我們在計算機協(xié)助下,統(tǒng)計學假設(shè)檢驗與分布函數(shù)搜索所謂的神經(jīng)元,拿一個向量去點乘上一個向量,再把結(jié)果放進一個事先定好的變換函數(shù)。深度學習是做好幾層的神經(jīng)元網(wǎng)絡(luò),再換幾個學習算法。關(guān)于機器學習的分類,金融領(lǐng)域還是偏向于監(jiān)督學習,我們做一些分類問題,也就是偏預測。分類和回歸比較直觀的區(qū)分,如果做一個定性的預測,比如今天是陰天、晴天還是多云,它就是一個分類的問題;如果是我們預測明天是10-15度,還是0-5度,這就是回歸問題。在金融風控領(lǐng)域,大部分是基于邏輯回歸的模型方法來做訓練的,主要使用信用評分卡。神經(jīng)網(wǎng)絡(luò)、深度學習等在金融風控領(lǐng)域應(yīng)用,目應(yīng)沒有太多。要做好風控并不一定需要用最復雜的模型來做訓練和預測。

前面說了那么多,大家會問機器學習在金融風控的應(yīng)用有什么差異?金融風控的體系里存在一些特殊的東西,比如,談到金融風控中的信貸風控,一般會聊到貸前、貸中、貸后。我們用的最多的是評分卡模型,評分卡模型應(yīng)該有200、300年歷史了,在機器學習應(yīng)用沒有如今這么發(fā)達的時候就已經(jīng)在用了,尤其是在美國。什么是評分卡?信用評分卡用的就是邏輯回歸的分類,預測好人壞人的概率,在0和1之間,基于這個概率映射到一個分數(shù),如:1-100分,即信用評分。我們放貸可不可以放,看風險概率,用歷史的數(shù)據(jù)去為未來一段時間的違約進行預測。它的評分越高代表越是安全,評分卡的穩(wěn)定性和預測能力很強,我們常用的是邏輯回歸。

我們用信用評分只是風控量化的工具,代表著信用風險。

剛開始接觸AI相關(guān)業(yè)務(wù)的時候,我們遇到了很多挑戰(zhàn)。之前對于整個數(shù)據(jù)、特征、模型,沒有太深入的專項測試,如數(shù)據(jù)及特征效果有質(zhì)量問題,會導致模型發(fā)生衰減和偏移,最直接的結(jié)果是,本應(yīng)該把一個壞人給攔住,但是沒有攔住,給他放貸了,就可能導致壞賬,產(chǎn)生不良資產(chǎn)。

具體來看一下在數(shù)據(jù)質(zhì)量方面我們做了哪些工作。主要考慮數(shù)據(jù)的完整性、一致性、及時性、準確性等等。想重點強調(diào)的是,在數(shù)據(jù)質(zhì)量分析的維度上做了哪些事情,數(shù)據(jù)質(zhì)量分析考慮的維度更豐富一點,比如數(shù)據(jù)的干擾分析,分析單列數(shù)據(jù)對應(yīng)的準確性,分析單表數(shù)據(jù),跨表數(shù)據(jù),跨列數(shù)據(jù)。我們對數(shù)據(jù)整個特征分布,還有離散情況做了評估,上面的離群點,能夠基于這個離群點發(fā)現(xiàn)數(shù)據(jù)異常的問題。

數(shù)據(jù)的完整性,從關(guān)系型數(shù)據(jù)庫到數(shù)倉,數(shù)據(jù)有沒有比較大的丟失。一致性,看對應(yīng)的口徑是不是一致的。準確性、及時性,很有可能前天晚上跑批失敗了,如果沒有監(jiān)控可能導致對第二天的數(shù)據(jù)造成很大的影響,比較多的是離線任務(wù),包括在線任務(wù)及時情況的監(jiān)測。

既然數(shù)據(jù)有了這些問題,一定要做數(shù)據(jù)的修正。比如說數(shù)據(jù)確實缺失太多,沒有做填充處理,到特征來沒法用的,模型更沒有辦法用,還有重復的記錄要刪除。對于定性的數(shù)據(jù)和定量的數(shù)據(jù),處理是不一樣的,我們會基于特征進一步解釋。

數(shù)據(jù)分析方法,看整個數(shù)據(jù)各表之間有什么關(guān)聯(lián)性,做血緣基數(shù)分析??磾?shù)據(jù)是不是存在大的問題,做數(shù)據(jù)波動分析。評估某一個字段是否有問題,做值域分析、分布分析,也可以發(fā)現(xiàn)一些問題。評估數(shù)據(jù)是否一致,做一致性的對比diff來發(fā)現(xiàn)這些問題。

在項目中通過數(shù)據(jù)分析的血緣基數(shù)分析,直觀發(fā)現(xiàn)的情況:A表的登陸賬戶比B表少了7000萬,A、B存在600萬的數(shù)據(jù)不一致。這種問題如果不做數(shù)量質(zhì)量分析,基于模型問題倒推分析,影響很大。

再看一下值域的分析,分析最大值,最小值,比如說有一個字段,年齡是150歲,這可能超乎尋常了。包括看數(shù)據(jù)的分布,時間內(nèi)最大值,最小值,還有異常的占比。中文異常的占比,特別是中文入庫的字符格式。還有分布的分析,金額的占比,區(qū)間的域值,還有各種碼值。

我們再簡單看一下數(shù)據(jù)測試要點,我們在日常測試中做數(shù)據(jù)質(zhì)量測試,就是按照這些來做的,金融的數(shù)據(jù)質(zhì)量的要求很苛刻,可以說相對于互聯(lián)網(wǎng)廣告的數(shù)據(jù)更苛刻一點。比如說小明同學搜索的時候,給他推薦了一個女裝,可能不太重要。但是因為數(shù)據(jù)質(zhì)量問題導致信貸風險,可能會導致直接的金融損失,所以金融數(shù)據(jù)的質(zhì)量要求是很高的。

再簡單說一下數(shù)據(jù)質(zhì)量平臺設(shè)計,我這里放了一個架構(gòu)圖,整個數(shù)據(jù)質(zhì)量平臺關(guān)鍵核心的一點,對數(shù)據(jù)質(zhì)量的規(guī)則引擎是怎么做的,數(shù)據(jù)質(zhì)量把對應(yīng)各種數(shù)據(jù)的對比,通過配制一些規(guī)則,定制開發(fā),對應(yīng)的報表或者觸發(fā)告警,是基于自定義去寫。還是基于其他的開源工具,有很多規(guī)則引擎的方案,比如Drools,原理大多相似。

關(guān)于特征模型的測試,我先是講數(shù)據(jù),再講特征,再講模型,為什么?我們在做模型訓練的時候就是這樣的流程和套路。我們聊到模型,做模型訓練的時候有80%的任務(wù)在做特征工程,20%在做模型的訓練。我們做一些名詞的科普,過擬合和欠擬合,過擬合就是模型過于復雜學習到額外的數(shù)據(jù)屬性,欠擬合就是沒有捕捉數(shù)據(jù)特征。

到底什么是建模?建模與馴獸的相似點,我們做馴獸,比如給猴子輸出口令,讓它調(diào)整動作,直到這個過程預期和實際是一致的,從這個類比來看,我們建模和馴獸就是這樣一個循環(huán)訓練的過程。

我們反復聊到數(shù)據(jù)特征,到底數(shù)據(jù)和特征有什么區(qū)別?左側(cè)是一個數(shù)據(jù),右邊是特征,把對應(yīng)做了一些轉(zhuǎn)換,180天內(nèi)成功打車的筆數(shù),180天內(nèi)成功打車最小值,我們將數(shù)據(jù)轉(zhuǎn)化為機器能夠?qū)W習的屬性,發(fā)現(xiàn)規(guī)律性的信息。機器學習大部分是解決預測的問題,用X去預測Y,這個X代表的是特征,不是數(shù)據(jù),因為直接給模型灌最原始的數(shù)據(jù),不能很好的把數(shù)據(jù)的規(guī)律和信息get到。但是特征是有價值的屬性,這些特征是能夠做模型的訓練和擬合的。行業(yè)里面有行話,數(shù)據(jù)特征決定了機器學習的上限,我們所有模型只是逼近這個上限而已。如果你的數(shù)據(jù),特征質(zhì)量很差,再好的模型,訓練效果也會打折扣。

從特征挖掘到模型建立,這個過程是我們在日常測試開發(fā)中需要頻繁去關(guān)注的,我來簡單解釋一下。前面的這一塊數(shù)據(jù)采集,數(shù)據(jù)分析,數(shù)據(jù)清洗,大部分是數(shù)倉來做,有的是特征挖掘也會做,前面是做數(shù)據(jù)的分析和入庫。當數(shù)據(jù)清洗做完之后開始做特征挖掘,圖中所有的特征,特征挖掘的過程,在數(shù)倉中挑出跟業(yè)務(wù)強相關(guān)比較好的數(shù)據(jù),建立特征工程。發(fā)現(xiàn)了很多問題,比如缺失值特別多,要做一些填充,比如定量數(shù)據(jù),可以基于平均數(shù),中位數(shù)去填充。如果是一些定內(nèi)的數(shù)據(jù),直接轉(zhuǎn)為NaN之類的。做完確認值之后,還要做定量特征值二化。還會做一些定型特征的啞編碼,比如我們做疾病的預測,得某某疾病的概率高、中、低,就可以放到模型里,因為很多特征的標準是不一的,包括特征的選擇和降維,我們要由高維降到低維,更好的吸收數(shù)據(jù)。

具體在信用卡評分模型中用到的關(guān)鍵指標,我們主要參考的是幾點,一個是KS,風險區(qū)分能力,就是判斷好用戶和壞用戶的差值,差值越大,就說明模型的效果越好,因為區(qū)分度高,可以區(qū)分張三是好人,李四是壞人。然后是卡方,樣本偏離程度。PSI,這是模型穩(wěn)定性很關(guān)鍵的指標,模型的預測值與實際值偏差大小的指標.PSI越小有說明模型是越穩(wěn)定的,一般認為PSI小于0.1時候模型穩(wěn)定性很高,0.1-0.25一般,大于0.25模型穩(wěn)定性差,建議重做。IV(信息價值),這是我們模型在挑特征的時候很關(guān)注的一點,特征對于模型預測能力的貢獻度,我們要挑對模型預測能力貢獻度度強的特征,比如有100個特征,有年齡、學歷、收入,籍貫等,其中年齡、學歷、收入的特征對于信用貸風控模型貢獻度強,籍貫特征是一般的。

具體特征測試要點分為幾部分,一般特征有特征計算邏輯,還有特征調(diào)度,特征上線。對于特征計算,除了計算的時長,還會關(guān)心整個特征的分區(qū),編碼,以及異常處理。我重點想強調(diào)的是特征的回溯,回溯對于信用評分模型效果很關(guān)鍵。信貸風控,是用用戶過去的時間窗,比如前一個月的數(shù)據(jù)去預測他未來的借貸風險,如果說用他最近的信貸數(shù)據(jù)去預測明天,或者說用今天預測今天,特征效果可能會比較高,但是它是虛高的,所以都有時間窗的概念,基于歷史來預測未來。還有Shuffle亂序,有的模型對特征的排序性是有相關(guān)性的,如果有問題,模型效果也會有波動。還有特征調(diào)度異常的處理,還有特征上線,各種的一致,在線離線覆蓋率,特征值等等,這個一致性是很關(guān)鍵的。我們基于特征也做各種專項的分析,大部分都在做一些特征指標類,特征分布,特征大小等等。

模型該怎么測?我們對模型測試有這么幾個點可以關(guān)注,一個是蛻變,我們直接去構(gòu)造輸入看輸出,可能很難發(fā)現(xiàn)問題,模型測試的是Oracle問題(未知問題),沒有明確的標準,如果變換輸入看輸出的變化環(huán)境是否相對應(yīng),是能夠發(fā)現(xiàn)模型的問題,比如把一些標簽亂序,屬性亂序,增加無信息的屬性,看看對模型輸出的問題。還有要看特征工程處理的情況。整個模型工程測試大部分都是偏白盒的,不像服務(wù)端可以暴露接口。還有小樣本實驗,這很有效,看看整個信用評分的分布情況,是否符合正態(tài)分布。

關(guān)于模型效果的評估設(shè)計,我們要控制算法版本為評測流程唯一變量。

模型的監(jiān)控、模型的上線,監(jiān)控的重要性和工程類的服務(wù)一樣重要,模型會隨著時間衰退,我們需要做各種監(jiān)控,有關(guān)鍵指標,還有對覆蓋率,準確率的監(jiān)控。提取還款的樣本,樣本打標簽,請求線上模型,計算KS。做金融風控的模型測試,比做互聯(lián)網(wǎng)2 C的廣告推薦模型等要相對困難,對于大部分互金平臺來說信貸還款表現(xiàn)樣本較難獲取。

模型測試的痛點都有哪些?第一是難,門檻很高,我們傳統(tǒng)工程測試的方法不能完全的復用,而且是很抽象的,模型是黑盒的,想定位一個問題,模型的效果不好,排查鏈路很長,發(fā)現(xiàn)原來是某某數(shù)據(jù)丟失了。它是強數(shù)據(jù)相關(guān)的,數(shù)據(jù)的特征質(zhì)量決定了模型效果的上限,我們經(jīng)常在聊做模型的評估,這里有一個很重要的一個環(huán)節(jié),我們需要先把數(shù)據(jù)和特征質(zhì)量給覆蓋住,這是一個很重要的源頭,80%的工作在特征工程。然后是慢,有的傳統(tǒng)公司,像金融企業(yè)的,一個模型迭代可能半個月,一個月,甚至是兩個月,因為要反復實驗,還有環(huán)境的變化,客群的變化。它是一個不確定的問題,因為沒法基于一個分數(shù)或者什么指標完全評估這個模型好還是壞,上線才剛剛開始。所以,綜合的用各個數(shù)據(jù)指標來進行評估。

AI產(chǎn)品質(zhì)量體系應(yīng)該怎么做?分為線上和線下:線下三個模塊,模型質(zhì)量、數(shù)據(jù)質(zhì)量、工程質(zhì)量。線上做各種模型效果的監(jiān)控,特征的監(jiān)控,一致性監(jiān)控的,覆蓋率的還有業(yè)務(wù)表現(xiàn)的監(jiān)控等。我們希望把線上線下模型的測試做得更專業(yè)和高效,還是需要做自動化,工具平臺化,比如說把模型的評估做到可視化,充分參考已有開源的平臺做的模型評估模塊的功能,把數(shù)據(jù)分析,質(zhì)量分析,基于統(tǒng)計的維度做可視化的展示和度量,讓整個模型部署過程自動發(fā)布。。

最后,在AI時代,測試開發(fā)怎么做技術(shù)的儲備和轉(zhuǎn)型呢?如果要做AI的學習,從高數(shù)基礎(chǔ)到機器學習是需要一個過程的,我們內(nèi)部也在開展機器學習小組,課程安排一共18節(jié)課。再有是數(shù)據(jù)分析和挖掘,剛才說的特征挖掘,大部分是用數(shù)據(jù)挖掘的技術(shù),做數(shù)據(jù)質(zhì)量分析本質(zhì)上就是做數(shù)據(jù)分析,大量相關(guān)的理論和工具都需要熟練的用到。如果做機器學習,通過看一些視頻教材,大概就知道是怎么回事了。在我左邊的深度學習,強化學習,復雜度就更高了,右邊的一、二、三,對于我們做模型的質(zhì)量保證這塊入門就夠了。如果大家覺得看書比較煩瑣,可以去B站看一下,B站有很多比較好的視頻資源。PPT里也給出了詳細的AI學習路線圖,感興趣的同學可以參考學習。

以上就是我今天和大家分享的關(guān)于模型評測的全部內(nèi)容,希望能給大家一些收獲及啟發(fā)。對于AI模型評估測試,目前各個公司團隊都在摸索中前進,希望在前行的路上和各位同行朋友更多交流學習。

 

責任編輯:張燕妮 來源: 51CTO
相關(guān)推薦

2019-11-26 17:56:21

開發(fā)AI360搜索

2019-11-26 17:38:15

人工智能AI開發(fā)者

2019-11-26 18:00:59

系統(tǒng)運維架構(gòu)

2019-12-05 16:17:59

云計算行業(yè)科技

2019-12-05 16:23:15

開發(fā)技能代碼

2019-12-05 16:15:32

云計算行業(yè)科技

2019-12-13 11:58:21

AI 數(shù)據(jù)人工智能

2019-12-05 16:25:26

開發(fā)技能代碼

2019-12-05 16:01:24

云計算行業(yè)科技

2019-11-26 17:44:16

AI 數(shù)據(jù)人工智能

2019-11-26 17:58:47

系統(tǒng)運維架構(gòu)

2019-10-26 22:43:42

AI移動開發(fā)測試

2019-11-26 17:41:59

AI 數(shù)據(jù)人工智能

2019-11-26 17:54:14

開發(fā)技能移動應(yīng)用

2019-12-13 11:54:06

AI 數(shù)據(jù)人工智能

2019-12-13 11:51:34

技術(shù)AI云計算

2019-11-26 17:46:26

AI 數(shù)據(jù)人工智能

2019-12-05 16:20:59

云計算行業(yè)科技

2019-12-13 11:56:50

AI 數(shù)據(jù)人工智能

2016-09-21 15:35:45

Javascript單元測試
點贊
收藏

51CTO技術(shù)棧公眾號