從Argo AI的倒下談起
?上星期發(fā)生了一件汽車圈里比較轟動的事情,那就是著名的獨(dú)角獸公司argo AI宣布關(guān)閉業(yè)務(wù)了。這家前些年紅得發(fā)紫的自動駕駛獨(dú)角獸企業(yè)有福特、大眾兩家汽車業(yè)巨頭的加持,最高時(shí)估值高安73億美金,而且其領(lǐng)頭大佬更是威名赫赫的Bryan Salesky和Peter Rander。從福田公司發(fā)布的公告上看,福田公司認(rèn)為argo主要的業(yè)務(wù)方向是完全自主的自動駕駛,而從目前的情況來看,要再人流和車流涌動的現(xiàn)實(shí)世界實(shí)現(xiàn)完全自主的自動駕駛比登月還難。Argo實(shí)現(xiàn)營業(yè)目標(biāo)遙遙無期,福田目前更需要的是能夠直接產(chǎn)生商用收益的L2/L3級別的智能輔助技術(shù),而不是完全自主的L4或者更高級別的自動駕駛。
Argo的倒閉有點(diǎn)突然,不過在IT圈里沒有太多人關(guān)注。實(shí)際上Argo的問題,會給IT圈里的創(chuàng)新領(lǐng)域一些警示。前些年AIOPS概念盛行的時(shí)候,IT圈里也有一些類似的狂熱,認(rèn)為用AI解決運(yùn)維中的難題的時(shí)代到來了。AI必然給運(yùn)維領(lǐng)域帶來一些新的突破,自動駕駛將會在OPS領(lǐng)域更早的完成對傳統(tǒng)運(yùn)維的替代。我也是在2017年,被AIOPS概念的沖擊下,決定從傳統(tǒng)運(yùn)維領(lǐng)域向AIOPS轉(zhuǎn)型的。因?yàn)閺?013年那次轟轟烈烈但是不甚成功的優(yōu)化項(xiàng)目開始,我就對傳統(tǒng)運(yùn)維產(chǎn)生了一定的懷疑。
當(dāng)時(shí)我負(fù)責(zé)一個(gè)大企業(yè)全國二十多個(gè)省的一個(gè)大型系統(tǒng)優(yōu)化項(xiàng)目,項(xiàng)目投資高達(dá)數(shù)千萬元。在此之前,我們在幾個(gè)試點(diǎn)省份都取得了不錯(cuò)的效果。在一個(gè)省的核心業(yè)務(wù)系統(tǒng)優(yōu)化中,因?yàn)閮?yōu)化效果十分明顯,該省在項(xiàng)目驗(yàn)收會上認(rèn)為原本計(jì)劃3500元升級硬件的項(xiàng)目不再需要了,優(yōu)化后的系統(tǒng)的原有硬件繼續(xù)用5年不成問題。
不過項(xiàng)目推廣開來之后,問題就層出不窮了。雖然我們事先針對前期的時(shí)點(diǎn)項(xiàng)目進(jìn)行了深度的總結(jié),列出了一些最佳實(shí)踐,設(shè)計(jì)了數(shù)據(jù)采集、巡檢報(bào)告、診斷分析報(bào)告、優(yōu)化實(shí)施方案等的標(biāo)準(zhǔn)化文檔。但是為了按期完成項(xiàng)目,我們還是不得不在每個(gè)省都派出了工作小組。而這些小組中的人員的技術(shù)水平參差不齊,有些人甚至從來沒有做過優(yōu)化項(xiàng)目。雖然我們也將有經(jīng)驗(yàn)的專家設(shè)置為區(qū)域支撐人員,不陷入某個(gè)具體項(xiàng)目,用于支持全局,但是效果依然不夠理想。
事后總結(jié)的時(shí)候,大家都認(rèn)為項(xiàng)目做的不好的主要原因是專家不夠用,完全依靠人的能力的項(xiàng)目是很難大規(guī)模復(fù)制的。因此在2017年我們選擇進(jìn)入AIOPS這個(gè)領(lǐng)域,實(shí)現(xiàn)未了的愿望。在技術(shù)選擇上,我們自然而然的選擇了完全自動駕駛這個(gè)技術(shù)路線。在2017年的一個(gè)活動上,我向來賓展示了我們系統(tǒng)的構(gòu)想模型。我們選擇了和高校合作的模式來解決在領(lǐng)域技術(shù)能力不足的問題,確實(shí)很快就找到了大致的發(fā)展方向。只不過做了一段時(shí)間后我們發(fā)現(xiàn)實(shí)驗(yàn)室的理論效果在實(shí)際應(yīng)用環(huán)境中總是脫節(jié)的。完全自動駕駛在實(shí)驗(yàn)室似乎是行得通的,而實(shí)戰(zhàn)的效果往往不如人意。
在一個(gè)用戶那邊,領(lǐng)導(dǎo)看了我們的系統(tǒng)和我做了一次溝通。他的話讓我重新認(rèn)識了我們目前在做的工作。他說我們目前的運(yùn)維自動化水平還較低,實(shí)際上我們是需要自動化駕駛的,不過我覺得自動化駕駛不是一下子就能搞成的,因?yàn)槿魏我淮握`判都是災(zāi)難性的,無法承受的。既然如此,我們?yōu)槭裁床幌雀阋恍┌胱詣踊模o助性的工具呢?有些判斷做的不準(zhǔn),那么也沒關(guān)系,不是有你們這些老專家嗎?大不了我現(xiàn)場生成一份報(bào)告,讓你們的專家?guī)臀覀兎治霾痪托辛?,為什么非死磕自動駕駛呢?再說你們公司的優(yōu)勢是有那么強(qiáng)的專家隊(duì)伍,而不是搞算法的人,現(xiàn)在這個(gè)搞法,把你們的優(yōu)勢就完全丟了。
那位領(lǐng)導(dǎo)雖然不是DBA出身,不過他看問題看得很透測。以目前的技術(shù)能力,要想絕對準(zhǔn)確的預(yù)測或者定位一個(gè)復(fù)雜的問題,技術(shù)能力的覆蓋還很不全面。我們目前做的所有的分析,診斷和預(yù)測僅僅是利用數(shù)學(xué)計(jì)算發(fā)現(xiàn)了一個(gè)異常而已。這個(gè)異常在ITOM里僅僅算是一個(gè)事件,而是不是一個(gè)確定的問題。事件上升為問題,要么依靠準(zhǔn)確的模型計(jì)算,要么就要依靠人工確認(rèn)。
實(shí)際上現(xiàn)在能夠通過模型和算法完全確認(rèn)的事件還比較少,特別是想要做成一個(gè)通用產(chǎn)品,難度還是很大。哪怕是一個(gè)IO延時(shí)過高的問題,這到底會引發(fā)什么樣的問題?會不會引發(fā)問題?為什么同一個(gè)系統(tǒng),有時(shí)候IO延時(shí)高達(dá)100ms了,系統(tǒng)啥事沒有,有時(shí)候50ms系統(tǒng)就掛了?當(dāng)模型和算法的能力還沒有達(dá)到一定水平的時(shí)候,我們還無法向用戶保證,你可以先睡一會,AIOPS來開車,保證不出車禍。那么我們完全可以通過算法和模型來降低人工分析的工作量,用AIOPS來輔助提高運(yùn)維的生產(chǎn)力。
前陣子我們的系統(tǒng)在一個(gè)客戶那里做POC,跑了一段時(shí)間后,對接入的近30套系統(tǒng)做了一個(gè)自動化巡檢。把巡檢報(bào)告下載下來后,專家在遠(yuǎn)程花了近一天時(shí)間幫用戶查看了這些巡檢報(bào)告,發(fā)現(xiàn)各類問題200多個(gè),其中有二十幾個(gè)還是高風(fēng)險(xiǎn)的問題,在分析問題時(shí),完全依靠的就是遠(yuǎn)程生成的報(bào)告,并沒有再去系統(tǒng)上做任何采集和確認(rèn)。用戶看到分析報(bào)告后也覺得這種模式可以大大提高運(yùn)維分析的生產(chǎn)效率,讓巡檢工作從一個(gè)不得不做的雞肋變成真正的能夠幫助自己實(shí)現(xiàn)常態(tài)化優(yōu)化的生產(chǎn)力工具。
遠(yuǎn)程巡檢讓我們看到了把巡檢工作實(shí)用化的希望,不過通過這次遠(yuǎn)程巡檢分析,我們也發(fā)現(xiàn)了目前巡檢報(bào)告中的一些不足,很多時(shí)候,我們看到的是結(jié)論,而缺失了數(shù)據(jù)的羅列和數(shù)據(jù)的對比分析。這些診斷報(bào)告中的結(jié)論是否準(zhǔn)確,是否合理,還是要打一些問號的。在全面自動化駕駛的技術(shù)條件還不具備的時(shí)候,輔助駕駛還是需要向使用者提供更多的反饋現(xiàn)實(shí)狀態(tài)的界面。在開車時(shí),我不太喜歡使用自動輔助停車就是這個(gè)原因,雖然每次車停的都比我好,但是停車過程中那種人無法把控車輛的感覺十分的令人不爽。
回到Argo AI的倒下這個(gè)事件,我覺得福特做出了一個(gè)正確的決定。在未來5年內(nèi)看不到自動駕駛能獲得實(shí)際成功的情況下,把重點(diǎn)放在已經(jīng)能夠?yàn)橛脩魩砀民{駛體驗(yàn)的輔助駕駛領(lǐng)域,是比較現(xiàn)實(shí)的做法。在AIOPS領(lǐng)域是不是也應(yīng)該做一些思考,當(dāng)真正實(shí)用的全自動化無法實(shí)現(xiàn)的時(shí)候,先幫助運(yùn)維人員降低采集、分析、匯總數(shù)據(jù)的工作量,做好智能輔助,是不是更有價(jià)值呢??