AI 江湖風(fēng)云變幻 計算機視覺路在何方
原創(chuàng)作者丨張潔
【51CTO.com原創(chuàng)稿件】計算機視覺 (Computer Vision, CV) 在人工智能領(lǐng)域里相當(dāng)于人類的眼睛,致力于讓計算機能夠像人類一樣,識別、理解和處理圖像以及視頻中的信息。得益于深度學(xué)習(xí)的興起和發(fā)展,目前 CV 領(lǐng)域進(jìn)展迅速,此項技術(shù)已經(jīng)廣泛應(yīng)用到安防、金融、自動駕駛、醫(yī)療等行業(yè),也逐漸成為人工智能領(lǐng)域里應(yīng)用最廣的技術(shù)之一。當(dāng)越來越多的應(yīng)用場景被挖掘出來時,也意味著計算機視覺的發(fā)展前景將無比廣闊。
前沿:進(jìn)展與挑戰(zhàn)
2012 年之后,深度學(xué)習(xí)興起,顛覆了幾乎所有的計算機視覺任務(wù)。其特點是將傳統(tǒng)的特征工程和模型學(xué)習(xí)合為一體,即能夠在學(xué)習(xí)的過程中進(jìn)行特征設(shè)計。在過去的 2021 年里,傳統(tǒng)科技巨頭公司表現(xiàn)依舊令人矚目,不少模型一經(jīng)推出就獲得廣泛關(guān)注。
OpenAI 同時發(fā)布了兩個連接文本與圖像的神經(jīng)網(wǎng)絡(luò):CLIP 和 DALL·E ?;谶@兩個模型,機器學(xué)習(xí)社區(qū)的開發(fā)者在文本與圖像的匹配方面嘗試了很多新的玩法。
谷歌大腦團隊公布了 Vision Transformer(ViT)進(jìn)階版 ViT-G/14,參數(shù)高達(dá) 20 億的 CV 模型,經(jīng)過 30 億張圖片的訓(xùn)練,刷新了 ImageNet 上最高準(zhǔn)確率記錄——90.45%。
……
此外,過去一年間 CV 領(lǐng)域的論文發(fā)布也堪稱百花齊放。據(jù)統(tǒng)計,今年的 CVPR(Computer Vision and Pattern Recognition,計算機視覺領(lǐng)域頂級峰會之一)舉辦的 12 次會議共發(fā)表了超過 1600 篇論文,其中一些新主題來到了聚光燈下。
其一,使用對抗樣本學(xué)習(xí)。通過對抗性學(xué)習(xí),當(dāng)加入不同級別的噪聲時,每個樣本的可靠性可以根據(jù)其預(yù)測標(biāo)簽的穩(wěn)定性來估計。這使模型能夠識別和關(guān)注對噪聲更具彈性的樣本,從而降低其對對抗性示例的敏感性。
其二,自監(jiān)督和對比學(xué)習(xí)。自監(jiān)督學(xué)習(xí)是創(chuàng)建數(shù)據(jù)高效人工智能系統(tǒng)的幾種計劃之一,主要是利用輔助任務(wù)(pretext)從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息,通過這種構(gòu)造的監(jiān)督信息對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而可以學(xué)習(xí)到對下游任務(wù)有價值的表征。
其三,視覺語言模型。VL 使用不同形式的數(shù)據(jù),可以更好地進(jìn)行特征映射和提取。此外,可以使用大量數(shù)據(jù)樣本來訓(xùn)練這些系統(tǒng)。與自監(jiān)督學(xué)習(xí)類似,學(xué)習(xí)到的特征是通用的,可用于多個下游任務(wù)。此外,VL 模型可用于學(xué)習(xí)更好的視覺特征和增強語言表示。
其四,有限數(shù)據(jù)學(xué)習(xí)。弱監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)有助于減少訓(xùn)練 CV 模型所需的標(biāo)記數(shù)據(jù)量,從而增加這些模型在工業(yè)中的應(yīng)用和采用。弱監(jiān)督學(xué)習(xí)還可以幫助模型在存在噪聲標(biāo)簽的情況下表現(xiàn)得更好。不過,弱監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)都是相對較新的領(lǐng)域,要在工業(yè)中使用尚需時日。
商業(yè):潛力無窮,暗流洶涌
自 2012 年計算機視覺領(lǐng)域出現(xiàn)神經(jīng)網(wǎng)絡(luò)技術(shù)之后,算法進(jìn)行多次穩(wěn)步改進(jìn),在某些視覺任務(wù)上的性能已經(jīng)可以與人類相媲美,甚至有所超越。隨著計算機視覺技術(shù)日趨成熟,其商業(yè)價值和發(fā)展?jié)摿σ驳玫搅速Y本市場的普遍認(rèn)同。
根據(jù) Crunchbase 統(tǒng)計,過去 8 年里約 1800 家計算機視覺創(chuàng)始公司獲得風(fēng)險投資超 150 億美元。僅就中國市場來說,計算機視覺行業(yè)市場規(guī)模發(fā)展也相當(dāng)迅速,據(jù)前瞻產(chǎn)業(yè)研究院整理,2020 年我國計算機視覺產(chǎn)品的市場規(guī)模占整個人工智能行業(yè)的 57%。
就行業(yè)分布來說,熱門賽道集中于零售、安防、制造、醫(yī)療。
零售業(yè)可基于場景化營銷、商品識別分析、消費者行為分析、防盜損等應(yīng)用,為改善用戶體驗、門店運營智能化改革提供了途徑;安防作為 CV 落地最早的場景之一,在視頻監(jiān)控、智能交通、智慧園區(qū)等領(lǐng)域應(yīng)用廣泛;制造業(yè)對 CV 技術(shù)的使用包括智慧現(xiàn)場安監(jiān)、預(yù)測性維護、智能輔助運輸和工業(yè)視覺質(zhì)檢等方向,場景豐富多樣;在醫(yī)療領(lǐng)域,CV 產(chǎn)品和解決方案作為提升現(xiàn)代醫(yī)療診斷和治療水平的重要工具, 使實施風(fēng)險低、創(chuàng)傷性小的手術(shù)方案成為可能。
總體而言,計算機視覺和產(chǎn)業(yè)融合的加深,也加速了產(chǎn)業(yè)規(guī)模的增長。資料顯示,到 2025 年我國計算機視覺技術(shù)及視覺核心產(chǎn)品及帶動的相關(guān)產(chǎn)業(yè)規(guī)模將達(dá)到 6000 億。不過,這個賽道固然潛力無限,但對于身處這個賽道的玩家來說依舊暗流洶涌。
2021 年 12 月,在商湯科技上市的關(guān)鍵時刻,美國財政部將其列入“中國軍工復(fù)合體企業(yè)”清單,美國投資人被禁止投資商湯科技。而在此前被列入制裁名單的還有與商湯科技并稱“AI 四小龍”的另外 3 家企業(yè)(曠視科技、云從科技、依圖科技)。
當(dāng)前,中美兩國在科技領(lǐng)域角力日趨激烈。在互聯(lián)網(wǎng)行業(yè)整體發(fā)展放緩的大背景下,美國對中國人工智能公司的打壓無疑是雪上加霜。截至 2021 年 12 月 31 日,同屬于計算機視覺領(lǐng)域的“AI 四小龍”均已啟動上市計劃,但僅有商湯科技幾經(jīng)波折后在港股成功上市。
四小龍上市之路的曲折多舛,撇開外因作用,折射的更多是整個 AI 行業(yè)在商業(yè)化之路上的步履維艱。
AI 發(fā)展幾經(jīng)起落,與其燒錢快、落地難的現(xiàn)實不無關(guān)系。以 AI 四小龍為例,他們同處計算機視覺領(lǐng)域,創(chuàng)業(yè)之初產(chǎn)品同質(zhì)化程度較高,落地場景也較多地集中在安防和金融領(lǐng)域,要尋求發(fā)展,開發(fā)更多的產(chǎn)品解決方案和落地場景是剛需。但要在更為細(xì)分的賽道力求落地?zé)o疑是更大的挑戰(zhàn),在持續(xù)的業(yè)務(wù)擴張、高昂的研發(fā)投入下,落地不及預(yù)期的陰影始終沒有散去,常年虧損的局面也未有扭轉(zhuǎn)。
計算機視覺技術(shù)的應(yīng)用落地需要更深入業(yè)務(wù)、更深入行業(yè),加強用戶洞察,滿足千人千面的需求,這要求企業(yè)未來在重視前沿算法研發(fā)的同時,進(jìn)一步加強算法和商業(yè)應(yīng)用的融合,在產(chǎn)業(yè)落地的深水區(qū),尋求和其他行業(yè)、合作伙伴共建生態(tài),實現(xiàn)價值閉環(huán)。
五大趨勢
縱觀 2021 年計算機視覺領(lǐng)域的整體發(fā)展,英特爾軟件創(chuàng)新者、谷歌開發(fā)者專家 Sayak Paul 提出了五大新趨勢。
趨勢一:資源更高效的模型(Resource-Efficient Models)
原因:
- 最先進(jìn)的模型通常很難在輕量設(shè)備(比如手機、Raspberry Pis 和其他微處理器)上離線運行的。
- 較重的模型往往具有較明顯的延遲(這里表示單個模型運行前向計算的時間),并且會顯著影響基礎(chǔ)設(shè)施的搭建成本。
- 出于成本、網(wǎng)絡(luò)連接、隱私等問題考慮,如果基于云的模型托管不是一個可選項?
趨勢二:創(chuàng)造性應(yīng)用的生成式模型
原因:
- 生成式模型已經(jīng)取得了長足進(jìn)步。
- 現(xiàn)在生成式對抗網(wǎng)絡(luò) (GAN)幾乎可以創(chuàng)建任何以假亂真的圖片。示例請參考https://thisxdoesnotexist.com/
- 可以實現(xiàn)多種功能:圖像超分辨率(Image Super-Resolution)、域轉(zhuǎn)移( Domain Transfer)、圖像外擴(Extrapolation)、隱式神經(jīng)表示和 CLIP(Implicit Neural Representations and CLIP)
趨勢三:自監(jiān)督學(xué)習(xí)
原因:
自監(jiān)督學(xué)習(xí)不使用任何 GT 標(biāo)簽(Ground Truth Labeler ),而是使用前置任務(wù)(pretext tasks);然后使用大量未標(biāo)注的數(shù)據(jù)集進(jìn)行模型訓(xùn)練。
與之相比,監(jiān)督學(xué)習(xí)存在這樣一些挑戰(zhàn):
- 需要大量標(biāo)注數(shù)據(jù)來推動性能提升
- 標(biāo)注數(shù)據(jù)的人工成本很高,且有可能存在偏差
- 大規(guī)模的數(shù)據(jù)標(biāo)注與訓(xùn)練需要占用較長時間
總體來說,未標(biāo)注數(shù)據(jù)的準(zhǔn)備成本非常低,而且在計算機視覺領(lǐng)域,SEER 等(一種自監(jiān)督模型)模型在對象檢測和語義分割方面的表現(xiàn)要優(yōu)于監(jiān)督學(xué)習(xí)。
趨勢四:Transformers 與 Self-Attention 的使用
原因:
Transformers 是一種新的機器學(xué)習(xí)架構(gòu),采用的是 Self-Attention(自注意力)機制,其與傳統(tǒng) Attention(注意力)機制有很大不同。這種方式能通過量化成對實體之間的關(guān)系(pairwise entity interactions),有效獲取源端或目標(biāo)端自身詞與詞之間的依賴關(guān)系,有助于網(wǎng)絡(luò)學(xué)習(xí)對齊數(shù)據(jù)中的上下文信息。另外,當(dāng) self-attention 與 CNNs 相結(jié)合,會構(gòu)建強大的 baselines(BoTNet)
與 CNN 相比,Transformer 的優(yōu)勢:
- 較少的歸納與先驗,因此可以被認(rèn)為是一種適用于不同學(xué)習(xí)任務(wù)的通用計算基礎(chǔ)
- 參數(shù)有效性和性能與 CNNs 相當(dāng)
與 CNN 相比,Transformer 的劣勢:
預(yù)訓(xùn)練時,對大數(shù)據(jù)機制的依賴性更強。因為 transformer 沒有和 CNNs 那樣的明確定義的先驗
趨勢五:魯棒視覺模型
視覺模型容易受到很多因素干擾,影響其性能。
目前主要面臨以下三個問題:
- 擾動。深度模型對輸入數(shù)據(jù)中難以察覺的變化不夠魯棒;
- 形變。深度模型會率先對高頻出現(xiàn)的區(qū)域做出反應(yīng),使得其容易受到常見的損壞(如模糊、對比度、縮放等)的影響
- 分布外數(shù)據(jù)。
可以提升魯棒性的嘗試:
- 對抗訓(xùn)練(Adversarial training):類似于拜占庭容錯,其基本是讓模型能夠在面臨糟糕情況時做好自行處理的準(zhǔn)備;
- 一致性正則話(Consistency regularization):期望模型能夠?qū)τ性肼暤妮斎刖哂幸恢滦?
- 立即檢測異常數(shù)據(jù)點。
結(jié)語
計算機視覺帶給機器的并不止于通過視覺理解世界的能力,更是與世界建立聯(lián)系,基于理解進(jìn)行決策,最終實現(xiàn)交互的路徑。像其他技術(shù)一樣,CV 也經(jīng)歷著缺口、泡沫、泡沫擠出、理性回歸、再度崛起的起起落落,商業(yè)化依舊任重而道遠(yuǎn)。不過我們依然愿意相信,歷史的車輪永遠(yuǎn)向前,距離計算機視覺普惠人類生活的那一天已經(jīng)不會太遠(yuǎn)。
附參考資料:
從 CVPR 2021 的論文看計算機視覺的現(xiàn)狀:
https://www.163.com/dy/article/GEUJ8CG50531D9VR.html#post_comment_area
IEEE Fellow 梅濤:視覺計算的前沿進(jìn)展與挑戰(zhàn):
https://www.yanxishe.com/blogDetail/28319
2021 年中國人工智能行業(yè)市場現(xiàn)狀與優(yōu)勢賽道分析計算機視覺成為千億級大賽道:
https://baijiahao.baidu.com/s?id=1711947993304727146&wfr=spider&for=pc
Sayak Paul | Deep Learning, Computer Vision, etc.:
https://sayak.dev/
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】