AI芯片2019年的六大關(guān)鍵詞和2020年的四大趨勢(shì)
2019年2月,兩位圖靈獎(jiǎng)得主 John L. Hennessy 和 David A. Patterson發(fā)表長(zhǎng)篇報(bào)告,展望未來(lái)十年將是計(jì)算機(jī)體系架構(gòu)領(lǐng)域的“新的黃金十年”。這一年,架構(gòu)創(chuàng)新、小芯片獲得了更多的關(guān)注,從初創(chuàng)公司到巨頭公司,從終端到云端,都有AI芯片相繼推出。
AI芯片市場(chǎng)的競(jìng)爭(zhēng)變得更加激烈,但大都面臨落地難題。
回顧2019年的AI芯片發(fā)展,6個(gè)關(guān)鍵詞貫穿其中。
展望2020年的AI芯片市場(chǎng),4大趨勢(shì)不容忽視。
六大關(guān)鍵詞
關(guān)鍵詞一:架構(gòu)創(chuàng)新
兩位圖靈獎(jiǎng)得主 John L. Hennessy 和 David A. Patterson在報(bào)告中說(shuō),“計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域?qū)⒂瓉?lái)又一個(gè)黃金十年,就像20世紀(jì)80年代我們做研究那時(shí)一樣,新的架構(gòu)設(shè)計(jì)將會(huì)帶來(lái)更低的成本,更優(yōu)的能耗、安全和性能。”
雷鋒網(wǎng)2019年采訪英特爾任高級(jí)副總裁、首席架構(gòu)師,兼架構(gòu)、圖形與軟件部門總經(jīng)理Raja M. Koduri時(shí)詢問(wèn)他是否同意兩位圖靈獎(jiǎng)得主的觀點(diǎn)時(shí)。他表示:“我百分之百認(rèn)同未來(lái)十年是計(jì)算架構(gòu)的新黃金十年的觀點(diǎn)。在未來(lái)10年,我們將看到比過(guò)去50年多得多的架構(gòu)優(yōu)化和提升。”他還表示:“通過(guò)軟件和硬件的結(jié)合,我們可以讓摩爾定律的提升變成十倍。”
對(duì)于AI芯片而言,架構(gòu)創(chuàng)新的重要價(jià)值之一在于解決內(nèi)存墻挑戰(zhàn)。AI芯片公司沒(méi)讓我們等太久,2019年5月,耐能發(fā)布了架構(gòu)具有創(chuàng)新性的物聯(lián)網(wǎng)專用AI SoC,耐能稱為可重組的架構(gòu)能夠讓芯片像積木一樣組合,既能滿足語(yǔ)音,也能滿足視覺(jué)的需求。
一個(gè)月之后,又有兩款架構(gòu)創(chuàng)新的AI語(yǔ)音芯片推出。一款來(lái)自探境科技,CEO魯勇說(shuō)其創(chuàng)新的SFA是以存儲(chǔ)調(diào)度為核心的計(jì)算架構(gòu),數(shù)據(jù)在存儲(chǔ)之間的搬移過(guò)程之中就完成了計(jì)算,計(jì)算對(duì)于數(shù)據(jù)來(lái)說(shuō)只是一種演變。這個(gè)架構(gòu)不僅可以實(shí)現(xiàn)更高能效比,還可以支持任意神經(jīng)網(wǎng)絡(luò),也能適用于云端和終端芯片。
另一款來(lái)自清微智能,采用了具有軟件硬件都可以編程、混合粒度、芯片的硬件功能隨軟件的變化而變化,應(yīng)用改變軟件、軟件再改變硬件特性的可重構(gòu)架構(gòu)(CGRA)。清微智能創(chuàng)始人兼CEO王博表示,CGRA最大的優(yōu)勢(shì)體現(xiàn)在兩方面,一是沒(méi)有傳統(tǒng)指令驅(qū)動(dòng)的計(jì)算架構(gòu)取指和譯碼操作的延時(shí)和能耗開銷,二是在計(jì)算過(guò)程中以接近“專用電路”的方式執(zhí)行。對(duì)比CPU和GPU有十倍到千倍不等的性能提升。
11月,英國(guó)AI芯片獨(dú)角獸Graphcore聯(lián)合創(chuàng)始人兼CEO Nigel Toon接受雷鋒網(wǎng)采訪時(shí)表示,Graphcore開創(chuàng)了全新的處理器類型IPU,IPU是專為機(jī)器智能設(shè)計(jì)的處理器,能夠滿足人們對(duì)高效易于使用的處理器的需求。IPU面有1216個(gè)核,我們稱之為Tile,每個(gè)Tile里都有計(jì)算單元和內(nèi)存。上千個(gè)處理器工作,單個(gè)IPU的存儲(chǔ)帶寬能達(dá)到45TB,比性能最快的HBM提升了50倍以上,在相同算力下,功耗降低一半。
同月,知存科技發(fā)布存內(nèi)計(jì)算芯片,他們的芯片利用FLASH既可以存儲(chǔ)又可以計(jì)算的特性,通過(guò)對(duì)存儲(chǔ)陣列改造以及重新設(shè)計(jì)外圍電路使電路能夠容納更多數(shù)據(jù),滿足AI算法的需求。同時(shí),利用NOR-FLASH更加成熟和易于商用的特點(diǎn),推出存算一體的AI語(yǔ)音芯片。
在AI芯片的架構(gòu)創(chuàng)新中,可重構(gòu)架構(gòu)以及存算一體目前有更多的關(guān)注度。
關(guān)鍵詞二:專用芯片
AI芯片架構(gòu)創(chuàng)新目標(biāo)在于保持芯片高能效比的同時(shí)還能適應(yīng)AI算法的不斷演進(jìn),但2019年新推出的AI芯片大部分還是專用加速器。Arm ML事業(yè)群商業(yè)與營(yíng)銷副總裁Dennis Laudick 2018年接受采訪時(shí)認(rèn)為,最終GPU和FPGA將會(huì)消失,留下最通用的CPU和最專用的NPU。2019年他堅(jiān)持這一觀點(diǎn),認(rèn)為未來(lái)市場(chǎng)需要的是通用加專用芯片,并且適用范圍更廣。
對(duì)于這個(gè)問(wèn)題,雷鋒網(wǎng)向不同的受訪人尋求答案,站在各自的立場(chǎng),他們看法有所差別,但大部分都認(rèn)為隨著AI的成熟,AI芯片會(huì)走向通用。
這樣的判斷也易于理解,對(duì)于工業(yè)界而言,推出一款芯片最重要的價(jià)值在于獲取商業(yè)價(jià)值,在AI算法快速迭代的時(shí)候,只具備一定編程能力,只針對(duì)部分算法,與現(xiàn)有解決方案相比有十倍甚至更多提升的AI芯片,才更容易獲得用戶的采用。
這一邏輯用手機(jī)的NPU也能很好地解釋,最先在手機(jī)SoC中加入NPU的公司是華為和蘋果,這兩家公司的手機(jī)使用自研SoC,率先加入NPU能夠展現(xiàn)出其手機(jī)領(lǐng)先于其它手機(jī)的AI特性,并以此作為賣點(diǎn)。
于此不同,高通和MediaTek作為兩大手機(jī)SoC提供商,在AI算法還不成熟、面向眾多客戶的時(shí)候,他們傾向于用一個(gè)更加通用的處理器,等到算法和應(yīng)用相對(duì)明確的時(shí)候再集成NPU,但依舊需要保持AI性能更高,靈活性更好。
關(guān)鍵詞三:Chiplet
Chiple可以翻譯為小芯片,也可以翻譯為芯粒,2019年Chiplet概念火熱的推動(dòng)力包括,DARPA的CHIPS項(xiàng)目、Intel的Foveros、AMD的全新一代霄龍(EPYC)處理器。簡(jiǎn)單來(lái)說(shuō),Chiplet技術(shù)就是像搭積木,把一些預(yù)先生產(chǎn)好的特定功能芯片裸片(Die)通過(guò)先進(jìn)的集成技術(shù)(比如3D integration)封裝在一起,形成一個(gè)系統(tǒng)芯片,基本的裸片就是Chiplet。
這意味著,Chiplet是一個(gè)新的IP重用模式。以前,芯片設(shè)計(jì)公司從IP供應(yīng)商購(gòu)買一些IP(軟核(代碼)或硬核(版圖)),結(jié)合自研的模塊集成一個(gè)SoC,然后使用某一個(gè)半導(dǎo)體制程完成芯片設(shè)計(jì)和生產(chǎn)的完整流程。
未來(lái),以Chiplet模式,只需要購(gòu)買別人設(shè)計(jì)好的硅片,通過(guò)先進(jìn)的封裝技術(shù)就可以集成的芯片會(huì)是一個(gè)“超級(jí)”異構(gòu)系統(tǒng),可以為AI計(jì)算帶來(lái)更多的靈活性和新的機(jī)會(huì)。
從某種程度上來(lái)說(shuō),Chiplet是2018年討論很多地異構(gòu)計(jì)算的更進(jìn)一步。SoC就是一個(gè)異構(gòu)的系統(tǒng),廣泛討論異構(gòu)也是因?yàn)锳I對(duì)芯片提出了更高地要求,通過(guò)通用加專用的異構(gòu)系統(tǒng)能夠更好地滿足AI的需求。
Chiplet的提出,帶來(lái)了工藝選擇、架構(gòu)設(shè)計(jì)和商業(yè)模式的靈活性,讓AI芯片能夠更容易地實(shí)現(xiàn)異構(gòu)。挑戰(zhàn)也顯而易見(jiàn),除了先進(jìn)的封裝技術(shù),標(biāo)準(zhǔn)、質(zhì)量都還不明確,編程的復(fù)雜性也大大增加。
關(guān)鍵詞四:軟硬融合
要降低異構(gòu)系統(tǒng)的編程復(fù)雜性,軟件平臺(tái)的重要性就更加突顯。這時(shí)候,可能就需要一個(gè)全新的軟件平臺(tái)甚至全新的編程語(yǔ)言,英特爾要用oneAPI解決編程復(fù)雜性的挑戰(zhàn),還采用了一種基于標(biāo)準(zhǔn)的跨架構(gòu)語(yǔ)言Data Parallel C++++ (DPC++)。
oneAPI的意義在于提供統(tǒng)一的編程模型,簡(jiǎn)化跨不同計(jì)算架構(gòu)的應(yīng)用開發(fā)工作,這些計(jì)算架構(gòu)經(jīng)常被縮寫為 SVMS,包括標(biāo)量處理器(CPU),矢量處理器(GPU),矩陣處理器(AI加速器)和空間處理器(FPGA)。
DPC++則是以C++為基礎(chǔ),融合了Kronos Group的SYCL編程語(yǔ)言,支持?jǐn)?shù)據(jù)并行性和異構(gòu)編程,并包含在一個(gè)開放社區(qū)流程中開發(fā)的語(yǔ)言擴(kuò)展。面向特定加速器的自定義調(diào)試的跨行業(yè)開放式解決方案,也是代替單一架構(gòu)的專用語(yǔ)言。
英特爾的方案是一種更加上層的方式。Arm以及許多IP提供商是采用更加底層的方式,不需要全新的編程語(yǔ)言,通過(guò)其軟件平臺(tái)直接與CPU、GPU或NPU溝通,根據(jù)任務(wù)做最佳地匹配,解決異構(gòu)帶來(lái)的編程挑戰(zhàn)。
但無(wú)論哪種方式,要做到最佳地匹配都面臨非常大的挑戰(zhàn)。
這在異構(gòu)更加重要的AI時(shí)代,軟硬更好融合無(wú)法避免,業(yè)界也更多地意識(shí)到軟硬一體化對(duì)于AI的價(jià)值。在中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機(jī)器人研究院協(xié)辦的2019第四屆全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR 2019)上,AI芯片專場(chǎng)的大咖們紛紛提到軟硬融合。
英特爾首席工程師數(shù)據(jù)中心技術(shù)銷售部人工智能首席技術(shù)架構(gòu)師夏磊提出AI計(jì)算一定需要硬件+軟件的結(jié)合。深聰智能 CTO 朱澄宇說(shuō)軟硬融合使邊緣計(jì)算成為可能。觸景無(wú)限科技聯(lián)合創(chuàng)始人兼CEO肖洪波表示解決智慧城市的挑戰(zhàn)需要易于使用、軟硬融合的感知芯片。天數(shù)智芯創(chuàng)始人、董事長(zhǎng)、CEO 李云鵬認(rèn)為海量數(shù)據(jù)時(shí)代軟硬件充分結(jié)合尤為重要。
中科院計(jì)算所研究員、先進(jìn)計(jì)算機(jī)系統(tǒng)研究中心主任,中國(guó)開放指令生態(tài)聯(lián)盟秘書長(zhǎng)包云崗稱軟件、硬件之間有巨大的性能差異,同樣一個(gè)算法或者一個(gè)程序,一個(gè)普通的程序員來(lái)寫和一個(gè)懂體系架構(gòu)的人來(lái)寫,性能可以差63000倍。如果按照摩爾定律折算,相當(dāng)于可以把摩爾定律再延長(zhǎng)二十多年,實(shí)際上就是摩爾定律賦予了很大的能力,但是并沒(méi)有挖掘出來(lái)。
關(guān)鍵詞五:有效算力
軟硬一體化也意味著AI芯片更高的有效算力。之所以有效算力開始成為關(guān)注的焦點(diǎn),很重要的原因是隨著AI芯片的落地,用戶發(fā)現(xiàn)AI芯片即便有非常高的峰值速率,有效算力也可能非常低,這就不能帶來(lái)預(yù)期的性能提升。
天數(shù)智芯CEO李云鵬很早就意識(shí)到這一點(diǎn),所以他們的做法是通過(guò)軟件加硬件的方式不僅提升算力的均值,同時(shí)也提升算力的峰值。云天勵(lì)飛CEO陳寧在去年11月上的發(fā)布會(huì)上也強(qiáng)調(diào),我們更加關(guān)注的是面向場(chǎng)景的有效算力,因?yàn)槿斯ぶ悄芙裉爝€處于非常早期的階段,還沒(méi)有進(jìn)入通用人工智能時(shí)代,更不存在通用的AI芯片。有效算力=算力 X 效率 X AI性能,對(duì)應(yīng)的就是芯片、工具鏈以及算法應(yīng)用。
地平線同樣提出:?jiǎn)挝怀杀鞠碌姆逯邓懔?X 編譯器、架構(gòu)和Runtime的優(yōu)化 X 適應(yīng)場(chǎng)景的算法優(yōu)化和演進(jìn)=AI芯片真實(shí)性能的全面優(yōu)化。地平線副總裁兼智能物聯(lián)網(wǎng)芯片方案產(chǎn)品線總經(jīng)理張永謙在雷鋒網(wǎng)主辦的全球 AIoT產(chǎn)業(yè) 智能制造峰會(huì)的演講中表示, 傳統(tǒng)的芯片基本都講PPA(Power功耗,Performance性能,Area芯片面積(成本)),到了AI邊緣側(cè)計(jì)算的時(shí)候,這個(gè)評(píng)估變得很復(fù)雜,光有算力不夠,還要看算力的有效利用率。針對(duì)場(chǎng)景處理輸出結(jié)果的有效性指標(biāo),是衡量整個(gè)AI芯片(包括算法)的一個(gè)最重要指標(biāo)。
除了終端,專注云端AI芯片初創(chuàng)公司燧原科技也強(qiáng)調(diào)有效算力,燧原科技CEO趙立東表示:“在壟斷市場(chǎng),所有客戶都希望有新的選擇,這樣他們才能稍有議價(jià)能力,因此市場(chǎng)有這樣的痛點(diǎn)。除此之外,他們還希望有更高的性價(jià)比和能效比,特別是在落地的場(chǎng)景可以實(shí)現(xiàn)的有效性能。”
關(guān)鍵詞六:開源
2019年還有一個(gè)關(guān)鍵詞就是開源,這背后最大的推動(dòng)力就是RISC-V。RISC-V只是一個(gè)開源指令集,基于這個(gè)指令集的IP、芯片以及產(chǎn)品在2020年會(huì)陸續(xù)推向市場(chǎng)。當(dāng)然,RISC-V AI芯也不少,這不僅為AI芯片市場(chǎng)帶來(lái)了新的競(jìng)爭(zhēng)力量,更可能打破現(xiàn)有x86、Arm統(tǒng)治芯片市場(chǎng)的格局。
OURS、GreenWaves都已經(jīng)推出了基于RISC-V的邊緣端AI芯片,華米的首款自研AI芯片黃山1號(hào)也基于RSCI-V指令集,已經(jīng)應(yīng)用在其智能手表中。
在RISC-V迅猛發(fā)展的2019年,Arm布推出一項(xiàng)全新的功能 Arm Custom instructions,允許客戶在特定的 CPU 內(nèi)核中加入自定義指令功能,從而來(lái)加速特定的用例、嵌入式和物聯(lián)網(wǎng)應(yīng)用程序。
開源以及AI也讓與Arm相隔幾年誕生的MIPS也宣布開源,Wave Computing首席執(zhí)行官Art Swift認(rèn)為,在新的AI以及IoT的時(shí)代,MIPS迎來(lái)了一個(gè)新的機(jī)會(huì),在這個(gè)新的機(jī)會(huì)面前,大家起跑線都一樣。并且,MIPS的技術(shù)優(yōu)勢(shì)非常適合于AI結(jié)合。
可惜的是,2019年11月?lián)碛蠱IPS的Wave Computing表示,自2019年11月14號(hào)起,Wave 將不再提供包括MIPS開房組件的免費(fèi)下載,包括架構(gòu)、核心、工具、IDE、模擬器和FPGA包/或任何與之相關(guān)的軟件代碼或計(jì)算機(jī)硬件。
開源領(lǐng)域還有一個(gè)新勢(shì)力,平頭哥宣布開源MCU芯片設(shè)計(jì)平臺(tái),目標(biāo)群體包括芯片開發(fā)者、IP供應(yīng)商、高校及科研院所等,開發(fā)者可以基于該平臺(tái)設(shè)計(jì)面向細(xì)分領(lǐng)域的定制化芯片,IP供應(yīng)商能夠研發(fā)原生于該平臺(tái)的核心IP,高校和科研院所則可開展芯片相關(guān)的教學(xué)及科研活動(dòng)。
四大趨勢(shì)
趨勢(shì)一:AI語(yǔ)音芯片的競(jìng)爭(zhēng)加劇
AI應(yīng)用的兩大方向是視覺(jué)和語(yǔ)音,相比視覺(jué),語(yǔ)音不僅技術(shù)挑戰(zhàn)更小,而且已經(jīng)有出貨量非常大的智能音箱產(chǎn)品。在更加激烈的AI競(jìng)爭(zhēng)中,為了延續(xù)優(yōu)勢(shì),強(qiáng)于算法的公司紛紛推出自研AI芯片,比如思必馳。
除了算法公司,擁有創(chuàng)新架構(gòu)AI芯片的探境科技、知存科技、清微智能都在2019年發(fā)布了語(yǔ)音芯片,其中探境科技已經(jīng)擁有了30個(gè)合作伙伴,AI語(yǔ)音方案出貨達(dá)到了百萬(wàn)級(jí),清微智能的AI語(yǔ)音芯片也已經(jīng)量產(chǎn),并且產(chǎn)生了營(yíng)收,知存科技也有多位意向客戶。
再加上為AI智能音箱提供芯片的傳統(tǒng)芯片公司,AI語(yǔ)音芯片的競(jìng)爭(zhēng)將變得更加激烈。當(dāng)然,這種競(jìng)爭(zhēng)伴隨的是市場(chǎng)需求的增加,未來(lái)幾年,智能家居市場(chǎng)對(duì)于AI語(yǔ)音芯片的需求也有望快速增加。
趨勢(shì)二:云端芯片市場(chǎng)迎來(lái)競(jìng)爭(zhēng)
英偉達(dá)和英特爾最先享受到了AI云端芯片市場(chǎng)的紅利,其中英偉達(dá)在云端AI訓(xùn)練市場(chǎng)的地位更是無(wú)人能敵。不過(guò),隨著英特爾推出Nervana NNP-T 和 Nervana NNP-I 以及20億美元收購(gòu)Habana Labs,還有即將在今年年中推出的獨(dú)立GPU Xe,英偉達(dá)和英特爾在云端AI芯片市場(chǎng)的競(jìng)爭(zhēng)會(huì)更加激烈。
同時(shí),國(guó)內(nèi)的寒武紀(jì)、比特大陸、燧原科技等在2019年都推出了云端AI芯片,從細(xì)分市場(chǎng)進(jìn)入云端AI芯片市場(chǎng),目標(biāo)是獲得一定的市場(chǎng)份額。
2020年,巨頭和初創(chuàng)公司產(chǎn)品的落地,將讓云端AI芯片市場(chǎng)的競(jìng)爭(zhēng)逐步激烈,并可能在一定程度上削弱英偉達(dá)的話語(yǔ)權(quán)。
趨勢(shì)三:端云一體的生態(tài)戰(zhàn)正式開啟
無(wú)論是傳統(tǒng)芯片還是AI芯片,芯片成功的本質(zhì)都是生態(tài)的成功。因此,無(wú)論是巨頭芯片公司還是初創(chuàng)公司,都有端云一體的戰(zhàn)略,他們希望通過(guò)端云一體的戰(zhàn)略構(gòu)建強(qiáng)大的生態(tài),產(chǎn)生很寬的護(hù)城河同時(shí)保持公司業(yè)績(jī)的持續(xù)增長(zhǎng),差別在于實(shí)現(xiàn)的難度不同。
2019年,在云端AI芯片市場(chǎng)非常成功的英偉達(dá)和谷歌都相繼推出了面向邊緣端的AI芯片,或增強(qiáng)邊緣端AI芯片的實(shí)力。英特爾更是構(gòu)建了全面的AI芯片類型,迎戰(zhàn)AI。
由此看來(lái),隨著有實(shí)力的公司們端云一體AI芯片戰(zhàn)略的開啟和落地,2020年的邊緣AI芯片初創(chuàng)公司們,將面臨更大的生存壓力。
趨勢(shì)四:易用性更為重要
從語(yǔ)音到圖像,從邊緣到云端,要在越來(lái)越激烈的競(jìng)爭(zhēng)中占有一席之地,落地的速度成為關(guān)鍵。實(shí)際上,2019年已經(jīng)有不少商用的AI芯片,但無(wú)論是大公司還是初創(chuàng)公司,不少都面臨芯片卻難以落地的難題,原因多種多樣,比如芯片本身帶來(lái)的性能提升不夠有吸引力,芯片不適配應(yīng)用的需求,易用性不高,選擇的行業(yè)難以突破等等。
因此,芯片的易用性在2020年將變得更加重要,這將從技術(shù)上降低客戶嘗試的成本,加快產(chǎn)品推向市場(chǎng)的時(shí)間,也能夠彌補(bǔ)硬件迭代速度慢不能很好滿足應(yīng)用需求的痛點(diǎn)。