安卓手機(jī)上跑15億參數(shù)大模型,12秒不到就推理完了
早晚會(huì)有這一天,但它還是比想象來(lái)得早了一些:大模型在手機(jī)上運(yùn)行的預(yù)言被實(shí)現(xiàn)了。
圖片

上個(gè)月的計(jì)算機(jī)視覺(jué)學(xué)術(shù)頂會(huì) CVPR 上,生成式 AI 成了重要方向,高通會(huì)議中展示了一把未來(lái)有望成為「主流」的 AI 應(yīng)用:用手機(jī)跑大模型 AI 畫(huà)圖。
CVPR 是 AI 領(lǐng)域最負(fù)盛名的重要會(huì)議,我們?cè)谄渲幸?jiàn)證過(guò)人工智能的幾次重要突破,今年在獲獎(jiǎng)和入圍的論文中,既有通用大模型,也有 AI 畫(huà)圖的研究,可謂一下進(jìn)入了生成式 AI 的新時(shí)代。
圖片
在 CVPR 2023 上,高通共有八篇論文被主會(huì)議收錄,并行的展示覆蓋生成式 AI、計(jì)算機(jī)視覺(jué)、XR 和自動(dòng)駕駛汽車(chē)等領(lǐng)域的理論創(chuàng)新,以及應(yīng)用方向。
在這場(chǎng)最先進(jìn)技術(shù)的碰撞中,有不少令人期待的未來(lái)圖景。
15 億大模型,手機(jī) 12 秒跑完
幾個(gè)月前,高通就曾在巴塞羅那 MWC 通信展上玩了一把手機(jī)跑 Stable Diffusion。此次對(duì)于終端側(cè)生成式 AI,高通首先展示了完全在安卓手機(jī)上運(yùn)行 ControlNet 圖像生成圖像模型,并實(shí)現(xiàn)了速度「全球最快」。
用時(shí)是多少呢?不到 12 秒。要知道,ControlNet 擁有 15 億參數(shù),而二月份高通演示在手機(jī)上運(yùn)行 10 億參數(shù)的 Stable Diffusion,當(dāng)時(shí)還花了 15 秒左右。
這讓人不得不感嘆,終端側(cè)的生成式 AI 能力又進(jìn)化了。
作為一種生成式 AI 繪畫(huà)解決方案,ControlNet 被認(rèn)為是擴(kuò)散模型中的大殺器,它通過(guò)額外輸入控制預(yù)訓(xùn)練大模型如 Stable Diffusion,可以精細(xì)地設(shè)定生成圖像的各種細(xì)節(jié)。先輸入一張參考圖,然后根據(jù)輸入的 prompt 進(jìn)行預(yù)處理,就能對(duì)生成的圖像進(jìn)行精準(zhǔn)控制。
此次在高通 AI Research 的展示中,普通安卓手機(jī)僅用 11.26 秒便可以運(yùn)行 ControlNet 生成一張圖片,并且無(wú)需訪問(wèn)任何云端,完全本地化,交互式體驗(yàn)良好且運(yùn)行非常高效。下面是一個(gè)動(dòng)圖演示:
圖片
我們知道,AI 畫(huà)圖的教程里通常會(huì)有對(duì)計(jì)算機(jī)配置的建議,在 ControlNet 上訓(xùn)練需要 16G 顯存的 GPU,而推理用 M1 芯片需要 5 到 10 分鐘,高通卻能讓手機(jī)做到效率更高,這是如何實(shí)現(xiàn)的呢?
高通此次對(duì) ControlNet 模型架構(gòu)進(jìn)行了軟硬件全棧式 AI 優(yōu)化,以低功耗、低延遲地實(shí)現(xiàn)高質(zhì)量圖像生成。其中用到的關(guān)鍵 AI 工具和軟硬件包括了高通 AI 模型增效工具包(AIMET)、高通 AI 引擎和高通 AI 軟件棧。我們一一來(lái)看。
圖片
首先是 AIMET,它是高通創(chuàng)新中心推出的端側(cè) AI 模型效率工具包,能夠提供模型量化和壓縮服務(wù),通過(guò)量化感知訓(xùn)練,將浮點(diǎn)運(yùn)算模型轉(zhuǎn)化為整數(shù)運(yùn)算模型。此處高通利用 AIMET 及 Qualcomm AI Studio 完成 ControlNet 模型的 INT8 量化壓縮,節(jié)省更多功耗,提升運(yùn)行效率。
其次是高通 AI 引擎,它是高通終端側(cè) AI 優(yōu)勢(shì)的核心,采用異構(gòu)計(jì)算機(jī)構(gòu),包括高通 Hexagon 處理器、Adreno GPU 和 Kryo CPU。目前高通第二代驍龍 8 搭載了迄今最快、最先進(jìn)的高通 AI 引擎。ControlNet 正是在第二代驍龍 8 的高通 Hexagon 處理器上,完成了 AI 加速。
還有高通 AI 軟件棧負(fù)責(zé)應(yīng)用的構(gòu)建、優(yōu)化和部署。在跑 ControlNet 時(shí),高通 AI 引擎 Direct 框架基于 Hexagon 處理器的硬件架構(gòu)和內(nèi)存層級(jí)進(jìn)行運(yùn)算排序,提升性能并最小化內(nèi)存溢出,降低運(yùn)行時(shí)延和功耗。
圖片
這么一套集 AI 模型壓縮工具、硬件和軟件框架于一體的全棧式優(yōu)化下來(lái),在手機(jī)上十幾秒跑大模型的不可能變成了可能。
接近落地,可以展示
除了給 AI 繪畫(huà)做移動(dòng)版優(yōu)化,高通還在數(shù)字人、神經(jīng)網(wǎng)絡(luò)視頻編解碼等其他技術(shù)方向進(jìn)一步探索 AI 能力的延展。
在 CVPR 上,利用基于視覺(jué)的大語(yǔ)言模型(LLM),高通打造了一個(gè)「數(shù)字健身教練」,它能夠與用戶(hù)實(shí)時(shí)互動(dòng),像真人教練一樣給予鼓勵(lì),還能糾正并幫助達(dá)成自己的健身目標(biāo)。既然是大模型驅(qū)動(dòng),AI 教練實(shí)現(xiàn)了極強(qiáng)的互動(dòng)性,看起來(lái)健身私教要開(kāi)始焦慮了。
圖片
在技術(shù)上,數(shù)字健身教練將用戶(hù)的運(yùn)動(dòng)視頻流交給動(dòng)作識(shí)別模型進(jìn)行處理,根據(jù)識(shí)別的動(dòng)作提供提示并反饋給大模型。然后健身教練通過(guò)一個(gè)文本生成語(yǔ)音的數(shù)字化身,將 AI 的答復(fù)反饋回用戶(hù)。
得益于大模型的能力,數(shù)字化身能夠?qū)崟r(shí)、不間斷地為用戶(hù)提供相關(guān)的健身反饋,比如「你的形體看起來(lái)棒極了」、「你的雙臂應(yīng)與肩膀同寬」。
現(xiàn)在看起來(lái)和 AI 訓(xùn)練就不能偷懶了,它會(huì)對(duì)用戶(hù)的健身互動(dòng)進(jìn)行評(píng)估,給出你的耐力、強(qiáng)度和形體分?jǐn)?shù),還告訴完成了多少組動(dòng)作。同時(shí)也會(huì)給用戶(hù)提出相關(guān)建議。
圖片
與此同時(shí),在神經(jīng)網(wǎng)絡(luò)視頻編碼這一技術(shù)方向,高通又實(shí)現(xiàn)一個(gè)「全球首次」。同樣是在手機(jī)端,高通首創(chuàng)了 1080p 的視頻編碼和解碼過(guò)程。
對(duì)于神經(jīng)網(wǎng)絡(luò)編解碼而言,它可以針對(duì)特定視頻需求進(jìn)行定制,并運(yùn)行在通用 AI 硬件上。在計(jì)算能力有限的終端設(shè)備上實(shí)現(xiàn)高分辨率(如 1080p、2k 等),則要借助 AI 算法的創(chuàng)新。
高通全新設(shè)計(jì)了高效的神經(jīng)網(wǎng)絡(luò)視頻幀間壓縮架構(gòu),在搭載驍龍芯片的手機(jī)設(shè)備上,實(shí)現(xiàn)了 1080p 的視頻編解碼,視頻解碼速率也來(lái)到了每秒 35 幀上下,并且能夠保留豐富的視覺(jué)結(jié)構(gòu)和復(fù)雜動(dòng)作。
圖片
看起來(lái),移動(dòng)端生成式 AI、神經(jīng)視覺(jué)編碼領(lǐng)域的很多技術(shù)已接近應(yīng)用層,落地的速度追上了 GPT 系列更新的速度。高通在做的事,解決了生成式 AI 面臨的大問(wèn)題。
生成式 AI 的未來(lái)在端側(cè)
我們知道,生成式 AI 有重塑所有行業(yè)的潛力,人工智能正在經(jīng)歷自己的閃耀時(shí)刻,問(wèn)題在于:生成式 AI 雖然更聰明,但也更耗費(fèi)算力。
有研究表示,每次基于生成式 AI 的網(wǎng)絡(luò)搜索查詢(xún)(query),其成本是傳統(tǒng)搜索的 10 倍。全球每天都有超過(guò) 100 億次搜索請(qǐng)求,而且,移動(dòng)端的搜索占比超過(guò)了 60%。
除了要買(mǎi)更多 GPU,我們更要考慮的是如何能讓大模型跑在手機(jī)上 —— 畢竟大家每天在用的都是端側(cè)設(shè)備。
對(duì)此,高通已有一個(gè)整體的規(guī)劃。今年 4 月,高通通過(guò)介紹「混合 AI」的概念,提出了大模型等 AI 任務(wù)處理在云端和終端共同進(jìn)行的范式。
所謂混合 AI,是指充分利用邊緣側(cè)終端算力支持生成式 AI 應(yīng)用的方式,相比僅在云端運(yùn)行的 AI,前者能夠帶來(lái)高性能、個(gè)性化且更安全的體驗(yàn)。
在其愿景下,我們根據(jù) AI 模型和查詢(xún)需求的復(fù)雜度等因素,選擇不同方式在云端和終端側(cè)之間分配負(fù)載:如果模型、提示或生成內(nèi)容的長(zhǎng)度小于某個(gè)限定值,且精度足夠,推理就可以完全在終端側(cè)進(jìn)行;如果任務(wù)相對(duì)復(fù)雜,則可以部分依靠云端模型;如果需要更多實(shí)時(shí)內(nèi)容,模型也可以接入互聯(lián)網(wǎng)獲取信息。
圖片
在未來(lái),不同的生成式 AI 用不同分流方式的混合 AI 架構(gòu),AI 也能在此基礎(chǔ)上持續(xù)演進(jìn):
- 大量生成式 AI 的應(yīng)用,比如圖像生成或文本創(chuàng)作,需求 AI 能夠進(jìn)行實(shí)時(shí)響應(yīng)。在這種任務(wù)上,終端可通過(guò)運(yùn)行不太復(fù)雜的推理完成大部分任務(wù)。
- 在終端設(shè)備充當(dāng)「感知器官」的任務(wù)中,終端負(fù)責(zé)初步處理任務(wù),云端運(yùn)行大模型將生成的內(nèi)容發(fā)回端側(cè),這種操作節(jié)省了算力需求和帶寬。
- 終端和云端的 AI 計(jì)算也可以協(xié)同工作來(lái)處理 AI 負(fù)載。在大模型的工作過(guò)程中,每次推理生成的標(biāo)記(token)都需要讀取全部參數(shù)才能完成,使用閑置算力通過(guò)共享參數(shù)來(lái)推測(cè)性并行運(yùn)行大語(yǔ)言模型,可以提升性能并降低能耗。
最后,混合 AI 還支持模型在終端側(cè)和云端同時(shí)運(yùn)行,也就是在終端側(cè)運(yùn)行輕量版模型時(shí),在云端并行處理完整模型的多個(gè) token,并在需要時(shí)更正終端側(cè)的處理結(jié)果。
混合 AI 覆蓋的邊緣終端包括智能手機(jī)、汽車(chē)、個(gè)人電腦和物聯(lián)網(wǎng)終端設(shè)備,或許會(huì)成為未來(lái)生成式 AI 應(yīng)用的標(biāo)準(zhǔn)。
但如何做到混合 AI ?對(duì)此,必須對(duì) AI 的全棧進(jìn)行優(yōu)化。在生成式 AI 出現(xiàn)以前,高通就在推動(dòng) AI 處理向邊緣進(jìn)行轉(zhuǎn)移。很多的日常功能,都是利用終端側(cè) AI 進(jìn)行支持的,如暗光拍攝、降噪和人臉解鎖。
如今,高通已構(gòu)建起業(yè)界領(lǐng)先的硬件和軟件解決方案,從端側(cè)芯片上的高通 AI 引擎,云端專(zhuān)用芯片,到將其統(tǒng)一在一起的異構(gòu)計(jì)算機(jī)制,在運(yùn)行 AI 負(fù)載時(shí),高通現(xiàn)在已可以充分利用硬件和軟件來(lái)加速終端側(cè) AI 的推理速度。
而在部署時(shí),利用高通 AI 軟件棧,開(kāi)發(fā)者可以充分發(fā)揮高通 AI 引擎性能,并實(shí)現(xiàn)多端部署,模型構(gòu)建一次,就可以應(yīng)用到多種不同硬件上。
圖片
在高通的業(yè)務(wù)中,低功耗、高性能的 AI 已經(jīng)形成了橫跨智能手機(jī)、汽車(chē)、XR、PC 和企業(yè)級(jí) AI 等領(lǐng)域的龐大終端 AI 生態(tài)系統(tǒng)。從拍照,語(yǔ)音助手,到增強(qiáng) 5G 信號(hào)的黑科技,持續(xù)利用先進(jìn) AI 技術(shù),讓這家公司保持了市場(chǎng)領(lǐng)先的地位。
在這背后,是高通 AI Research 對(duì) AI 研究超過(guò) 15 年的持續(xù)投入。高通一直致力于 AI 基礎(chǔ)技術(shù)的研究,從感知、推理再到認(rèn)知,我們見(jiàn)證了終端 AI 技術(shù)的不斷拓展。而在這個(gè)過(guò)程中,由高通發(fā)表的 AI 論文也逐漸影響了整個(gè)行業(yè)。
圖片
僅在生成式 AI 上,最初高通探索了生成式模型的壓縮方式,并進(jìn)一步提升了生成痕跡(Artifact)的感知效果,其利用 VAE 技術(shù)創(chuàng)建的視頻和語(yǔ)音編解碼器,將模型規(guī)模控制在了 1 億參數(shù)以下。高通還將生成式 AI 理念延伸到無(wú)線領(lǐng)域來(lái)替代信道模型,提高了手機(jī)通信的效率。
CVPR 2023 上展示的技術(shù),是高通生成式 AI 布局的重要一環(huán)。隨著端側(cè) AI 計(jì)算能力的持續(xù)優(yōu)化,混合 AI 的潛力將會(huì)進(jìn)一步被釋放。預(yù)計(jì)在未來(lái)幾個(gè)月,高通還要在手機(jī)上部署超過(guò) 100 億參數(shù)的大模型。
生成式 AI 可以打造全新體驗(yàn),變革生產(chǎn)力水平,高通在邊緣側(cè)以低功耗運(yùn)行生成式 AI 的獨(dú)特專(zhuān)長(zhǎng),讓生成式 AI 具有了融入人們?nèi)粘I畹目尚行?。這些能力將會(huì)跟隨全球出貨的數(shù)十億塊芯片,很快進(jìn)入到人們的手中。
在本周上海舉行的世界人工智能大會(huì) WAIC 上,高通將會(huì)有多位高管參與演講,并有望在現(xiàn)場(chǎng)展示移動(dòng)端運(yùn)行 Stable Diffusion、ControlNet 等能力,讓來(lái)看展的人可以近距離接觸一下未來(lái)。


































