10億參數(shù)模型進(jìn)手機(jī)!15秒即可出圖,飛行模式也能用
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
純靠手機(jī)跑Stable Diffusion,出一張圖需要多長時(shí)間?
答案是15秒以內(nèi)。還是開飛行模式那種,完全不需要借助云服務(wù)器的算力!
不僅能生成動(dòng)畫版鎧甲貓貓戰(zhàn)士,真人版《龍珠》cosplay大合照,也能迅速想象出來:
△圖源@TK Bay
當(dāng)然,畫個(gè)中國風(fēng)兔型剪紙圖像,也完全沒問題:
△圖源@TK Bay
此前,雖然已經(jīng)有網(wǎng)友做出了一些能在手機(jī)上運(yùn)行的Stable Diffusion項(xiàng)目,不過實(shí)際運(yùn)行會(huì)發(fā)現(xiàn),這些項(xiàng)目要么生成圖片的時(shí)間長、內(nèi)存占用高、耗電量大,要么生成的圖像風(fēng)格比較單一。
15秒內(nèi)依靠手機(jī)算力出圖,風(fēng)格還是多變的那種,究竟是怎么做到的?
手機(jī)15秒跑億級(jí)大模型
這個(gè)手機(jī)版15秒跑Stable Diffusion項(xiàng)目,是高通基于自己的手機(jī)芯片做的一個(gè)“演示”APP。
在前不久的MWC 2023上,高通現(xiàn)場(chǎng)展示了這個(gè)APP的生成效果,有不少線下參會(huì)的網(wǎng)友也體驗(yàn)了一波,例如嘗試用它生成一群寶可夢(mèng):
△圖源@NewGadgets.de
迭代步數(shù)達(dá)到了20步,可以生成分辨率512×512的圖像。
據(jù)高通介紹,之所以相比其他項(xiàng)目,這個(gè)版本的Stable Diffusion能在手機(jī)上快速運(yùn)行,是因?yàn)閳F(tuán)隊(duì)專門基于移動(dòng)端AI軟硬件技術(shù),對(duì)開源模型進(jìn)行了優(yōu)化。
其中,Stable Diffusion模型選用的是在Hugging Face上開源的FP32 version1-5版本。
為了達(dá)到15秒“快速出圖”的效果,研究人員從硬件、框架和AI壓縮算法上入手,在確保出圖效果的同時(shí),對(duì)模型大小和端側(cè)運(yùn)行進(jìn)行適配優(yōu)化:
- 硬件:第二代驍龍8移動(dòng)平臺(tái)
- 框架:高通AI引擎Direct
- AI模型壓縮工具:AI模型增效工具包AIMET
首先,基于高通AI模型增效工具包AIMET,對(duì)訓(xùn)練后的Stable Diffusion模型進(jìn)行量化。AIMET中包括一些高通之前的量化研究算法如AdaRound等,能將模型精度從FP32壓縮到INT8,降低功耗的同時(shí)確保模型運(yùn)行效果;
接下來,團(tuán)隊(duì)基于高通的AI引擎Direct框架,對(duì)這一模型進(jìn)行軟硬件協(xié)同優(yōu)化,讓它能更好地運(yùn)行在AI計(jì)算專用的Hexagon處理器上,提升性能的同時(shí)最小化內(nèi)存溢出;
最后,高通也采用了最新發(fā)布的第二代驍龍8移動(dòng)平臺(tái),支持一項(xiàng)名叫微切片推理(Micro Inferencing)的技術(shù),能通過在時(shí)間軸上對(duì)網(wǎng)絡(luò)層進(jìn)行切分,從而讓處理器始終處于高效運(yùn)轉(zhuǎn)狀態(tài),提升效率。
不止是Stable Diffusion,其他生成式AI算法同樣如此。
高通還展示了相比其他GPU和CPU,Hexagon處理器在移動(dòng)端跑人臉生成算法的效率:
至于搭載Hexagon處理器的第二代驍龍8移動(dòng)平臺(tái),跑超分辨率(RDN)、背景虛化(DeeplabV3+)、人臉識(shí)別(FaceNet)和自然語言處理(MobileBERT)等算法上,性能同樣高出同行3~4倍:
而這也正是高通一直強(qiáng)調(diào)的“端側(cè)AI算力”性能。
據(jù)高通介紹,在這波生成式AI浪潮下,相比單純借助云端算力處理AI模型,端側(cè)的計(jì)算能力也同樣能被加以利用。
端側(cè)算力加速生成式AI落地
隨著這波大模型爆火,云端計(jì)算已經(jīng)成為不少人受關(guān)注的技術(shù)。
然而,作為AI技術(shù)最直接的落地領(lǐng)域之一,同樣能提供算力的移動(dòng)端,是否同樣會(huì)對(duì)這波生成式AI浪潮造成影響?
對(duì)此,高通技術(shù)公司產(chǎn)品管理高級(jí)副總裁兼AI負(fù)責(zé)人Ziad Asghar分享了他的看法。
Ziad Asghar認(rèn)為,讓大模型這類生成式AI純粹在云端運(yùn)行,存在幾個(gè)問題。
一方面,像網(wǎng)絡(luò)搜索這樣的算法,生成式AI的查詢效果雖然比傳統(tǒng)方法更好,但單次查詢成本也會(huì)更高。
隨著用戶數(shù)量的不斷增加,僅僅依靠云端算力,可能無法支持越來越多的生成式AI應(yīng)用同時(shí)運(yùn)行:
另一方面,雖然云端計(jì)算能力更大,但不少AI模型應(yīng)用到端側(cè)時(shí),在推理時(shí)還會(huì)面對(duì)處理用戶數(shù)據(jù)等涉及隱私安全方面的問題。
就拿個(gè)人搜索來說,要想使用AI算法更智能地搜索手機(jī)上的數(shù)據(jù)、同時(shí)又不上傳到云端處理,那么模型最終就得部署到端側(cè),而非將用戶數(shù)據(jù)“聯(lián)網(wǎng)”上傳。
因此,要想讓生成式AI規(guī)?;涞?,移動(dòng)端也要從計(jì)算方式和應(yīng)用途徑上作出對(duì)應(yīng)的準(zhǔn)備。
而這也是高通提出混合AI概念的原因,將一些AI模型放到終端側(cè)進(jìn)行處理。
Ziad Asghar還表示,隨著移動(dòng)端AI處理能力的不斷提升,未來幾個(gè)月內(nèi),我們就能看到100億參數(shù)的大模型在移動(dòng)端運(yùn)行:
到那個(gè)時(shí)候,或許手機(jī)上的AI助手就真能做到“專人定制”了。