偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

蘋果端側(cè)AI兩連發(fā)!模型體積減半、首字延遲降85倍,iPhone離線秒用

人工智能 新聞
蘋果在 Hugging Face上放大招了!這次直接甩出兩條多模態(tài)主線:FastVLM主打「快」,字幕能做到秒回;MobileCLIP2主打「輕」,在 iPhone 上也能起飛。更妙的是,模型和Demo已經(jīng)全開放,Safari網(wǎng)頁就能體驗(yàn)。大模型,真·跑上手機(jī)了。

就在剛剛,蘋果在Hugging Face上重磅開閘:

這一次不是零碎更新,而是FastVLM與MobileCLIP2兩條多模態(tài)主線集中亮相。

一個主打「快」,把首字延遲壓到競品的1/85;

另一個突出「輕」,在保持與SigLIP相當(dāng)精度的同時,體積減半。

打開攝像頭實(shí)時字幕、離線識別翻譯、相冊語義搜索,這些場景都能體驗(yàn)。

更重要的是,模型和Demo都已經(jīng)開放,科研、應(yīng)用到落地一步到位。

實(shí)時字幕,不再卡頓的多模態(tài)

FastVLM為何這么快?因?yàn)樗鼡Q上了蘋果自研的FastViTHD編碼器。

傳統(tǒng)多模態(tài)模型要么犧牲分辨率,要么被成千上萬的視覺token拖慢推理。

而FastViTHD通過動態(tài)縮放和混合設(shè)計(jì),讓模型既能看清高分辨率圖像,又能保持極低的延遲。

FastVit 與 FastVitHD 的性能對比:綠色曲線整體更靠左上,代表在同等規(guī)模下既更快又更準(zhǔn)

從這條對比曲線能看得很清楚:同樣是0.5B、1.5B、7B參數(shù)量,綠色的FastVitHD總比藍(lán)色的FastVit更靠左上。

換句話說,就是延遲更低、精度更高。

這也就是FastVLM能在不降分辨率的情況下依舊秒回的秘密。

FastVLM用更少的視覺token處理高分辨率輸入,直接把「算力負(fù)擔(dān)」減輕。

那么,速度差距有多夸張?

官方對比顯示,F(xiàn)astVLM-0.5B的首字延遲相對LLaVA-OneVision-0.5B快85×。

不同模型在 7 個視覺語言任務(wù)上的平均準(zhǔn)確率(縱軸)與首字延遲 TTFT(橫軸)的對比

從這張性能對比圖可以直觀看出:FastVLM越大,性能越強(qiáng),但延遲始終壓得極低。

FastVLM的0.5B、1.5B、7B模型,都穩(wěn)定壓在左上角。

對比LLaVA-OneVision、LLaVA-Next等傳統(tǒng)方案,不僅更慢,準(zhǔn)確率也沒拉開差距。

也就是說,F(xiàn)astVLM 把快和準(zhǔn)同時做到極致,不是「犧牲質(zhì)量換速度」,而是真正實(shí)現(xiàn)了兩頭兼顧。

使用低分辨率(左)和高分辨率(右)輸入圖像時VLM性能的比較

更關(guān)鍵的是,F(xiàn)astVLM已經(jīng)放到了Hugging Face,配好WebGPU Demo,用 Safari打開就能直接體驗(yàn)。

更小更快,零樣本也能打

如果說 FastVLM 代表「極致的快」,那 MobileCLIP2就是「輕裝上陣」。

它是蘋果在2024年推出MobileCLIP的升級版。

研究團(tuán)隊(duì)通過多模態(tài)蒸餾、captioner teacher和數(shù)據(jù)增強(qiáng)等手段,把「大腦」壓縮進(jìn)「小身體」,既減輕了模型體積,又保住了理解力。

過去,圖像檢索和描述往往依賴云端算力,如今MobileCLIP2能直接在iPhone上完成推理。

照片不必上傳,結(jié)果幾乎即時返回,不僅快,而且更安全。

從整體測試曲線來看,MobileCLIP2 在「精度-延遲」坐標(biāo)軸上整體更靠左上。

這意味著它在保持高精度的同時,把延遲顯著壓低。

MobileCLIP2在ImageNet-1k上的 zero-shot表現(xiàn):相比SigLIP和舊版MobileCLIP,更小的延遲下實(shí)現(xiàn)相近甚至更高的精度。

在測試中,S4模型在ImageNet-1k上與SigLIP-SO400M/14精度相當(dāng),但參數(shù)量僅有一半。

在iPhone 12 ProMax上,延遲更是比DFN ViT-L/14低了2.5倍。

相比之下,B模型相對上代MobileCLIP-B又提升了+2.2%,而S0/S2則以接近ViT-B/16的精度實(shí)現(xiàn)了更小體積與更快速度。

從體驗(yàn)到集成,兩步就能上手

蘋果這次不只是發(fā)模型,還順手鋪好了路:先試Demo,再集成開發(fā)。

最直觀的方式,就是去Hugging Face打開他們提供的FastVLM WebGPU Demo。

在Safari授權(quán)攝像頭后,就能立刻看到實(shí)時字幕效果。

MobileCLIP2 的模型卡同樣提供推理接口,上傳一張照片或輸入一句描述,就能馬上出現(xiàn)結(jié)果。

體驗(yàn)過后,如果想把這些功能真正變成應(yīng)用,開發(fā)者可以用Core ML+Swift Transformers工具鏈,把模型直接集成到iOS或macOS里。

蘋果在WWDC和Hugging Face的文檔中都給了現(xiàn)成示例,GPU和神經(jīng)引擎都能調(diào)動,性能和能耗都有保證。

這意味著「在iPhone 上跑大模型」不再只是一個演示,而是可以被直接拿來做相冊搜索、相機(jī)翻譯、直播字幕等具體功能。

「體驗(yàn)+開發(fā)」,對開發(fā)者來說再也不是口號,而是真實(shí)可用的路徑。

光看模型介紹很難有感覺,真正打動人的,還是那些使用成功的瞬間。

當(dāng)你打開FastVLM的WebGPU Demo,舉起手機(jī)攝像頭對著紙上的字——幾乎是瞬間識別。

FastVLM能快速識別圖像中的文字

在Reddit社區(qū),有人親測后寫道:

「快得不可思議,盲人用屏幕閱讀器都能實(shí)時跟上。橫著拿手機(jī),邊走邊敲盲文輸入,都不卡?!埂?r/LocalLLaMA

這句話把FastVLM的速度感形容得淋漓盡致:

不僅普通用戶能體驗(yàn) 到「字幕秒回」,在無障礙場景下,它甚至讓盲文輸入與屏幕閱讀器同步成為可能。

還有技術(shù)社區(qū)的用戶補(bǔ)充道:

「FastVLM 能做到高效又準(zhǔn)確的圖像文本處理,速度和精度都比同類模型更出色?!?—— r/apple

從生活中的真實(shí)體驗(yàn),到技術(shù)層面的驗(yàn)證,網(wǎng)友們的評價都指向一個結(jié)論:FastVLM不只是快,而且快得可靠。

FastVLM vs MobileCLIP2該怎么選?

看了這篇介紹,可能有人會問:那我到底該用哪個?

如果你是內(nèi)容創(chuàng)作者、博主,追求字幕秒出的體驗(yàn),那FastVLM是首選。

如果你更需要相機(jī)翻譯、離線識別,那MobileCLIP2更合適。

當(dāng)然,如果你的應(yīng)用場景既涉及實(shí)時字幕,又需要圖文檢索,那么二者完全可以組合使用。

但要注意,WebGPU在不同瀏覽器和機(jī)型上的兼容性并不完全一致;

而且端側(cè)模型雖然解決了隱私和延遲,但在算力和續(xù)航上始終存在權(quán)衡。

即便如此,這一次蘋果在Hugging Face上的「開閘」,依然有著標(biāo)志性意義。

不僅放出了模型,還把Demo、工具鏈、文檔全部交到社區(qū)手里。

對開發(fā)者來說,這已經(jīng)不是一篇論文,而是一條能被立刻走通的路線。

從快到輕,從體驗(yàn)到集成,F(xiàn)astVLM和MobileCLIP2展示了一個清晰的信號——

在iPhone上跑大模型,不再是遙遠(yuǎn)的未來,而是觸手可及的現(xiàn)在。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-07-17 12:13:11

2025-05-19 08:25:00

2024-03-04 08:20:00

谷歌架構(gòu)AI

2024-04-18 07:30:00

蘋果AI

2021-09-30 11:27:58

模型人工智能神經(jīng)網(wǎng)絡(luò)

2022-08-29 14:30:55

學(xué)術(shù)Nature

2025-06-09 17:32:09

2023-06-12 10:25:45

模型訓(xùn)練

2025-06-10 09:10:47

2017-08-30 11:00:53

谷歌

2023-11-07 06:54:00

AI機(jī)器人ChatGPT

2025-09-23 09:20:05

2025-07-17 14:20:23

2011-05-18 20:02:55

蘋果Mac mini

2011-12-24 18:16:56

2024-09-10 12:11:18

2022-07-05 18:21:12

Gartner金融人工智能

2025-05-21 13:48:58

AI模型推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號