偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="q38ue"></cite>

<sub id="q38ue"><p id="q38ue"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

蘋果端側(cè)AI兩連發(fā)！模型體積減半、首字延遲降85倍，iPhone離線秒用

2025-09-08 09:14:00

人工智能新聞

蘋果在 Hugging Face上放大招了！這次直接甩出兩條多模態(tài)主線：FastVLM主打「快」，字幕能做到秒回；MobileCLIP2主打「輕」，在 iPhone 上也能起飛。更妙的是，模型和Demo已經(jīng)全開放，Safari網(wǎng)頁就能體驗(yàn)。大模型，真·跑上手機(jī)了。

就在剛剛，蘋果在Hugging Face上重磅開閘：

這一次不是零碎更新，而是FastVLM與MobileCLIP2兩條多模態(tài)主線集中亮相。

一個主打「快」，把首字延遲壓到競品的1/85；

另一個突出「輕」，在保持與SigLIP相當(dāng)精度的同時，體積減半。

打開攝像頭實(shí)時字幕、離線識別翻譯、相冊語義搜索，這些場景都能體驗(yàn)。

更重要的是，模型和Demo都已經(jīng)開放，科研、應(yīng)用到落地一步到位。

實(shí)時字幕，不再卡頓的多模態(tài)

FastVLM為何這么快？因?yàn)樗鼡Q上了蘋果自研的FastViTHD編碼器。

傳統(tǒng)多模態(tài)模型要么犧牲分辨率，要么被成千上萬的視覺token拖慢推理。

而FastViTHD通過動態(tài)縮放和混合設(shè)計(jì)，讓模型既能看清高分辨率圖像，又能保持極低的延遲。

FastVit 與 FastVitHD 的性能對比：綠色曲線整體更靠左上，代表在同等規(guī)模下既更快又更準(zhǔn)

從這條對比曲線能看得很清楚：同樣是0.5B、1.5B、7B參數(shù)量，綠色的FastVitHD總比藍(lán)色的FastVit更靠左上。

換句話說，就是延遲更低、精度更高。

這也就是FastVLM能在不降分辨率的情況下依舊秒回的秘密。

FastVLM用更少的視覺token處理高分辨率輸入，直接把「算力負(fù)擔(dān)」減輕。

那么，速度差距有多夸張？

官方對比顯示，F(xiàn)astVLM-0.5B的首字延遲相對LLaVA-OneVision-0.5B快85×。

不同模型在 7 個視覺語言任務(wù)上的平均準(zhǔn)確率（縱軸）與首字延遲 TTFT（橫軸）的對比

從這張性能對比圖可以直觀看出：FastVLM越大，性能越強(qiáng)，但延遲始終壓得極低。

FastVLM的0.5B、1.5B、7B模型，都穩(wěn)定壓在左上角。

對比LLaVA-OneVision、LLaVA-Next等傳統(tǒng)方案，不僅更慢，準(zhǔn)確率也沒拉開差距。

也就是說，F(xiàn)astVLM 把快和準(zhǔn)同時做到極致，不是「犧牲質(zhì)量換速度」，而是真正實(shí)現(xiàn)了兩頭兼顧。

使用低分辨率（左）和高分辨率（右）輸入圖像時VLM性能的比較

更關(guān)鍵的是，F(xiàn)astVLM已經(jīng)放到了Hugging Face，配好WebGPU Demo，用 Safari打開就能直接體驗(yàn)。

更小更快，零樣本也能打

如果說 FastVLM 代表「極致的快」，那 MobileCLIP2就是「輕裝上陣」。

它是蘋果在2024年推出MobileCLIP的升級版。

研究團(tuán)隊(duì)通過多模態(tài)蒸餾、captioner teacher和數(shù)據(jù)增強(qiáng)等手段，把「大腦」壓縮進(jìn)「小身體」，既減輕了模型體積，又保住了理解力。

過去，圖像檢索和描述往往依賴云端算力，如今MobileCLIP2能直接在iPhone上完成推理。

照片不必上傳，結(jié)果幾乎即時返回，不僅快，而且更安全。

從整體測試曲線來看，MobileCLIP2 在「精度-延遲」坐標(biāo)軸上整體更靠左上。

這意味著它在保持高精度的同時，把延遲顯著壓低。

MobileCLIP2在ImageNet-1k上的 zero-shot表現(xiàn)：相比SigLIP和舊版MobileCLIP，更小的延遲下實(shí)現(xiàn)相近甚至更高的精度。

在測試中，S4模型在ImageNet-1k上與SigLIP-SO400M/14精度相當(dāng)，但參數(shù)量僅有一半。

在iPhone 12 ProMax上，延遲更是比DFN ViT-L/14低了2.5倍。

相比之下，B模型相對上代MobileCLIP-B又提升了+2.2%，而S0/S2則以接近ViT-B/16的精度實(shí)現(xiàn)了更小體積與更快速度。

從體驗(yàn)到集成，兩步就能上手

蘋果這次不只是發(fā)模型，還順手鋪好了路：先試Demo，再集成開發(fā)。

最直觀的方式，就是去Hugging Face打開他們提供的FastVLM WebGPU Demo。

在Safari授權(quán)攝像頭后，就能立刻看到實(shí)時字幕效果。

MobileCLIP2 的模型卡同樣提供推理接口，上傳一張照片或輸入一句描述，就能馬上出現(xiàn)結(jié)果。

體驗(yàn)過后，如果想把這些功能真正變成應(yīng)用，開發(fā)者可以用Core ML+Swift Transformers工具鏈，把模型直接集成到iOS或macOS里。

蘋果在WWDC和Hugging Face的文檔中都給了現(xiàn)成示例，GPU和神經(jīng)引擎都能調(diào)動，性能和能耗都有保證。

這意味著「在iPhone 上跑大模型」不再只是一個演示，而是可以被直接拿來做相冊搜索、相機(jī)翻譯、直播字幕等具體功能。

「體驗(yàn)+開發(fā)」，對開發(fā)者來說再也不是口號，而是真實(shí)可用的路徑。

光看模型介紹很難有感覺，真正打動人的，還是那些使用成功的瞬間。

當(dāng)你打開FastVLM的WebGPU Demo，舉起手機(jī)攝像頭對著紙上的字——幾乎是瞬間識別。

FastVLM能快速識別圖像中的文字

在Reddit社區(qū)，有人親測后寫道：

「快得不可思議，盲人用屏幕閱讀器都能實(shí)時跟上。橫著拿手機(jī)，邊走邊敲盲文輸入，都不卡?！埂?r/LocalLLaMA

這句話把FastVLM的速度感形容得淋漓盡致：

不僅普通用戶能體驗(yàn) 到「字幕秒回」，在無障礙場景下，它甚至讓盲文輸入與屏幕閱讀器同步成為可能。

還有技術(shù)社區(qū)的用戶補(bǔ)充道：

「FastVLM 能做到高效又準(zhǔn)確的圖像文本處理，速度和精度都比同類模型更出色?！?—— r/apple

從生活中的真實(shí)體驗(yàn)，到技術(shù)層面的驗(yàn)證，網(wǎng)友們的評價都指向一個結(jié)論：FastVLM不只是快，而且快得可靠。

FastVLM vs MobileCLIP2該怎么選？

看了這篇介紹，可能有人會問：那我到底該用哪個？

如果你是內(nèi)容創(chuàng)作者、博主，追求字幕秒出的體驗(yàn)，那FastVLM是首選。

如果你更需要相機(jī)翻譯、離線識別，那MobileCLIP2更合適。

當(dāng)然，如果你的應(yīng)用場景既涉及實(shí)時字幕，又需要圖文檢索，那么二者完全可以組合使用。

但要注意，WebGPU在不同瀏覽器和機(jī)型上的兼容性并不完全一致；

而且端側(cè)模型雖然解決了隱私和延遲，但在算力和續(xù)航上始終存在權(quán)衡。

即便如此，這一次蘋果在Hugging Face上的「開閘」，依然有著標(biāo)志性意義。

不僅放出了模型，還把Demo、工具鏈、文檔全部交到社區(qū)手里。

對開發(fā)者來說，這已經(jīng)不是一篇論文，而是一條能被立刻走通的路線。

從快到輕，從體驗(yàn)到集成，F(xiàn)astVLM和MobileCLIP2展示了一個清晰的信號——

在iPhone上跑大模型，不再是遙遠(yuǎn)的未來，而是觸手可及的現(xiàn)在。

責(zé)任編輯：張燕妮來源：新智元

蘋果 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<sub id="1olvh"></sub>}