偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

最低僅需2G顯存,谷歌開源端側(cè)模型刷新競(jìng)技場(chǎng)紀(jì)錄,原生支持圖像視頻

人工智能
今天凌晨,谷歌正式官宣了Gemma 3n,原生支持文本、圖像和音視頻等多種模態(tài)。在大模型競(jìng)技場(chǎng)中,Gemma 3n取得了1303分,成為了第一個(gè)超過1300分的10B以下模型。

谷歌開源模型,又上新了。

今天凌晨,谷歌正式官宣了Gemma 3n,原生支持文本、圖像和音視頻等多種模態(tài)。

在大模型競(jìng)技場(chǎng)中,Gemma 3n取得了1303分,成為了第一個(gè)超過1300分的10B以下模型。

圖片圖片

Gemma 3n一共有5B(E2B)和8B(E4B)兩種型號(hào),但通過架構(gòu)創(chuàng)新,其VRAM占用與2B和4B相當(dāng),最低只要2GB。

圖片圖片

有網(wǎng)友表示,Gemma 3n能夠用低內(nèi)存占用實(shí)現(xiàn)這樣的表現(xiàn),對(duì)端側(cè)設(shè)備意義重大。

圖片圖片

目前,Gemma 3n已在谷歌AI Studio或Ollama、llama.cpp等第三方工具中可用,模型權(quán)重也可在Hugging Face上下載。

同時(shí)谷歌也公開了Gemma 3n的一些技術(shù)細(xì)節(jié),接下來就一起來了解。

套娃式Transformer架構(gòu)

在Gemma 3n的兩種型號(hào)——E2B和E4B中,谷歌提出了“有效參數(shù)”的概念,這里的“E”指的就是effective(有效的)。

Gemma 3n的核心是MatFormer (Matryoshka Transformer) 架構(gòu) ,這是一種專為彈性推理而構(gòu)建的嵌套式Transformer結(jié)構(gòu)。

它的結(jié)構(gòu)就如同它的名字一樣,像俄羅斯套娃(Matryoshka)——一個(gè)較大的模型當(dāng)中,包含了自身更小、功能齊全的版本。

MatFormer將“俄羅斯套娃表征學(xué)習(xí)”的概念從單純的嵌入擴(kuò)展到所有Transformer組件。

圖片圖片

在這種結(jié)構(gòu)下,MatFormer在訓(xùn)練E4B模型時(shí),可以同時(shí)優(yōu)化E2B子模型。

為了根據(jù)特定硬件限制進(jìn)行更精細(xì)的控制,谷歌還提出了Mix-n-Match方法,通過調(diào)整每層的前饋網(wǎng)絡(luò)隱藏層維度(從 8192 到 16384)并選擇性地跳過某些層,可以實(shí)現(xiàn)對(duì)E4B模型參數(shù)的切片,從而在E2B和E4B之間創(chuàng)建一系列自定義尺寸的模型。

針對(duì)這一功能,谷歌還會(huì)發(fā)布工具M(jìn)atFormer Lab,用于檢索最佳的模型配置。

專為端側(cè)設(shè)備設(shè)計(jì)

Gemma 3n的E2B和E4B兩個(gè)型號(hào)的原始參數(shù)量,分別是5B和8B,但消耗與2B和4B相當(dāng)。這種低內(nèi)存消耗設(shè)計(jì),目的就是能夠更好地適配端側(cè)設(shè)備。

為此,Gemma 3n模型采用了逐層嵌入(PLE)技術(shù),可顯著提高模型質(zhì)量,而不會(huì)增加內(nèi)存占用。

PLE允許很大一部分參數(shù)(與每層相關(guān)的嵌入)在CPU上加載并高效計(jì)算,這樣就只有核心Transformer權(quán)重需要存儲(chǔ)在加速器內(nèi)存(VRAM)中。

圖片圖片

此外,為了縮短首個(gè)Token生成時(shí)間,以便更好處理長(zhǎng)序列輸入,Gemma 3n引入了KV緩存共享

具體來說,Gemma 3n優(yōu)化了模型預(yù)填充的處理方式,將來自局部和全局注意力機(jī)制的中間層的Key和Value直接與所有頂層共享,與Gemma 3-4B相比,預(yù)填充性能提升了2倍。

原生支持多模態(tài)

Gemma 3n原生支持圖像、音視頻等多種輸入模態(tài)。

語音部分,Gemma 3n采用基于USM的高級(jí)音頻編碼器,USM會(huì)將每160毫秒的音頻轉(zhuǎn)化成一個(gè)Token,然后將其作為語言模型的輸入進(jìn)行集成。

它支持自動(dòng)語音識(shí)別(ASR)和自動(dòng)語音翻譯(AST),可以直接在設(shè)備上實(shí)現(xiàn)高質(zhì)量的語音-文本轉(zhuǎn)錄,還可將口語翻譯成另一種語言的文本。

Gemma 3n的音頻編碼器在發(fā)布時(shí)已支持處理30秒的音頻片段,但底層音頻編碼器是一個(gè)流式編碼器,能夠通過額外的長(zhǎng)音頻訓(xùn)練處理任意長(zhǎng)度的音頻。

視覺方面,Gemma 3n則采用了全新的高效視覺編碼器MobileNet-V5-300M。

它支持在端側(cè)處理256x256、512x512和768x768像素的分辨率,在Google Pixel上的處理速度達(dá)到了每秒60幀,并且在各種圖像和視頻理解任務(wù)中表現(xiàn)出色。

MobileNet-V5以MobileNet-V4為基礎(chǔ),但架構(gòu)顯著擴(kuò)大,并采用混合深度金字塔模型,比最大的MobileNet-V4變體大10倍,同時(shí)還引入了一種新穎的多尺度融合VLM適配器。

針對(duì)MobileNet-V5背后的技術(shù)細(xì)節(jié),谷歌后續(xù)還會(huì)發(fā)布技術(shù)報(bào)告,介紹模型架構(gòu)、數(shù)據(jù)擴(kuò)展策略以及背后的數(shù)據(jù)蒸餾技術(shù)。

參考鏈接:
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
HuggingFace:
https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2012-05-31 14:20:14

2024-05-31 14:23:15

2025-07-03 14:57:51

DeepSeek模型AI

2024-04-22 08:40:00

LLM模型開源

2025-03-26 08:39:03

2024-06-24 18:15:22

2013-09-12 11:17:02

2025-04-18 10:43:23

2023-07-05 15:26:30

2024-03-08 13:02:56

Claude 3GPT-4Opus

2025-02-06 12:10:00

2023-02-03 16:24:09

ChatGPT開源

2025-02-18 15:09:07

2024-06-20 14:04:17

2022-04-12 18:35:03

元宇宙

2025-07-21 09:26:00

AI開源模型

2014-10-31 15:43:02

華為智慧

2025-08-25 09:07:00

2025-06-06 14:23:48

谷歌模型AI

2013-03-22 14:08:14

智能手表IT巨頭競(jìng)技場(chǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)