偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌開(kāi)源Gemma-3:媲美DeepSeek,算力暴降10倍 精華

發(fā)布于 2025-3-13 13:00
瀏覽
0收藏

昨晚,谷歌CEO Sundar Pichai宣布,開(kāi)源最新多模態(tài)大模型Gemma-3,主打低成本高性能。


Gemma-3共有10億、40億、120億和270億四種參數(shù)。但即便最大的270億參數(shù),只需要一張H100就能高效推理,同類模型要達(dá)到這個(gè)效果最少要提升10倍算力,也是目前最強(qiáng)小參數(shù)模型。


根據(jù)盲測(cè)LMSYS ChatbotArena數(shù)據(jù)顯示,Gemma-3僅次于DeepSeek的R1-671B,高于OpenAI的o3-mini,Llama3-405B等知名模型。


DeepSeek的R1是相當(dāng)有排面,國(guó)內(nèi)外發(fā)布高性能低成本模型時(shí)都得和它比較一下。其實(shí),前幾天阿里也開(kāi)源了一個(gè)比肩R1,參數(shù)大降20倍的QwQ-32B模型?,F(xiàn)在谷歌也要開(kāi)始卷低成本模型了。

谷歌開(kāi)源Gemma-3:媲美DeepSeek,算力暴降10倍-AI.x社區(qū)

開(kāi)源地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

Gemma-3架構(gòu)與技術(shù)亮點(diǎn)

在架構(gòu)設(shè)計(jì)上,Gemma-3采用了與前兩代一樣的通用解碼器Transformer架構(gòu),但進(jìn)行了眾多創(chuàng)新和優(yōu)化。


為了應(yīng)對(duì)長(zhǎng)上下文帶來(lái)的內(nèi)存爆炸難題,Gemma-3采用了局部和全局自注意力層交錯(cuò)的架構(gòu),每5個(gè)局部層之間插入1個(gè)全局層,局部層的跨度僅為1024個(gè)token。因?yàn)橹挥腥謱迂?fù)責(zé)處理長(zhǎng)上下文,局部層僅關(guān)注1024個(gè)token的小跨度,從而降低了內(nèi)存占用。

谷歌開(kāi)源Gemma-3:媲美DeepSeek,算力暴降10倍-AI.x社區(qū)

為了支持長(zhǎng)上下文,Gemma-3模型將上下文長(zhǎng)度擴(kuò)展到了128Ktoken(10億參數(shù)模型為32K)。模型提高了全局自注意力層的RoPE基礎(chǔ)頻率,從10k提升到1M,而局部層頻率保持在10k。


同時(shí),采用了類似位置插值的方法來(lái)擴(kuò)展全局自注意力層的跨度,使模型在長(zhǎng)上下文場(chǎng)景下能夠更好地捕捉信息提升性能。


多模態(tài)能力是Gemma-3的一大技術(shù)亮點(diǎn),能夠同時(shí)處理文本和圖像。還集成了定制版的SigLIP視覺(jué)編碼器,這是一個(gè)基于VisionTransformer的編碼器,通過(guò)CLIP損失的變體進(jìn)行訓(xùn)練。

谷歌開(kāi)源Gemma-3:媲美DeepSeek,算力暴降10倍-AI.x社區(qū)

為了降低圖像處理的推理成本,Gemma-3采用了創(chuàng)新的圖像嵌入壓縮技術(shù),將視覺(jué)嵌入壓縮為固定大小的256個(gè)向量,從而在不損失關(guān)鍵信息的前提下,顯著減少了計(jì)算資源的消耗。


Gemma-3還引入了Pan&Scan方法,允許模型靈活處理不同分辨率和寬高比的圖像。在實(shí)際應(yīng)用中,Pan&Scan通過(guò)將圖像分割成多個(gè)固定大小的區(qū)域,并將這些區(qū)域調(diào)整到統(tǒng)一的分辨率后輸入編碼器,從而避免了因圖像尺寸不一致而導(dǎo)致的信息丟失或變形問(wèn)題。這種靈活的圖像處理方式不僅提高了模型對(duì)圖像內(nèi)容的理解能力,還使其在處理復(fù)雜圖像場(chǎng)景時(shí)表現(xiàn)得更加出色。

高效訓(xùn)練過(guò)程

在預(yù)訓(xùn)練階段,Gemma-3采用了與Gemma 2相似的方法并融入新的改進(jìn)。為適應(yīng)圖像和文本混合數(shù)據(jù)的訓(xùn)練需求,模型使用了比Gemma 2更大的token預(yù)算。


270億參數(shù)的模型訓(xùn)練使用14Ttoken,120億參數(shù)模型使用12T,40億參數(shù)模型使用4T,10億參數(shù)模型使用2T。


同時(shí),增加了多語(yǔ)言數(shù)據(jù),包括單語(yǔ)和并行數(shù)據(jù),并借鑒特定策略處理語(yǔ)言表示不平衡的問(wèn)題,以此提升模型的語(yǔ)言覆蓋范圍和多語(yǔ)言處理能力。所以,Gemma-3支持140種語(yǔ)言,其中35種語(yǔ)言開(kāi)箱即用。

谷歌開(kāi)源Gemma-3:媲美DeepSeek,算力暴降10倍-AI.x社區(qū)

Gemma-3使用與Gemini2.0相同的SentencePiece分詞器,具備分割數(shù)字、保留空格和字節(jié)級(jí)編碼的特性,生成的詞匯表包含262k個(gè)條目,使得模型在處理非英語(yǔ)語(yǔ)言時(shí)更加平衡。


在訓(xùn)練優(yōu)化上,Gemma-3運(yùn)用知識(shí)蒸餾技術(shù)。每個(gè)token采樣256個(gè)logits,按照教師概率進(jìn)行加權(quán),學(xué)生模型通過(guò)交叉熵?fù)p失來(lái)學(xué)習(xí)教師模型在這些樣本中的分布。在這個(gè)過(guò)程中,對(duì)于未采樣的logits,教師模型的目標(biāo)分布被設(shè)為零概率并重新歸一化,從而引導(dǎo)學(xué)生模型學(xué)習(xí)到更優(yōu)的分布,提升模型的性能。


完成預(yù)訓(xùn)練后,Gemma-3進(jìn)入后訓(xùn)練階段,該階段聚焦于提升模型的特定能力并整合新特性。后訓(xùn)練采用了改進(jìn)版的知識(shí)蒸餾技術(shù),從大型指令微調(diào)教師模型中獲取知識(shí),同時(shí)結(jié)合基于改進(jìn)版BOND、WARM和WARP的強(qiáng)化學(xué)習(xí)微調(diào)階段。


通過(guò)多種獎(jiǎng)勵(lì)函數(shù)來(lái)優(yōu)化模型,這些獎(jiǎng)勵(lì)函數(shù)旨在提升模型的幫助性、數(shù)學(xué)能力、編碼能力、推理能力、指令遵循能力和多語(yǔ)言能力,同時(shí)最小化模型產(chǎn)生有害輸出的可能性。獎(jiǎng)勵(lì)來(lái)源包括從人類反饋數(shù)據(jù)訓(xùn)練的加權(quán)平均獎(jiǎng)勵(lì)模型、代碼執(zhí)行反饋以及解決數(shù)學(xué)問(wèn)題的真實(shí)獎(jiǎng)勵(lì)等。

測(cè)試數(shù)據(jù)

為了測(cè)試Gemma-3的性能,谷歌在MGSM、Global-MMLU-Lite、WMT24++、RULER、MRCR等眾多主流平臺(tái)進(jìn)行了評(píng)估。


結(jié)果顯示,Gemma-3在多模態(tài)任務(wù)中表現(xiàn)出色,例如在DocVQA、InfoVQA和TextVQA等任務(wù)中,其性能顯著優(yōu)于前代模型。在長(zhǎng)文本處理方面,Gemma-3的27B模型在RULER128K上達(dá)到了66.0%的準(zhǔn)確率,展現(xiàn)了強(qiáng)大的長(zhǎng)文本處理能力。

谷歌開(kāi)源Gemma-3:媲美DeepSeek,算力暴降10倍-AI.x社區(qū)

在多語(yǔ)言支持上,Gemma-3在MGSM和Global-MMLU-Lite等任務(wù)中也取得了優(yōu)異成績(jī)。在對(duì)話能力評(píng)估中,Gemma-3的27B指令調(diào)優(yōu)版本在ChatbotArena中的Elo分?jǐn)?shù)為1338,排名進(jìn)入前10,接近DeepSeek-R1等大型模型。


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū)  ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/8HusRonfYRZO97tXCHwKew??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦