偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

編碼器-解碼器架構(gòu)的復(fù)興？谷歌一口氣發(fā)布32個T5Gemma模型

2025-07-11 09:02:00

人工智能新聞

谷歌發(fā)布了一系列用于健康 AI 開發(fā)的多模態(tài)模型 MedGemma。

今天是 xAI 的大日子，伊隆?馬斯克早早就宣布了會在今天發(fā)布 Grok 4 大模型，AI 社區(qū)的眼球也已經(jīng)向其聚攏，就等著看他的直播（等了挺久）。當(dāng)然，考慮到 Grok 這些天的「失控」表現(xiàn)，自然也有不少人是在等著看笑話。

盡管如此，谷歌似乎也并不在意被奪走的目光，接連對 Gemma 系列模型進行了更新。

首先，谷歌發(fā)布了一系列用于健康 AI 開發(fā)的多模態(tài)模型 MedGemma，其中包含 4B 和 27B 兩個大小的幾個不同模型：MedGemma 4B Multimodal、MedGemma 27B Text 和 MedGemma 27B Multimodal。

該系列模型能夠根據(jù)醫(yī)療圖像和文本描述輔助診斷并提供醫(yī)療建議，整體表現(xiàn)也是相當(dāng)不錯。

Hugging Face：https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4

而本文的重點并不是它，而是谷歌今天發(fā)布的編碼器-解碼器架構(gòu)的 Gemma 系列模型：T5Gemma。

從名字也能看出來，這個 Gemma 系列模型與 T5（The Text-to-Text Transfer Transformer）模型關(guān)系密切。而 T5 模型實際上就是編碼器-解碼器（encoder-decoder）架構(gòu)的模型，并不同于目前主流的僅解碼器（decoder-only）架構(gòu)。

當(dāng)然，雖然僅解碼器架構(gòu)是目前 LLM 的主流，但實際上，編碼器-解碼器憑借高推理效率、設(shè)計靈活性以及更豐富的編碼器表征，在某些實際任務(wù)中其實非常好用，比如摘要、翻譯、問答等。

似乎正因為此，谷歌一直沒有放棄編碼器-解碼器架構(gòu)，T5Gemma 便是其最新成果。

具體來說，T5Gemma 使用了一種名為「適應(yīng)（adaptation）」的技術(shù)來將已經(jīng)完成預(yù)訓(xùn)練的僅解碼器模型轉(zhuǎn)換為編碼器 - 解碼器架構(gòu)。

T5Gemma 基于 Gemma 2 框架，包含經(jīng)過適應(yīng)的 Gemma 2 2B 和 9B 模型，以及一組全新訓(xùn)練的 T5 尺寸模型（Small、Base、Large 和 XL）。另外還包含預(yù)訓(xùn)練和指令微調(diào)模型的多種變體版本。此外，T5Gemma 還提供了多種大小的編碼器與解碼器配置。不僅如此，谷歌還發(fā)布了使用 PrefixLM 或 UL2 這兩個不同目標(biāo)訓(xùn)練的模型。

總的算下來，谷歌這一次就發(fā)布了 32 個不同的 T5Gemma 模型。

Hugging Face：https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86
Kaggle：https://www.kaggle.com/models/google/t5gemma

雖然熱度遠不及 Grok 4，但 T5Gemma 依然備受好評：

有人更是認為它是「LLM 時代編碼器-解碼器模型的強勢回歸」。

不過也有人吐嘈模型太多，讓人不知道怎么選。

從僅解碼器到編碼器-解碼器

對于 T5Gemma，谷歌研究的問題是：能否基于經(jīng)過預(yù)訓(xùn)練的僅解碼器模型構(gòu)建頂級編碼器-解碼器模型？

谷歌為此探索了上述的適應(yīng)技術(shù)，其核心思想是使用已預(yù)訓(xùn)練的僅解碼器模型的權(quán)重來初始化編碼器-解碼器模型的參數(shù)，然后通過基于 UL2 或 PrefixLM 的預(yù)訓(xùn)練進一步調(diào)整這些參數(shù)。

方法概況，展示了如何使用經(jīng)過預(yù)訓(xùn)練的僅解碼器模型的參數(shù)初始化新的編碼器-解碼器模型。

這種適應(yīng)方法高度靈活，并且支持組合不同大小的模型。例如，可以將大型編碼器與小型解碼器（例如，9B 編碼器與 2B 解碼器）配對，創(chuàng)建一個「不平衡」模型。

如此一來，便可以針對具體任務(wù)權(quán)衡地選擇質(zhì)量與效率，比如在摘要任務(wù)中，對輸入的深度理解比生成輸出的復(fù)雜性更為重要。

實際上，谷歌已經(jīng)在今年 4 月份發(fā)布了關(guān)于適應(yīng)技術(shù)的論文

論文標(biāo)題：Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation
論文地址：https://arxiv.org/pdf/2504.06225

T5Gemma 的表現(xiàn)如何？

在谷歌的實驗中，T5Gemma 模型的性能與僅解碼器的 Gemma 模型相當(dāng)，甚至更勝一籌，在多個基準(zhǔn)測試（例如用于衡量所學(xué)習(xí)到的表征質(zhì)量的 SuperGLUE）中，T5Gemma 幾乎主導(dǎo)了質(zhì)量-推理效率的帕累托邊界。

在給定的推理計算水平下，編碼器-解碼器模型始終能提供更佳性能，并且在一系列基準(zhǔn)測試中引領(lǐng)質(zhì)量-效率邊界。

這種性能優(yōu)勢并非僅限于理論層面，它也能轉(zhuǎn)化為實際的質(zhì)量和速度。在測量在 GSM8K（數(shù)學(xué)推理任務(wù)）上的實際延遲時，T5Gemma 取得了顯著優(yōu)勢。

例如，T5Gemma 9B-9B 的準(zhǔn)確度高于 Gemma 2 9B，但延遲時間相似。更驚人是，T5Gemma 9B-2B 的準(zhǔn)確度顯著高于 2B-2B 模型，但其延遲時間幾乎與規(guī)模小得多的 Gemma 2 2B 模型相同。

總體而言，這些實驗表明，編碼器-解碼器適應(yīng)確實是一種靈活而強大的方法，可以更好地平衡質(zhì)量和推理速度。

編碼器-解碼器模型能否獲得與僅解碼器模型類似的能力？

谷歌的答案是：可以！

T5Gemma 在指令微調(diào)前后都表現(xiàn)優(yōu)良。

經(jīng)過預(yù)訓(xùn)練后，T5Gemma 在需要推理的復(fù)雜任務(wù)上取得了亮眼的進步。

例如，T5Gemma 9B-9B 在 GSM8K 上的得分比 Gemma 2 9B 模型高出 9 分以上，在 DROP（閱讀理解任務(wù)）上的得分比 Gemma 2 9B 模型高出 4 分。這表明，通過適應(yīng)初始化的編碼器 - 解碼器架構(gòu)有潛力創(chuàng)建更強大、性能更佳的基礎(chǔ)模型。

經(jīng)過微調(diào)的 T5Gemma 模型在多個推理密集型基準(zhǔn)測試上相比僅解碼器的 Gemma 2 取得了顯著提升。

這些預(yù)訓(xùn)練帶來的基礎(chǔ)性改進奠定了基礎(chǔ)，支撐起指令微調(diào)后更顯著的提升。

例如，如果對比 Gemma 2 IT 與 T5Gemma IT，可以看到性能差距全面顯著擴大。T5Gemma 2B-2B IT 的 MMLU 得分比 Gemma 2 2B 提高了近 12 分，其 GSM8K 得分也從 58.0% 提升至 70.7%?？雌饋恚?jīng)過適應(yīng)后的架構(gòu)不僅可能提供更好的起點，而且還能更有效地響應(yīng)指令微調(diào)。最終構(gòu)建出一個功能更強大、更實用的最終模型。

經(jīng)過微調(diào) + RLHF 后的模型的詳細結(jié)果，表明后訓(xùn)練可以顯著提升編碼器-解碼器架構(gòu)的性能。

你認為 T5Gemma 能帶來編碼器-解碼器模型的復(fù)興嗎？

責(zé)任編輯：張燕妮來源：機器之心

谷歌 AI 解碼器

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<em id="nx5qw"><pre id="nx5qw"><form id="nx5qw"></form></pre></em>

<pre id="nx5qw"><p id="nx5qw"><ol id="nx5qw"></ol></p></pre>

<pre id="nx5qw"><label id="nx5qw"><i id="nx5qw"></i></label></pre>

<blockquote id="nx5qw"></blockquote>