12秒生成1萬token!谷歌推出文本「擴散模型」Gemini Diffusion,研究員:演示都得降速看
谷歌又放新大招了,將圖像生成常用的“擴散技術(shù)”引入語言模型,12秒能生成1萬tokens。
什么概念?不僅比Gemini 2.0 Flash-Lite更快。
甚至需要不得不在演示過程中放慢視頻的速度,才能看清生成過程。
這是Google DeepMind推出Gemini Diffusion:不同于以往大多數(shù)語言模型“從左到右”預測文本的生成方式,而是通過逐步優(yōu)化噪聲來學習生成輸出。
傳統(tǒng)的自回歸模型是根據(jù)已生成的詞序列逐步預測下一個詞,每次只能生成一個詞或一個token,這種順序過程很慢,并且會限制輸出的質(zhì)量和一致性。
而擴散模型的特點則是通過逐步細化噪聲學習生成,這種特點會大大提高生成速度,并且減少訓練的不確定性。
Gemini Diffusion就是利用了擴散模型這一優(yōu)勢,將文本生成速度提升至2000token/秒。
官方給出了Gemini Diffusion的基準測試結(jié)果,結(jié)果顯示Gemini Diffusion的表現(xiàn)可與更大的模型(Gemini 2.0 Flash-Lite)相媲美,甚至速度更快。
Gemini Diffusion目前是一個實驗性演示,官方設(shè)置了訪問候補名單,感興趣的朋友可以戳文末鏈接申請體驗~
Gemini Diffusion每秒能生成2000個token
消除“從左到右”文本生成需求
與以往大多數(shù)基于自回歸的語言模型不同,Gemini Diffusion在語言模型中引入了“擴散”技術(shù),它不是直接預測文本,而是通過逐步細化噪聲來學習生成輸出。
這種技術(shù)能夠讓模型在生成過程中快速迭代,并在生成過程中進行錯誤糾正。
這種優(yōu)勢有助于模型在編輯等任務(wù)中表現(xiàn)出色,包括在數(shù)學和代碼環(huán)境中也能表現(xiàn)良好。
有一位團隊研究員展示了一個代碼示例,在這個示例中,Gemini Diffusion模型以2000 個token/秒的速度生成,這其中包括toke化、預填充、安全過濾器等開銷。
在生成過程中進行非因果推理
雖然Gemini Diffusion在生成速度上比迄今為止最快的模型還要快得多,但速度卻不是它的唯一優(yōu)勢。
它能夠一次生成整個標記塊,這意味著對于用戶的提示,它能比自回歸模型做出更連貫的響應(yīng)。
在迭代細化中能夠糾正生成過程中的錯誤以獲得更一致的輸出。
研究員還通過舉例說明,與僅限于一次生成一個token的自回歸模型不同,擴散可以在生成過程中進行非因果推理。
“(√(81) * (2/3))^2 + (15 - 3) / (2^2)) 等于多少?先給出答案,然后再推導出答案?!?/span>
對于基于自回歸思想的模型來說,這是一個非常難的問題,例如,GPT-4o就無法解決此問題,因為它們必須嚴格自回歸生成文本,無法跳過中間token,在生成答案之前對其進行推理。
但擴散模型的生成過程不依賴于嚴格的時序因果關(guān)系,而是通過并行或迭代式去噪實現(xiàn)數(shù)據(jù)生成,可以進行非因果推理以得出正確答案(答案:39)。以下是研究員提供的演示視頻。
One More Thing
實際上,自回歸確實不是LLM的唯一路徑。
此前,人大高瓴人工智能研究院、螞蟻也提出了類似研究,LLaDA是基于擴散模型的雙向模型。
語言模型逐步引入擴散技術(shù),在未來,我們是否可以期待更多混合模型的出現(xiàn)呢?
官方鏈接:https://deepmind.google/models/gemini-diffusion/
體驗申請:https://docs.google.com/forms/d/e/1FAIpQLSdsxa-YU25JIPJGmu-pySJEYeTy6lwbdZAzxlZ11x3GPj6DhA/viewform