偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

谷歌提出Titans：突破算力限制，擴(kuò)展上下文

發(fā)布于 2025-2-25 10:24

瀏覽

0收藏

谷歌研究院發(fā)布一項新的研究Titans。通過引入全新的神經(jīng)長期記憶模塊，三頭協(xié)同架構(gòu)與硬件優(yōu)化設(shè)計等模塊，在算力僅增加1.8倍的情況下，將大模型的上下文窗口擴(kuò)展至200萬token。

在語言建模、基因組分析、長時序預(yù)測等任務(wù)中全面超越現(xiàn)有Transformer及線性循環(huán)模型。

谷歌提出Titans：突破算力限制，擴(kuò)展上下文-AI.x社區(qū)

目前，以Transformer為核心的預(yù)訓(xùn)練大模型面臨一個悖論：依賴注意力機(jī)制精準(zhǔn)建模依賴關(guān)系，但受限于二次方計算復(fù)雜度，上下文窗口難以突破數(shù)萬token。即便是線性Transformer等改進(jìn)方案，也因?qū)v史信息壓縮為固定大小的矩陣或向量，導(dǎo)致長程記憶能力嚴(yán)重受限。

現(xiàn)有模型在長文檔理解、視頻分析、DNA序列建模等任務(wù)中表現(xiàn)不佳，本質(zhì)是缺乏分層記憶系統(tǒng)——人類大腦擁有短期、工作、長期記憶的協(xié)同機(jī)制，而AI卻長期依賴單一記憶模塊。

而Titans不僅解決了Transformer模型在長上下文處理中的算力瓶頸，更通過仿生學(xué)設(shè)計模擬人類記憶系統(tǒng)的分層機(jī)制，首次實現(xiàn)了200萬token超長上下文的精準(zhǔn)推理。Titans一共由神經(jīng)長期記憶和三腦協(xié)同架構(gòu)兩大塊組成。

谷歌提出Titans：突破算力限制，擴(kuò)展上下文-AI.x社區(qū)

傳統(tǒng)AI模型的記憶系統(tǒng)如同刻板的記事本——所有信息被機(jī)械地壓縮存儲，缺乏對信息價值的動態(tài)判斷。Titans架構(gòu)的神經(jīng)長期記憶模塊，則通過模擬人類大腦海馬體的工作機(jī)制，構(gòu)建了一套具有自主進(jìn)化能力的記憶生態(tài)系統(tǒng)。該模塊的核心突破在于將在線元學(xué)習(xí)與生物啟發(fā)的記憶規(guī)則深度融合，實現(xiàn)了記憶存儲的效率與智能的質(zhì)的飛躍。

在技術(shù)實現(xiàn)層面，該模塊采用深度多層感知機(jī)（MLP）作為記憶載體，其創(chuàng)新之處在于訓(xùn)練過程中引入雙階段梯度驅(qū)動機(jī)制。當(dāng)模型處理輸入序列時，首先通過前向傳播計算當(dāng)前token的預(yù)測誤差，隨后反向傳播過程中捕捉輸入數(shù)據(jù)的梯度變化，將其量化為“認(rèn)知驚喜值”。

這種驚喜值并非簡單的誤差度量，而是通過二階導(dǎo)數(shù)計算信息對模型知識結(jié)構(gòu)的擾動強(qiáng)度，當(dāng)模型遇到與既有知識體系存在顯著偏差的信息，梯度幅值會呈現(xiàn)指數(shù)級增長，觸發(fā)記憶強(qiáng)化機(jī)制。

谷歌提出Titans：突破算力限制，擴(kuò)展上下文-AI.x社區(qū)

如果說神經(jīng)長期記憶模塊賦予了AI持續(xù)學(xué)習(xí)的能力，那么三腦協(xié)同架構(gòu)則重新定義了信息處理的系統(tǒng)范式。這一架構(gòu)突破性地將人腦的層次化認(rèn)知系統(tǒng)——短期工作記憶、長期情景記憶與語義知識庫——映射到計算模型中，通過多通路信息融合機(jī)制，解決了傳統(tǒng)單一記憶架構(gòu)的容量-效率悖論。

核心工作記憶通路采用改進(jìn)型稀疏注意力機(jī)制，在128k token的窗口內(nèi)實現(xiàn)精準(zhǔn)的局部依賴建模。與傳統(tǒng)全局注意力不同，該模塊引入自適應(yīng)稀疏模式：通過實時分析輸入序列的熵值分布，動態(tài)調(diào)整每個查詢頭的關(guān)注范圍。例如在處理法律合同時，對條款編號等結(jié)構(gòu)化信息采用全連接模式，而在敘述性段落中則啟用層級膨脹注意力，極大降低了計算復(fù)雜度。

更重要的是，該模塊與長期記憶分支形成反饋環(huán)路。當(dāng)檢測到當(dāng)前上下文存在未解析的指代關(guān)系時，會自動觸發(fā)跨窗口的歷史信息檢索，實現(xiàn)局部與全局認(rèn)知的有機(jī)統(tǒng)一。

長期記憶分支作為架構(gòu)的中樞神經(jīng)系統(tǒng)，承擔(dān)著跨時空信息整合的重任。其核心技術(shù)在于雙向記憶讀寫協(xié)議的設(shè)計：在寫入階段，采用卷積增強(qiáng)的鍵值編碼器，將輸入序列的時空特征壓縮為高維記憶向量；

在讀取階段，則通過可微分最近鄰搜索算法，實現(xiàn)多粒度信息召回。該算法創(chuàng)新性地將歐氏距離檢索與注意力權(quán)重相結(jié)合，在蛋白質(zhì)序列分析任務(wù)中，對相似功能域的檢索精度達(dá)到92.7%，比傳統(tǒng)方法提升23%。為應(yīng)對超長上下文的挑戰(zhàn)，研究團(tuán)隊還開發(fā)了記憶重要性衰減曲線預(yù)測模型，能夠提前128個時間步預(yù)判信息的生命周期，實現(xiàn)內(nèi)存占用的前瞻性優(yōu)化。

谷歌提出Titans：突破算力限制，擴(kuò)展上下文-AI.x社區(qū)

持久知識庫則扮演著AI的“常識中樞”，存儲著跨任務(wù)、跨領(lǐng)域的結(jié)構(gòu)化知識體系。與普通模型參數(shù)不同，這些知識單元通過對比學(xué)習(xí)進(jìn)行跨模態(tài)對齊，例如，將化學(xué)分子式與3D空間構(gòu)型關(guān)聯(lián)，將語法規(guī)則與語義場景綁定。

在訓(xùn)練策略上，采用兩階段優(yōu)化流程——先通過大規(guī)模無監(jiān)督預(yù)訓(xùn)練構(gòu)建基礎(chǔ)知識圖譜，再使用強(qiáng)化學(xué)習(xí)進(jìn)行任務(wù)特定知識的動態(tài)校準(zhǔn)。這種設(shè)計使得在醫(yī)療診斷任務(wù)中，模型對罕見病特征的識別準(zhǔn)確率提升41%，誤報率降低67%。更關(guān)鍵的是，持久知識庫與工作記憶通路形成隔離機(jī)制，確保領(lǐng)域知識的穩(wěn)定性不受短期上下文干擾。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/woofm6hqHLDhgLTAou7gbA??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

港中文提出CLongEval中文基準(zhǔn)測試集，準(zhǔn)確評估大模型長上下文能力

zhangyannni ? 7149瀏覽 ? 0回復(fù)
直接擴(kuò)展到無限長，谷歌Infini-Transformer終結(jié)上下文長度之爭

輕薄滴假象 ? 3513瀏覽 ? 0回復(fù)
谷歌出手整頓大模型“健忘癥”！反饋注意力機(jī)制幫你“更新”上下文，大模型無限記憶力時代將至

51CTO技術(shù)棧 ? 5631瀏覽 ? 0回復(fù)
LLM上下文窗口突破200萬！無需架構(gòu)變化+復(fù)雜微調(diào)，輕松擴(kuò)展8倍

duhorse ? 4636瀏覽 ? 0回復(fù)
百萬上下文RAG，Agent還能這么玩

ermulong ? 4708瀏覽 ? 0回復(fù)
LLM超長上下文查詢-性能評估實戰(zhàn)

ermulong ? 4157瀏覽 ? 0回復(fù)
長上下文 還是 RAG？ Google:我全都要！

探索AGI ? 3371瀏覽 ? 0回復(fù)
斯坦福提出擴(kuò)散自蒸餾：定制圖像生成，任意上下文下擴(kuò)展到任意實例！

angel ? 4078瀏覽 ? 0回復(fù)
長上下文語言模型評估體系探析

Baihai_IDP ? 4430瀏覽 ? 0回復(fù)
Claude的MCP（模型上下文協(xié)議）簡介

Halo咯咯 ? 7112瀏覽 ? 0回復(fù)
突破算力限制！Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

Aceryt ? 3624瀏覽 ? 0回復(fù)
高效注意力機(jī)制與硬件優(yōu)化：硬件優(yōu)化的稀疏注意力，長上下文建模

AI研究前瞻 ? 3494瀏覽 ? 0回復(fù)
微軟LongRoPE v2：幾乎無損的上下文擴(kuò)展！

NLP前沿1 ? 3291瀏覽 ? 0回復(fù)
LLM 上下文管理：智能應(yīng)用的核心競爭力

草臺AI ? 3008瀏覽 ? 0回復(fù)
模型上下文協(xié)議（MCP）開發(fā)實戰(zhàn)——構(gòu)建LangChain代理客戶端

51CTO內(nèi)容精選 ? 7315瀏覽 ? 0回復(fù)
駁“RAG 已死”論：上下文窗口擴(kuò)展≠RAG 終結(jié)

Baihai_IDP ? 1870瀏覽 ? 0回復(fù)
大型語言模型的上下文工程（Context Engineering）綜述

chengganfei ? 4283瀏覽 ? 0回復(fù)
突破 AI 記憶限制：MCP 的智能化上下文管理技術(shù)剖析

玄姐聊AGI ? 1482瀏覽 ? 0回復(fù)
VLM進(jìn)行上下文長度擴(kuò)展和壓縮；長文本多模型集成框架

AI研究前瞻 ? 711瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： o1模型醫(yī)學(xué)推理驚人，超過人類醫(yī)生

下一篇：超過DeepSeek、o3，雙思維模型Claude 3.7來了

社區(qū)精華內(nèi)容

目錄

<pre id="huali"><samp id="huali"></samp></pre>