偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="vlufn"><ul id="vlufn"></ul></blockquote>

<abbr id="vlufn"></abbr>

<thead id="vlufn"></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

田淵棟：連續(xù)思維鏈效率更高，可同時(shí)編碼多個(gè)路徑，“疊加態(tài)”式并行搜索

2025-06-20 08:47:00

人工智能新聞

連續(xù)思維鏈的并行搜索類似于量子疊加，比離散型思維鏈更具優(yōu)勢(shì)。

AI也有量子疊加態(tài)了？

連續(xù)思維鏈的并行搜索類似于量子疊加，比離散型思維鏈更具優(yōu)勢(shì)。

這是AI大牛田淵棟團(tuán)隊(duì)的最新研究成果。

傳統(tǒng)LLM通過生成 “思維token”（如文本形式的中間步驟）進(jìn)行推理（即離散思維鏈），但在處理復(fù)雜任務(wù)（如判斷有向圖中節(jié)點(diǎn)是否可達(dá)）時(shí)效率低下，需要O(n^2)步解碼（n為節(jié)點(diǎn)數(shù)），且容易陷入局部解。

近期研究發(fā)現(xiàn)，用連續(xù)隱向量（非離散token）進(jìn)行推理能顯著提升性能，但缺乏理論解釋。

田淵棟領(lǐng)銜來自UC伯克利、UCSD的科學(xué)家們利用連續(xù)空間中的 “疊加態(tài)”，讓大模型進(jìn)行并行推理，大幅提升了模型在圖可達(dá)性等任務(wù)中的表現(xiàn)，給上述連續(xù)思維鏈提供了理論支持。

團(tuán)隊(duì)證明了：

對(duì)于具有n個(gè)頂點(diǎn)且直徑為D的圖，一個(gè)包含D步連續(xù)CoTs的兩層Transformer可以解決有向圖可達(dá)性問題，而具有離散CoTs的恒定深度Transformer的最佳已知結(jié)果需要O(n^2)個(gè)解碼步驟。

簡(jiǎn)單來說，對(duì)于有向圖可達(dá)性問題，離散思維鏈類似于深度優(yōu)先搜索（DFS），每次只能選擇單一路徑，導(dǎo)致步驟多且容易受限。

而連續(xù)思維鏈可以同時(shí)編碼多個(gè)候選圖路徑，類似于廣度優(yōu)先搜索（BFS），并且可以利用這種“疊加”進(jìn)行隱式的「并行搜索」，比離散思維鏈更具優(yōu)勢(shì)。

讓我們來看看實(shí)驗(yàn)細(xì)節(jié)。

跟著“導(dǎo)航”找思維路徑

像 “導(dǎo)航儀” 一樣的注意力選擇器

團(tuán)隊(duì)設(shè)計(jì)了一種注意力選擇器機(jī)制，使模型能根據(jù)當(dāng)前token選擇性地關(guān)注特定位置（如邊的源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)），確保信息的有效提取。

這個(gè)注意力選擇器就好比我們開車時(shí)用的導(dǎo)航儀，能幫模型在一堆信息里精準(zhǔn)找到該關(guān)注的地方。

具體來說，當(dāng)模型在處理信息時(shí)，遇到特定的 “標(biāo)記”，比如表示一條邊結(jié)束的token，就像導(dǎo)航儀識(shí)別出一個(gè)路口標(biāo)識(shí)，這時(shí)候它就會(huì)自動(dòng)把注意力集中到這條邊的起點(diǎn)和終點(diǎn)節(jié)點(diǎn)上。

就像你看到 “前方路口右轉(zhuǎn)” 的提示后，會(huì)重點(diǎn)關(guān)注那個(gè)路口的位置。

如果沒遇到這種明確的標(biāo)記，注意力選擇器就會(huì)模型去關(guān)注開頭的信息，比如問題最開始給出的條件，這樣就能確保模型不會(huì)在信息堆里迷路，始終能從正確的起點(diǎn)開始思考。

兩層連續(xù)思維Transformer進(jìn)行疊加態(tài)維護(hù)

什么是連續(xù)思維的“疊加態(tài)”？

我們這里所說的“疊加態(tài)” 就像一個(gè)裝著所有可能答案的“盒子”。

比如，從根節(jié)點(diǎn)出發(fā)走c步后，這個(gè)盒子里不會(huì)只裝著一條路徑，而是同時(shí)裝著所有c步內(nèi)可達(dá)的節(jié)點(diǎn)，這些節(jié)點(diǎn)的信息被 “揉” 成一個(gè)向量（即思維向量），讓模型能一次性處理所有可能性，而不是一次只考慮一條路徑。

第一層Transformer：“整理” 邊的信息

假設(shè)我們有一個(gè)有向圖，邊用token表示，每個(gè)邊token旁邊還帶著它的源節(jié)點(diǎn)（起點(diǎn)）和目標(biāo)節(jié)點(diǎn)（終點(diǎn)）。

此外，根節(jié)點(diǎn)r是探索的起點(diǎn)，初始思維向量就是r的嵌入向量。

第一層Transformer 有5個(gè)注意力頭，每個(gè)頭就像一個(gè) “信息收集小助手”，它們的任務(wù)是：

當(dāng)遇到一個(gè)邊token時(shí)，小助手會(huì) “主動(dòng)” 關(guān)注這個(gè)邊的源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)，并把這兩個(gè)節(jié)點(diǎn)的信息 “復(fù)制” 到邊token的位置上，就像在邊token旁邊貼兩張標(biāo)簽，分別寫著 “起點(diǎn)是XXX” 和 “終點(diǎn)是XXX”。
舉個(gè)例子：如果有一條邊是從節(jié)點(diǎn)A到節(jié)點(diǎn)B，邊token會(huì)被處理成包含A和B的信息，方便后續(xù)使用。

經(jīng)過第一層處理后，每條邊的信息都被明確標(biāo)注了起點(diǎn)和終點(diǎn)，初始思維向量也被保留下來，作為下一步探索的基礎(chǔ)。

第二層Transformer：“并行探索” 所有可能路徑

這一層就像 “探索指揮官”，它會(huì)根據(jù)當(dāng)前的疊加態(tài)（即當(dāng)前能到達(dá)的所有節(jié)點(diǎn)），去尋找下一步能到達(dá)的新節(jié)點(diǎn)：

假設(shè)當(dāng)前疊加態(tài)里有節(jié)點(diǎn)集合Vc（c步內(nèi)可達(dá)的節(jié)點(diǎn)），模型會(huì) “掃描” 所有邊，看看哪些邊的源節(jié)點(diǎn)在Vc里。比如，若Vc里有節(jié)點(diǎn)A和B，就查看從A和B出發(fā)的所有邊。
對(duì)于符合條件的邊，其目標(biāo)節(jié)點(diǎn)會(huì)被 “添加” 到疊加態(tài)中，形成新的節(jié)點(diǎn)集合Vc+1（c+1步內(nèi)可達(dá)的節(jié)點(diǎn)）。這就好比從A和B出發(fā)，發(fā)現(xiàn)能到達(dá)C和D，于是把C和D也放進(jìn) “盒子”，讓下一輪探索能考慮這些新節(jié)點(diǎn)。

MLP層：“過濾” 和 “平衡”

過濾噪聲：疊加態(tài)在擴(kuò)展過程中可能會(huì)混入一些 “不重要的節(jié)點(diǎn)”（類似盒子里進(jìn)了雜物），MLP層會(huì)像 “篩子” 一樣，把那些權(quán)重很小的節(jié)點(diǎn)（即幾乎不可能到達(dá)的節(jié)點(diǎn)）過濾掉，只保留有價(jià)值的節(jié)點(diǎn)。
平衡權(quán)重：過濾后，MLP層會(huì)讓剩下的節(jié)點(diǎn)在疊加態(tài)中的 “權(quán)重” 變得均勻，就像把盒子里的節(jié)點(diǎn)信息整理得整整齊齊，不讓某個(gè)節(jié)點(diǎn)的信息 “壓倒” 其他節(jié)點(diǎn)，確保模型能公平地考慮每一個(gè)可能的路徑。

對(duì)比試驗(yàn)及結(jié)果

團(tuán)隊(duì)使用ProsQA數(shù)據(jù)集的子集進(jìn)行實(shí)驗(yàn)，該子集中的問題需要3-4推理步長(zhǎng)來解決，且圖中的每個(gè)節(jié)點(diǎn)都作為一個(gè)專用token注入到詞匯表中。

實(shí)驗(yàn)結(jié)果顯示，采用COCONUT（連續(xù)思維鏈）的2層Transformer模型在解決ProsQA問題時(shí)表現(xiàn)出色，準(zhǔn)確率接近100%。

相比之下，12層的離散CoT模型準(zhǔn)確率僅為83%，而無CoT基線模型只能解決約75%的任務(wù)。

此外，團(tuán)隊(duì)還通過對(duì)注意力模式和連續(xù)思維表示的分析，進(jìn)一步證實(shí)了模型中存在預(yù)期的疊加態(tài)搜索行為，直接支持了“疊加態(tài)存在”的理論假設(shè)。

不僅能搞科研，還能寫小說

田淵棟任職于Meta GenAI（前FAIR），但業(yè)余時(shí)間是一位小說家（doge）。

沒錯(cuò)，具體來說是科幻小說家。

田淵棟在談到第一部作品的寫作動(dòng)因時(shí)說：

在AI最火熱的時(shí)候我寫了本小說

2020年到2021年，他完成了第一部長(zhǎng)篇科幻小說《破曉之鐘》，該作品于2024年6月正式出版。

△圖源田淵棟知乎

《破曉之鐘》講述了幾個(gè)初出茅廬的科學(xué)家們?nèi)绾蚊鎸?duì)來自外太空的挑戰(zhàn)、如何處理人類危機(jī)的故事。

但區(qū)別于《三體》，《破曉之鐘》的技術(shù)背景離我們當(dāng)前所處的時(shí)代更近，甚至都是我們這幾年人人都在談?wù)?、全球火熱的技術(shù)風(fēng)口。

這本書的核心觀點(diǎn)是：AI只是在模仿數(shù)據(jù)，卻讓人誤以為它有智慧。

這一觀點(diǎn)寫于ChatGPT爆火之前，卻精準(zhǔn)預(yù)言了大語言模型的本質(zhì)。

這部作品也收獲了不少讀者的好評(píng)。

田淵棟在今年5月接受交大校友采訪時(shí)還透露，由于寫第一部小說時(shí)還沒有大模型，所以每個(gè)字都是自己手敲的，接下來的第二部應(yīng)該會(huì)用AI嘗試一下輔助寫作。

目前，他的第二部小說正在構(gòu)思中，還是延續(xù)《破曉之鐘》世界觀，時(shí)間線會(huì)往后推很多，可能涉及到“群體意識(shí)”和“星際殖民”這類議題。

他說：

我希望寫出更大的宇宙，但核心依然是人類的選擇與掙扎。

論文地址：https://arxiv.org/abs/2505.12514

責(zé)任編輯：張燕妮來源：量子位

量子計(jì)算 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<var id="tenx4"><strong id="tenx4"></strong></var>