偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Transformer原作打臉DeepSeek觀點(diǎn)?一句Wait就能引發(fā)反思,RL都不用

人工智能 新聞
Transformer作者Ashish Vaswani 團(tuán)隊(duì)重磅LLM研究!簡(jiǎn)單指令:「Wait,」就能有效激發(fā)LLM顯式反思,表現(xiàn)堪比直接告知模型存在錯(cuò)誤。

只要預(yù)訓(xùn)練,LLM就能涌現(xiàn)自我反思、自我糾正!

Transformer首席作者Ashish Vaswani帶隊(duì)的新研究引來萬人圍觀!

圖片

強(qiáng)化學(xué)習(xí)已證明能有效激發(fā)大語言模型的反思能力。

但在預(yù)訓(xùn)練階段,這種能力是否早已顯現(xiàn)呢?

針對(duì)這一假設(shè),研究得出了令人驚訝的結(jié)論:只需預(yù)訓(xùn)練,LLM就能通過顯式反思機(jī)制,解決了來自對(duì)抗性數(shù)學(xué)應(yīng)用題!

圖片

圖1:隨著預(yù)訓(xùn)練計(jì)算量的增加,OLMo-2的checkpoint通過顯式反思機(jī)制,解決了對(duì)抗性數(shù)學(xué)題

新研究證明:跨領(lǐng)域預(yù)訓(xùn)練早期,反思能力就開始萌芽。

這表明預(yù)訓(xùn)練過程本身就在塑造通用推理能力。

這一發(fā)現(xiàn)為在預(yù)訓(xùn)練階段加速推理能力習(xí)得開辟了新路徑。

性能的顯著提升,竟源于一個(gè)簡(jiǎn)單指令:「Wait,」。

這能有效激發(fā)顯式反思,而且隨著預(yù)訓(xùn)練推進(jìn)效果尤為明顯,表現(xiàn)堪比直接告知模型存在錯(cuò)誤時(shí)的修正效果。

這證明反思與準(zhǔn)確率提升存在因果關(guān)系。

圖片

論文鏈接:https://arxiv.org/abs/2504.04022

最近的大部分研究,都集中在「自我糾正」在強(qiáng)化學(xué)習(xí)過程中如何發(fā)展。

但實(shí)際上,在預(yù)訓(xùn)練階段,「自我糾正」能力就開始出現(xiàn)。

為此研究人員故意在推理鏈中引入錯(cuò)誤,并測(cè)試模型是否能識(shí)別并糾正這些錯(cuò)誤,最后得出正確答案。

通過跟蹤不同預(yù)訓(xùn)練階段的表現(xiàn),研究人員觀察到自我糾正能力早已出現(xiàn),并隨著時(shí)間的推移穩(wěn)步提高。

例如,在4萬億個(gè)token上預(yù)訓(xùn)練的OLMo-2-7B,在6個(gè)自我反思任務(wù)中,表現(xiàn)出了自我糾正能力。

在數(shù)學(xué)、編程、邏輯推理和知識(shí)獲取等多個(gè)領(lǐng)域,使用組多樣化數(shù)據(jù)集,評(píng)估了OLMo-2系列模型的預(yù)訓(xùn)練checkpoint,結(jié)果表明反思在各個(gè)領(lǐng)域都普遍存在。

部分預(yù)訓(xùn)練的模型也能持續(xù)識(shí)別出人為引入的錯(cuò)誤及自身生成的錯(cuò)誤。

具體而言:

在240個(gè)數(shù)據(jù)集-checkpoint組合中,231組至少出現(xiàn)一次情境反思實(shí)例;154組至少展現(xiàn)一次自我反思能力。

隨著預(yù)訓(xùn)練程度加深,模型能修正更多對(duì)抗樣本,各任務(wù)準(zhǔn)確率與預(yù)訓(xùn)練計(jì)算量對(duì)數(shù)之間的皮爾遜相關(guān)系數(shù)平均達(dá)0.76。

更重要的是,隨著預(yù)訓(xùn)練推進(jìn),模型表現(xiàn)出三大進(jìn)階特征:

  1. 從錯(cuò)誤推理中恢復(fù)的能力,持續(xù)增強(qiáng);
  2. 生成結(jié)果中,顯性反思的出現(xiàn)頻率提升;
  3. 對(duì)糾正混淆性思維鏈的貢獻(xiàn)度,顯性反思增大。

AI集體「頓悟」和「反思」

DeepSeek-R1論文的作者,認(rèn)為反思(reflection)強(qiáng)化學(xué)習(xí)的結(jié)果:

諸如反思(即模型回溯并重新評(píng)估先前的推理步驟)以及探索替代性解題方法等行為,并非通過顯式編程實(shí)現(xiàn),而是模型與強(qiáng)化學(xué)習(xí)環(huán)境交互過程中,自然涌現(xiàn)的結(jié)果。

這種自發(fā)演化顯著提升了DeepSeek-R1-Zero的推理能力,使其能以更高效率和準(zhǔn)確度應(yīng)對(duì)更具挑戰(zhàn)性的任務(wù)。

也就是說,DeepSeek認(rèn)為模型的「反思」是因?yàn)閺?qiáng)化學(xué)習(xí)。

圖片

在強(qiáng)化學(xué)習(xí)過程中,DeepSeek-R1-Zero回答的長(zhǎng)度越來越長(zhǎng)

在強(qiáng)化學(xué)習(xí)訓(xùn)練中,他們還觀察到了AI學(xué)會(huì)了以擬人化的方式「再思考」(rethink),認(rèn)為這是AI的「頓悟時(shí)刻」。

圖片

DeepSeek-R1-Zero在數(shù)學(xué)推理中,仿佛阿基米德附身:「等等...再等一下!這絕對(duì)是值得銘記的頓悟時(shí)刻!」

這一度引起了AI復(fù)刻「AI頓悟時(shí)刻」的浪潮。

但來自新加波國立大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì),初步研究證明:R1-Zero可能根本就不存在頓悟時(shí)刻。

DeepSeek團(tuán)隊(duì)發(fā)現(xiàn)的現(xiàn)象,只因強(qiáng)化學(xué)習(xí)的「副作用」!

這次Transformer作者Ashish Vaswani,更加徹底地研究了「AI自我反思」的根源。

新研究區(qū)分了情境反思(situational-reflection)與自我反思(self-reflection)來解決這一難題。

前者指模型檢驗(yàn)外部推理鏈(如其他前沿模型生成的內(nèi)容),后者則是模型審視自身推理過程。

通過測(cè)試模型在接收錯(cuò)誤誘導(dǎo)性推理后仍能正確解題的能力,實(shí)現(xiàn)了對(duì)預(yù)訓(xùn)練全程反思能力的量化監(jiān)測(cè)。

圖2展示了預(yù)訓(xùn)練的OLMo-2的checkpoint解決編程任務(wù)的案例。

圖片

圖2:預(yù)訓(xùn)練的OLMo-2-32B模型通過自我反思正確預(yù)測(cè)程序輸入。OLMo-2擁有320億參數(shù)、經(jīng)4.8萬億token預(yù)訓(xùn)練,最初直接重復(fù)Python函數(shù)f的輸出「avdropj gsd」,作為答案輸出。只需要在提示前加上「等待」(wait)后,AI模型成功實(shí)現(xiàn)自我反思,最終生成:「我意識(shí)到出錯(cuò)了...??的值應(yīng)該是['gsd', 'avdropj']」

程序化方式引入錯(cuò)誤思維鏈(Chain-of-Thought,CoT),能可控且可擴(kuò)展地調(diào)節(jié)完成任務(wù)所需的反思程度。

為此,研究團(tuán)隊(duì)構(gòu)建了6個(gè)數(shù)據(jù)集涵蓋數(shù)學(xué)、編程、邏輯推理和知識(shí)獲取4大領(lǐng)域,可同步評(píng)估情境反思與自我反思2種能力。

方法3步曲

新研究的目標(biāo)是全面且大規(guī)模地衡量反思能力。

為此,提出了反思的定義,展示了如何程序化地創(chuàng)建任務(wù)引發(fā)反思,以及如何嚴(yán)格地衡量反思的存在。

反思的定義

反思是一種高級(jí)認(rèn)知過程,涉及對(duì)信息的檢查、對(duì)其背后推理的評(píng)估,以及根據(jù)該評(píng)估調(diào)整未來的行為。

在語言模型的背景下,這個(gè)過程可以應(yīng)用于從外部來源引入的信息或模型自身生成的信息。

在這項(xiàng)研究中,設(shè)定了下面兩種情境來引發(fā)和測(cè)量反思。

1.情境反思:模型對(duì)由其他來源(例如,另一個(gè)模型)創(chuàng)建的信息進(jìn)行反思。

2.自我反思:模型對(duì)其自身生成的輸出進(jìn)行反思。

而且研究團(tuán)隊(duì)還將反思分為如下兩種形式。

1.顯式反思:當(dāng)模型生成的token含義能夠識(shí)別并解決對(duì)抗性情境中的錯(cuò)誤時(shí)。顯式反思可能出現(xiàn)在正確的模型輸出(即構(gòu)成對(duì)我們對(duì)抗性任務(wù)的正確答案的輸出)或錯(cuò)誤的模型輸出中。

2.隱式反思:當(dāng)模型在不對(duì)先前推理中的錯(cuò)誤進(jìn)行顯式識(shí)別的情況下,成功解決對(duì)抗性情境中的任務(wù)時(shí)。

對(duì)抗性數(shù)據(jù)集誘發(fā)反思行為

研究人員提出一種創(chuàng)新算法,用于生成能誘發(fā)語言模型反思行為的對(duì)抗性數(shù)據(jù)集。

新算法可以創(chuàng)建對(duì)抗性鏈條(CoTs)。

該算法通過構(gòu)建導(dǎo)向錯(cuò)誤解決方案的對(duì)抗性思維鏈(CoTs)實(shí)現(xiàn):

情境反思數(shù)據(jù)集:需人工構(gòu)建對(duì)抗性CoTs(模擬人類典型推理錯(cuò)誤);

自我反思數(shù)據(jù)集:可直接提取模型自身錯(cuò)誤案例。

在這兩種情況下,當(dāng)提供上下文中的CoTs時(shí),模型必須對(duì)這些錯(cuò)誤進(jìn)行反思,并修正它們以得到正確的解決方案。

任務(wù)設(shè)計(jì)包括添加一個(gè)觸發(fā)token,如「Wait,」(等待),有助于持續(xù)推理整個(gè)解題過程。

該算法有兩個(gè)變體:算法1和算法2,分別創(chuàng)建情境反思和自我反思數(shù)據(jù)集。

圖片

圖片

測(cè)量反思能力

研究人員提出了一種自動(dòng)方法,基于先前對(duì)反思的分類,使用對(duì)抗性數(shù)據(jù)集來測(cè)量模型的反思能力:

為了識(shí)別顯式反思的實(shí)例,開發(fā)了基于提示的語言模型(LLM)分類器,能夠檢測(cè)模型輸出是否明確承認(rèn)錯(cuò)誤,并最終解決了提供的對(duì)抗性上下文中的錯(cuò)誤,無論模型是否得出了正確答案。

在存在對(duì)抗性上下文的情況下,所有導(dǎo)致得出正確答案的模型生成的內(nèi)容,都可以歸因于反思,即使沒有輸出與反思相關(guān)的標(biāo)記。

實(shí)驗(yàn)結(jié)果

為了全面測(cè)量跨領(lǐng)域的反思推理,分類器在BBH、cruxeval-i、cruxeval-o、GSM8K、GSM8K-Platinum和TriviaQA數(shù)據(jù)集中,區(qū)分了顯式反思和隱式反思,分別用于情境反思和自我反思。

令人驚訝的是,隨著訓(xùn)練計(jì)算量的增加,發(fā)現(xiàn)反思現(xiàn)象顯著增強(qiáng)。

此外,隨著預(yù)訓(xùn)練的進(jìn)展,模型越來越能夠從混淆因素中恢復(fù),顯式反思的比例增加。

并且顯式反思對(duì)從混淆因素中恢復(fù)的貢獻(xiàn)也越來越大(詳見表5中的示例)。

圖片

表5:顯式反思短語的例子

所有模型:顯式情境反思均存在

在表6中,除了cruxeval-i任務(wù)外,所有任務(wù)中的OLMo-2預(yù)訓(xùn)練checkpoint,都顯示出從情境混淆因素中恢復(fù)的跡象,無論是隱式還是顯式的。

在240個(gè)數(shù)據(jù)集-checkpoint對(duì)中,有231個(gè)展示了至少一次情境反思的實(shí)例。

圖片

表6:預(yù)訓(xùn)練模型在不同任務(wù)中可以糾正非零對(duì)抗性示例,并且隨著預(yù)訓(xùn)練的增加,準(zhǔn)確率和顯式反思的比例均有所提高

然而,即模型逐漸發(fā)展并使用顯式反思,大多數(shù)恢復(fù)應(yīng)歸因于顯式情境反思。

具體來說,隨著更多的預(yù)訓(xùn)練計(jì)算資源,期待能夠觀察到以下三點(diǎn)增加的趨勢(shì):

  1. 從情境混淆因素中恢復(fù)。
  2. 明確反思情境混淆因素。
  3. 通過顯式反思從情境混淆因素中恢復(fù)。

高皮爾遜相關(guān)系數(shù)(Pearson correlations)表明每個(gè)指標(biāo)與預(yù)訓(xùn)練計(jì)算量的對(duì)數(shù)(log(pre-training compute))之間的關(guān)系支持了上述三點(diǎn)。

還觀察到隱式反思準(zhǔn)確率與預(yù)訓(xùn)練計(jì)算量的對(duì)數(shù)之間的相關(guān)性較低。

如圖3所示,在GSM8K-Platinum數(shù)據(jù)集上,隨著預(yù)訓(xùn)練的增加,不同參數(shù)數(shù)量的模型,顯式反思推理錯(cuò)誤,解決了大部分任務(wù)實(shí)例。

圖片

圖3:OLMo-2系列模型在GSM8K-Platinum對(duì)抗性評(píng)估中的情境反思表現(xiàn)

結(jié)果顯示:(1)模型準(zhǔn)確率隨預(yù)訓(xùn)練計(jì)算量增加而提升;(2)準(zhǔn)確率增益中78.4%可歸因于顯性反思機(jī)制。

六個(gè)任務(wù)的全部詳細(xì)結(jié)果,可以在原文附錄C中找到。

沒有觸發(fā)詞也能反思

為了理解「Wait,」觸發(fā)詞的因果作用,在GSM8K-Platinum數(shù)據(jù)集上,研究了模型在極端情況下的表現(xiàn)。

具體來說,研究了2種模式下的模型表現(xiàn):

A模式:沒有觸發(fā)詞,盡量減少對(duì)對(duì)抗性CoTs中錯(cuò)誤的關(guān)注

B模式:包含明確承認(rèn)錯(cuò)誤的觸發(fā)詞,如「Wait, I made a mistake」。強(qiáng)調(diào)CoT中存在的錯(cuò)誤

圖4展示了這些結(jié)果。

無觸發(fā)詞的情況下,結(jié)果首先證實(shí)了假設(shè):即使沒有觸發(fā)詞,隨著預(yù)訓(xùn)練的進(jìn)行,模型在處理情境混淆因素時(shí)的成功率也在逐步提高。

在A模式下,模型通過隱式反思提高了準(zhǔn)確性。

有觸發(fā)詞的情況下,「Wait,」觸發(fā)詞的作用得到了進(jìn)一步澄清。

在B模式下,模型通過顯式反思顯著提高了性能。

「Wait,」設(shè)置在隱式反思時(shí),表現(xiàn)類似于A模式,在顯式反思時(shí)表現(xiàn)類似于B模式。

性能以分解為以下公式:accWait=eWait*accB+(1?eWait)*i_accA,其中eWait是顯式反思的比例,i_acc是隱式反思的準(zhǔn)確性。

圖片

圖4:即使不存在觸發(fā)機(jī)制,模型仍能對(duì)情境性對(duì)抗樣本進(jìn)行反思與修正

顯式自我反思

初看起來,表7中自我反思的稀有性,可能被視為一個(gè)負(fù)面結(jié)果。

圖片

表7:在各項(xiàng)任務(wù)中,預(yù)訓(xùn)練模型能夠糾正非零對(duì)抗樣本,并且隨著預(yù)訓(xùn)練量的增加,能夠?qū)崿F(xiàn)更高的準(zhǔn)確率以及更為明確的自我反思

然而,這可能是因?yàn)樗鼈冎盎卮疱e(cuò)誤的任務(wù)實(shí)例上,要求AI模型進(jìn)行評(píng)估——

因此,這些任務(wù)特別困難。

盡管如此,在大約64.2%的任務(wù)嘗試中,模型確實(shí)展示了一定程度的自我糾正能力。

為了區(qū)分自我反思和自我糾正,圖5繪制了模型生成的反思率,而不考慮任務(wù)是否被解決。

這顯示了明顯的趨勢(shì):隨著預(yù)訓(xùn)練的進(jìn)展,模型在顯式突出自身錯(cuò)誤方面變得更好。

自我反思的萌芽,如何在后訓(xùn)練(post-training)階段演變?yōu)閺?fù)雜的自主推理能力?

研究人員假設(shè),必須存在一個(gè)預(yù)訓(xùn)練自我反思的關(guān)鍵閾值,超過這個(gè)閾值,模型有很大的可能性,發(fā)展成為測(cè)試時(shí)的推理者(test-time reasoner)。

關(guān)鍵閾值假設(shè):

在預(yù)訓(xùn)練過程中,必須達(dá)到某個(gè)自我反思的關(guān)鍵閾值,在后續(xù)的訓(xùn)練和應(yīng)用中,模型才有可能發(fā)展出強(qiáng)大的測(cè)試時(shí)推理能力。

超過這個(gè)閾值后,模型不僅能夠識(shí)別并糾正自身的錯(cuò)誤,還能通過顯式反思逐步形成更復(fù)雜的推理能力。

令人驚訝的是,在從有機(jī)網(wǎng)絡(luò)數(shù)據(jù)集(organic web datasets)中學(xué)習(xí)時(shí),看到了高水平的顯式自我反思。

這表明,即使在相對(duì)自然的數(shù)據(jù)環(huán)境中,模型也能發(fā)展出顯著的自我反思能力。

確定哪些數(shù)據(jù)分布在預(yù)訓(xùn)練過程中促進(jìn)顯式自我反思,是下一步研究的一個(gè)自然方向。

理解這些數(shù)據(jù)分布有助于設(shè)計(jì)更有效的預(yù)訓(xùn)練策略,從而提升模型的自我反思和推理能力。

具體的結(jié)果和分析可以在原文附錄D中找到。

圖片

圖5:隨著預(yù)訓(xùn)練量的增加,OLMo-2系列模型在cruxeval-i任務(wù)中展示了小但值得注意的自我反思及隨后的自我糾正能力

訓(xùn)練計(jì)算與測(cè)試時(shí)計(jì)算的權(quán)衡

在訓(xùn)練時(shí)增加計(jì)算資源的投資,與在測(cè)試時(shí)為實(shí)現(xiàn)下游任務(wù)相當(dāng)準(zhǔn)確率所需相應(yīng)支出之間,存在權(quán)衡。

研究人員通過以下方式來估計(jì)這種權(quán)衡:

  • 訓(xùn)練時(shí)計(jì)算量:估計(jì)為6nt,其中n是參數(shù)數(shù)量,t是訓(xùn)練token的數(shù)量。
  • 測(cè)試時(shí)計(jì)算量:估計(jì)為2nw,其中w表示為解決一定數(shù)量的對(duì)抗性問題生成的單詞數(shù)量。

首先,指定一組需要正確回答的對(duì)抗性問題的目標(biāo)數(shù)量。

然后,針對(duì)每個(gè)目標(biāo)繪制一條曲線。

在GSM8K-Platinum對(duì)抗性數(shù)據(jù)集,采用順序測(cè)試時(shí)擴(kuò)展方法,在模型生成中附加觸發(fā)詞「Wait,」。

如圖6所示,隨著訓(xùn)練時(shí)計(jì)算量的增加,OLMo-2-32B的checkpoint測(cè)試時(shí)計(jì)算需求減少。

這一結(jié)果進(jìn)一步支持了研究假設(shè),即隨著預(yù)訓(xùn)練的進(jìn)展,模型在反思能力上變得更好。

這意味著在給定準(zhǔn)確率水平下,所需的測(cè)試時(shí)計(jì)算量較少。

圖片

圖6:OLMo-2-32B預(yù)訓(xùn)練檢checkpoint的訓(xùn)練時(shí)與測(cè)試時(shí)計(jì)算量權(quán)衡關(guān)系

不止是OLMo-2

如圖7所示,與OLMo-2的研究結(jié)論一致:隨著預(yù)訓(xùn)練算力(此處體現(xiàn)為參數(shù)量)的提升,Qwen2.5在對(duì)抗性任務(wù)上的表現(xiàn)持續(xù)增強(qiáng)。

這再次證明:僅通過預(yù)訓(xùn)練算力的增加,模型就能逐步克服先前推理中的錯(cuò)誤完成任務(wù)。

圖片

圖7:Qwen2.5系列模型情境反思能力全景評(píng)估

實(shí)驗(yàn)設(shè)置

評(píng)估的模型為OLMo-2和Qwen2.5系列。

總共評(píng)估了OLMo-2的40個(gè)checkpoint,Qwen2.5的0.5B、3B、7B、14B、32B和72B參數(shù)變體。

基于BIG-Bench Hard(BBH)、CruxEval、GSM8K、GSM8K-Platinum和TriviaQA創(chuàng)建了6個(gè)對(duì)抗性數(shù)據(jù)集,如下表1和表2。

圖片

圖片

詳細(xì)的關(guān)于數(shù)據(jù)集特定管道、檢查和過濾器的信息,可以在原文附錄F中找到

測(cè)量指標(biāo)

如表3所示,對(duì)于情境反思和自我反思設(shè)置,準(zhǔn)確率(Accuracy)是模型正確解決問題的任務(wù)實(shí)例所占的分?jǐn)?shù)。

獨(dú)立于準(zhǔn)確率,顯式反思分類器(Explicit Reflection Classifier)測(cè)量顯式反思率(Explicit Reflection Rate),即無論是否正確,模型輸出表現(xiàn)出顯式反思的任務(wù)實(shí)例所占的分?jǐn)?shù)。

此外,還報(bào)告了顯式反思準(zhǔn)確率(Explicit Reflection Accuracy),即模型不僅正確解決問題而且表現(xiàn)出顯式反思的任務(wù)實(shí)例所占的分?jǐn)?shù)。

最后,隱式反思準(zhǔn)確率(Implicit Reflection Accuracy) 是指模型輸出正確且不表現(xiàn)出顯式反思的任務(wù)實(shí)例所占的分?jǐn)?shù)。

圖片

關(guān)于每個(gè)數(shù)據(jù)集的準(zhǔn)確率指標(biāo)詳情,見下表8。

圖片

此外,對(duì)于每個(gè)數(shù)據(jù)點(diǎn),預(yù)訓(xùn)練計(jì)算量為6nt,其中n和t分別是參數(shù)數(shù)量和訓(xùn)練token的數(shù)量。

顯式反思分類器

研究人員利用基于提示的分類器,確定模型輸出是否表現(xiàn)出顯式反思。

DeepSeek-V3被提示以「反思」的描述以及兩到四個(gè)顯式反思示例。

在GSM8K、cruxeval-o和TriviaQA上對(duì)分類器進(jìn)行了驗(yàn)證(每個(gè)基準(zhǔn)120個(gè)問題;有關(guān)標(biāo)注過程的詳細(xì)信息,請(qǐng)參閱附錄G)。

盡管分類器召回的反思實(shí)例較少(見表4),但其精確度足夠高,足以驗(yàn)證其有用性。

在最壞的情況下,可能會(huì)低估反思行為,但在報(bào)告時(shí)會(huì)更加確信。

圖片

表4:顯式反思分類器在不同基準(zhǔn)測(cè)試中的性能指標(biāo)

Transformer首席作者

值得一提的是,Transformer八子之一的Ashish Vaswani,對(duì)新研究做出了核心貢獻(xiàn)。

圖片

Transformer排名第一的作者:Ashish Vaswani

他讀博時(shí),師從深度學(xué)習(xí)先驅(qū)Yoshua Bengio教授。

在南加州大學(xué)(USC),他獲得了博士和碩士學(xué)位。

2016年,他加入谷歌大腦。

在谷歌工作期間,與團(tuán)隊(duì)共同完成Transformer的里程碑式工作《Attention is all you need》。

離開谷歌后,他先后聯(lián)合創(chuàng)立了Adept AI Labs和Essential AI。

圖片

他對(duì)人工智能的貢獻(xiàn),尤其是Transformer模型的突破性發(fā)展,具有劃時(shí)代意義。

他的工作不僅在自然語言處理(NLP)領(lǐng)域?qū)崿F(xiàn)了三大跨越式進(jìn)步,更在計(jì)算機(jī)視覺、計(jì)算生物學(xué)等跨學(xué)科領(lǐng)域催生了革命性應(yīng)用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2013-03-22 10:53:42

PyConPython

2013-11-29 13:14:30

代碼網(wǎng)頁設(shè)計(jì)

2013-03-22 14:05:11

2011-10-17 08:29:33

Ubuntu 11.1思考

2011-03-28 15:48:52

批量數(shù)據(jù)綁定

2024-04-01 13:03:00

AI模型

2011-03-24 10:24:45

批量數(shù)據(jù)綁定

2009-03-10 18:10:12

LinuxUbuntu技巧

2012-02-09 09:41:22

2011-06-13 09:25:01

斷號(hào)

2025-01-02 07:00:00

2009-09-07 15:56:16

2013-08-08 10:20:04

云計(jì)算災(zāi)難恢復(fù)反思

2020-11-27 09:57:11

Python代碼PyPy

2022-08-01 10:01:11

JavaScript語言代碼庫

2015-08-03 10:21:04

設(shè)計(jì)模式表達(dá)

2023-11-06 08:31:58

業(yè)務(wù)代碼多線程

2019-11-15 18:00:18

MySQLSQL數(shù)據(jù)庫

2013-05-10 10:56:09

2023-09-05 23:34:52

Kubernetes云原生
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)