引言:打破傳統(tǒng)微調(diào)的局限性在大語言模型(LLMs)快速發(fā)展的今天,如何開發(fā)緊湊且高效的模型已成為研究的熱點(diǎn)。本文介紹了一種突破性的微調(diào)方法,通過結(jié)合教師模型的logits知識(shí)和真實(shí)標(biāo)簽,顯著提升了模型性能。該方法在數(shù)學(xué)推理等任務(wù)上取得了顯著進(jìn)展,為大語言模型的優(yōu)化開辟了新的方向。技術(shù)創(chuàng)新:突破傳統(tǒng)監(jiān)督微調(diào)的瓶頸傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法存在明顯的局限性,主要體現(xiàn)在無法有效捕捉token之間的依賴關(guān)系和語言表達(dá)...
1天前 195瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
基于平滑權(quán)重學(xué)習(xí)的高效模型壓縮方案隨著深度學(xué)習(xí)模型規(guī)模的不斷擴(kuò)大,如何在保持模型性能的同時(shí)實(shí)現(xiàn)高效壓縮成為了一個(gè)重要挑戰(zhàn)。來自劍橋大學(xué)和西根大學(xué)的研究團(tuán)隊(duì)提出了一種創(chuàng)新的模型壓縮方法,通過引入平滑權(quán)重學(xué)習(xí)(SmoothWeightLearning)和基于奇異值分解的壓縮技術(shù),在不需要微調(diào)的情況下實(shí)現(xiàn)了出色的壓縮效果。該方法在CIFAR10數(shù)據(jù)集上,成功將ResNet18的參數(shù)量減少70%的同時(shí),仍保持91%的準(zhǔn)確率。創(chuàng)新性壓縮方法傳統(tǒng)的...
1天前 171瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
近年來,大語言模型(LLM)領(lǐng)域出現(xiàn)了一個(gè)引人注目的發(fā)展趨勢(shì):研究人員開始轉(zhuǎn)向具有亞二次復(fù)雜度的循環(huán)模型架構(gòu),如Mamba、RWKV和RecurrentGemma等。這些模型在處理長(zhǎng)上下文時(shí)展現(xiàn)出顯著的效率優(yōu)勢(shì),相比傳統(tǒng)Transformer架構(gòu)的二次方復(fù)雜度,它們能夠以更低的計(jì)算成本處理更長(zhǎng)的序列。然而,這些循環(huán)模型存在一個(gè)關(guān)鍵的局限性:固定大小的循環(huán)記憶容量。來自特拉維夫大學(xué)、IBM研究院和MITCSAIL的研究團(tuán)隊(duì)在最新論文《溢出預(yù)防增...
2025-06-20 07:11:09 1184瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
引言:知識(shí)圖譜與大語言模型的融合挑戰(zhàn)隨著人工智能技術(shù)的快速發(fā)展,大型語言模型(LLMs)已經(jīng)在自然語言處理領(lǐng)域展現(xiàn)出驚人的能力?;赥ransformer架構(gòu)的LLMs在開放域問答、文本摘要和內(nèi)容生成等任務(wù)中表現(xiàn)出色,并在醫(yī)療、金融、法律和科學(xué)等多個(gè)領(lǐng)域得到廣泛應(yīng)用。然而,這些模型也面臨著一些固有的局限性:它們?nèi)菀桩a(chǎn)生自信但錯(cuò)誤的輸出(幻覺現(xiàn)象),并且缺乏在不重新訓(xùn)練的情況下更新或擴(kuò)展知識(shí)的有效機(jī)制。檢索增強(qiáng)生成...
2025-06-09 00:48:48 2686瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
引言:重新定義工具使用型語言模型的訓(xùn)練范式大型語言模型(LLM)的工具使用能力已成為擴(kuò)展其功能邊界的關(guān)鍵戰(zhàn)略。傳統(tǒng)方法通常依賴監(jiān)督微調(diào)(SFT)來確保工具調(diào)用的正確性,或從更強(qiáng)大的模型中提煉推理軌跡。然而,這些方法各有局限:要么完全忽略推理過程,要么產(chǎn)生僅能模仿表面模式的偽推理,限制了模型的泛化能力。近日,NVIDIA研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性成果——NemotronResearchToolN1(簡(jiǎn)稱ToolN1),這是一系列基于強(qiáng)化學(xué)習(xí)...
2025-05-27 07:00:59 902瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
引言:微調(diào)效率的新視角在大型語言模型(LLM)迅速發(fā)展的今天,如何在有限資源下高效微調(diào)模型成為了研究和應(yīng)用的關(guān)鍵問題。傳統(tǒng)觀點(diǎn)認(rèn)為,訓(xùn)練數(shù)據(jù)的總令牌數(shù)是衡量數(shù)據(jù)規(guī)模的唯一標(biāo)準(zhǔn),但康涅狄格大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)更為精細(xì)的視角:數(shù)據(jù)的組成結(jié)構(gòu)同樣至關(guān)重要。本文將深入分析RyanLagasse、AidanKiernans、AvijitGhosh和ShiriDoriHacohen在論文《固定計(jì)算預(yù)算下LLM微調(diào)中令牌效率的縮放定律》中提出的創(chuàng)新理論。該研究...
2025-05-27 06:57:22 926瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大語言模型(LLM)在各種應(yīng)用場(chǎng)景中展現(xiàn)出了令人矚目的能力,但其固有的知識(shí)靜態(tài)性和更新滯后性一直是制約其實(shí)際應(yīng)用的關(guān)鍵因素。為解決這一問題,阿里巴巴統(tǒng)一實(shí)驗(yàn)室(TongyiLab)的研究團(tuán)隊(duì)提出了一種創(chuàng)新的解決方案——ZeroSearch,這是一個(gè)無需與真實(shí)搜索引擎交互即可增強(qiáng)LLM搜索能力的強(qiáng)化學(xué)習(xí)框架。本文將深入分析這項(xiàng)突破性技術(shù)的原理、實(shí)現(xiàn)方法及其重要意義。1.研究背景與挑戰(zhàn)大語言模型雖然在數(shù)學(xué)推理、問答和代碼生成等多...
2025-05-13 07:21:32 1218瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
突破性能瓶頸:動(dòng)態(tài)超級(jí)塊剪枝如何重塑信息檢索效率在當(dāng)今數(shù)據(jù)爆炸的時(shí)代,高效的信息檢索系統(tǒng)對(duì)于各類應(yīng)用至關(guān)重要,從搜索引擎到基于檢索增強(qiáng)的大語言模型(RAG)。隨著學(xué)習(xí)型稀疏表示模型的興起,如何在保持高檢索質(zhì)量的同時(shí)提升檢索速度成為研究熱點(diǎn)。本文深入探討一項(xiàng)革命性技術(shù)——動(dòng)態(tài)超級(jí)塊剪枝(SuperblockPruning,簡(jiǎn)稱SP),這一創(chuàng)新方法在保持高相關(guān)性的前提下,顯著提升了稀疏檢索的效率。稀疏檢索的挑戰(zhàn)與機(jī)遇稀...
2025-04-27 07:46:39 994瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在人工智能的發(fā)展歷程中,大語言模型(LLM)的推理能力一直是研究的核心焦點(diǎn)。然而,傳統(tǒng)的推理能力增強(qiáng)方法往往依賴于高質(zhì)量的監(jiān)督信號(hào),如標(biāo)注好的答案或外部獎(jiǎng)勵(lì)模型,這不僅成本高昂,而且難以擴(kuò)展。近期,來自上海人工智能實(shí)驗(yàn)室、西安交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案——Genius框架,這是一個(gè)可泛化、純無監(jiān)督的高級(jí)推理自訓(xùn)練框架,能夠讓大語言模型在沒有任何外部監(jiān)督的情況下自我提升推理能力。傳統(tǒng)...
2025-04-16 06:29:38 1376瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大型語言模型(LLM)在處理超出訓(xùn)練長(zhǎng)度的上下文時(shí)往往會(huì)遇到嚴(yán)重的性能下降問題。NVIDIA研究團(tuán)隊(duì)最新提出的SWANGPT架構(gòu)通過巧妙的設(shè)計(jì),成功解決了這一行業(yè)難題,無需額外的長(zhǎng)上下文訓(xùn)練即可實(shí)現(xiàn)穩(wěn)健的長(zhǎng)度外推能力。本文深入剖析SWANGPT的創(chuàng)新架構(gòu)、工作原理及其在長(zhǎng)上下文處理領(lǐng)域的重大突破。1.長(zhǎng)上下文處理的挑戰(zhàn)與現(xiàn)狀大型語言模型的上下文長(zhǎng)度限制一直是制約其應(yīng)用場(chǎng)景的關(guān)鍵因素。目前主流的Transformer架構(gòu)在處理超出...
2025-04-16 06:25:27 1462瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
近年來,大型語言模型(LLMs)在復(fù)雜推理任務(wù)上的能力取得了顯著突破,從快速直覺思維(System1)向緩慢深度推理(System2)轉(zhuǎn)變。這種轉(zhuǎn)變雖然提高了任務(wù)準(zhǔn)確性,但也帶來了巨大的計(jì)算成本。這種性能與成本之間的權(quán)衡引發(fā)了"推理經(jīng)濟(jì)"(ReasoningEconomy)的概念,它關(guān)注如何在保持模型推理能力的同時(shí),最大化計(jì)算資源的使用效率。本文將深入探討推理經(jīng)濟(jì)的核心問題,分析LLMs在訓(xùn)練后和推理階段的效率挑戰(zhàn),并探索實(shí)現(xiàn)推理經(jīng)濟(jì)的潛在...
2025-04-03 00:12:52 1490瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
引言:大模型推理與搜索的融合挑戰(zhàn)隨著OpenAIo1和DeepSeekR1等模型的出現(xiàn),大型語言模型(LLMs)在推理能力上取得了顯著突破。然而,將復(fù)雜推理與外部搜索過程有效整合仍然面臨重大挑戰(zhàn),尤其是在處理需要多步檢索的復(fù)雜多跳問題時(shí)。傳統(tǒng)方法往往依賴手動(dòng)設(shè)計(jì)的提示或啟發(fā)式規(guī)則,這在可擴(kuò)展性和靈活性方面存在明顯局限。更重要的是,為多步推理場(chǎng)景生成監(jiān)督數(shù)據(jù)通常成本高昂且在實(shí)踐中難以實(shí)現(xiàn)。百川科技、同濟(jì)大學(xué)、愛丁堡大學(xué)...
2025-04-03 00:01:22 6065瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
背景大型語言模型(LLMs)如GPT4和LLaMA3憑借Transformer架構(gòu)的強(qiáng)大情境學(xué)習(xí)(InContextLearning,ICL)能力,能夠從有限的示例中快速學(xué)習(xí)并適應(yīng)新任務(wù)。然而,ICL的泛化邊界和脆弱性一直缺乏系統(tǒng)性的理解,這限制了其在實(shí)際應(yīng)用中的潛力發(fā)揮。清華大學(xué)的研究團(tuán)隊(duì)通過定義一個(gè)以任務(wù)為中心的框架,從三個(gè)維度系統(tǒng)地研究了Transformer架構(gòu)在ICL下的泛化能力,并提出了優(yōu)化訓(xùn)練數(shù)據(jù)設(shè)計(jì)的重要指導(dǎo)原則。研究框架:三維泛化能力分析...
2025-03-24 00:32:17 1570瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
融合地理定位與對(duì)話能力的新型多模態(tài)模型圖像地理定位技術(shù)在過去幾年取得了顯著進(jìn)展,但傳統(tǒng)模型僅限于提供GPS坐標(biāo),缺乏對(duì)位置的深入理解和與用戶進(jìn)行有意義對(duì)話的能力。中佛羅里達(dá)大學(xué)的研究團(tuán)隊(duì)最近提出了一種創(chuàng)新解決方案——GAEA(GeolocationAwareConversationalModel),這是首個(gè)將精確地理定位能力與豐富對(duì)話功能相結(jié)合的開源多模態(tài)模型。GAEA不僅能確定圖像的拍攝位置,還能提供關(guān)于該位置的詳細(xì)信息,包括附近的地標(biāo)...
2025-03-24 00:27:34 1946瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
引言解碼人類大腦處理語言的機(jī)制是神經(jīng)科學(xué)的核心目標(biāo)之一。人類語言處理由大腦的語言網(wǎng)絡(luò)(LanguageNetwork,LN)支持,這是一組位于大腦左側(cè)的前額葉和顳葉區(qū)域,具有對(duì)語言輸入的選擇性反應(yīng)能力。近年來,隨著機(jī)器學(xué)習(xí)的快速發(fā)展,基于大規(guī)模文本語料庫訓(xùn)練的下一詞預(yù)測(cè)的大型語言模型(LLMs)成為了模擬人類語言網(wǎng)絡(luò)內(nèi)部過程的有力工具。本文旨在探討大型語言模型如何與人類語言網(wǎng)絡(luò)對(duì)齊,并分析這種對(duì)齊在模型訓(xùn)練中的演化...
2025-03-12 00:42:58 2071瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
引言大型語言模型(LLMs)的推理能力近年來取得了顯著進(jìn)展,尤其是在訓(xùn)練后階段。諸如DeepSeekR1、KimiK1.5和OpenAIo1等模型展現(xiàn)了卓越的邏輯推理能力。然而,這些成果的可復(fù)現(xiàn)性和擴(kuò)展性仍面臨諸多挑戰(zhàn),特別是在缺乏訓(xùn)練代碼和數(shù)據(jù)集的情況下。LogicRL框架的提出旨在通過基于規(guī)則的強(qiáng)化學(xué)習(xí)(RL)方法,填補(bǔ)這一研究空白,并推動(dòng)LLMs推理能力的進(jìn)一步發(fā)展。LogicRL通過在邏輯謎題上進(jìn)行訓(xùn)練,成功開發(fā)了類似DeepSeekR1的推理...
2025-03-12 00:42:12 2360瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
研究背景與創(chuàng)新點(diǎn)深度學(xué)習(xí)模型,尤其是大型語言模型(LLMs)在推理任務(wù)上的表現(xiàn)令人矚目。傳統(tǒng)觀點(diǎn)認(rèn)為,模型參數(shù)量是決定推理能力的主要因素。然而,GoogleResearch團(tuán)隊(duì)的這項(xiàng)研究《推理潛在思維:循環(huán)變換器的力量》提出了一個(gè)更為大膽的觀點(diǎn):許多推理問題主要需要的是足夠的深度,而非海量參數(shù)。該研究探索了循環(huán)變換器(LoopedTransformers)在推理任務(wù)中的應(yīng)用潛力,并揭示了模型架構(gòu)與推理能力之間的深層聯(lián)系。本文的核...
2025-02-27 11:24:49 2096瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要大型語言模型(LLMs)在各個(gè)領(lǐng)域都取得了顯著的成功,然而,由于它們所處的復(fù)雜和高維損失景觀,其優(yōu)化仍然是一個(gè)重大挑戰(zhàn)。雖然自適應(yīng)優(yōu)化器如AdamW被廣泛使用,但它們存在關(guān)鍵限制,包括無法捕捉坐標(biāo)之間的相互依賴性以及高內(nèi)存消耗。本文分析了COSMOS優(yōu)化器,這是一種新穎的混合優(yōu)化器,它利用梯度矩陣中特征子空間的重要性變化來實(shí)現(xiàn)內(nèi)存效率,同時(shí)不犧牲優(yōu)化性能。COSMOS將SOAP應(yīng)用于主特征子空間,該子空間捕捉了主要...
2025-02-27 11:20:40 2639瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要模仿學(xué)習(xí)(ImitationLearning,IL)作為一種通過模仿示范來教授智能體復(fù)雜行為的范式,已經(jīng)在機(jī)器人學(xué)習(xí)領(lǐng)域展現(xiàn)出巨大潛力。然而,隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,設(shè)計(jì)現(xiàn)代模仿學(xué)習(xí)策略需要在特征編碼、架構(gòu)、策略表示等方面做出眾多決策,這些選擇構(gòu)成了一個(gè)龐大且尚未被充分探索的設(shè)計(jì)空間。本文詳細(xì)分析了XIL框架,這是一個(gè)開源的模塊化框架,旨在系統(tǒng)地探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間。通過對(duì)XIL的架構(gòu)設(shè)計(jì)、核心組件以及在L...
2025-02-27 11:18:08 2810瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
研究背景與動(dòng)機(jī)本文提出了一種新的低秩適應(yīng)(LoRA)變體GoRA(GradientdrivenAdaptiveLowRankAdaptation),通過梯度信息來自適應(yīng)地分配秩和初始化低秩適配器的權(quán)重。該方法在保持LoRA高可用性和效率的同時(shí)顯著提升了模型性能?,F(xiàn)有問題秩的選擇問題:LoRA的性能很大程度上取決于秩的選擇,但增加秩會(huì)導(dǎo)致內(nèi)存使用量上升。初始化策略局限:現(xiàn)有的非零初始化方法要么需要重置全部權(quán)重,要么需要保存額外的初始化結(jié)果??捎眯耘c效率的...
2025-02-20 10:41:13 2592瀏覽 0點(diǎn)贊 0回復(fù) 0收藏