今日分享一篇羅格斯大學(xué)團(tuán)隊(duì)發(fā)現(xiàn)了大語(yǔ)言模型注意力機(jī)制的查詢(Q)和鍵(K)表示中存在非常集中的大值,并探討了這些極大值的應(yīng)用以及來(lái)源,該研究已經(jīng)被機(jī)器學(xué)習(xí)三大頂會(huì)之一ICML收錄.。這項(xiàng)研究揭示了大型語(yǔ)言模型中一個(gè)重要現(xiàn)象:在注意力機(jī)制的查詢(Q)和鍵(K)表示中存在集中的大值,而在值(V)表示中卻沒(méi)有這種模式。這一現(xiàn)象在使用旋轉(zhuǎn)位置編碼(RoPE)的現(xiàn)代Transformer模型中普遍存在。??四大核心發(fā)現(xiàn)1.極大值在Q和K中的特定...
3天前 248瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.StopOverthinking:ASurveyonEfficientReasoningforLargeLanguageModels現(xiàn)在的大模型確實(shí)很厲害,尤其是在處理復(fù)雜任務(wù)時(shí)。最近像OpenAI的o1和DeepSeekR1這些大推理模型,通過(guò)監(jiān)督微調(diào)加強(qiáng)化學(xué)習(xí)的方法,把那種一步一步的推理能力(也就是CoT)提升了不少。不過(guò)這里有個(gè)矛盾點(diǎn)——雖然更長(zhǎng)的推理鏈條能提高準(zhǔn)確率,但也會(huì)因?yàn)檩敵鎏珕隆⒅貜?fù)而增加計(jì)算成本,我們管這個(gè)叫"過(guò)度思考"問(wèn)題。最近我們團(tuán)隊(duì)做了個(gè)系統(tǒng)的研究綜述,...
2025-06-18 06:58:24 788瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在數(shù)字化時(shí)代,視覺(jué)信息在知識(shí)傳遞和決策支持中的重要性日益凸顯。然而,傳統(tǒng)的檢索增強(qiáng)型生成(RAG)方法在處理視覺(jué)豐富信息時(shí)面臨著諸多挑戰(zhàn)。一方面,傳統(tǒng)的基于文本的方法無(wú)法處理視覺(jué)相關(guān)數(shù)據(jù);另一方面,現(xiàn)有的視覺(jué)RAG方法受限于定義的固定流程,難以有效激活模型的推理能力。來(lái)自阿里巴巴通義實(shí)驗(yàn)室的最新研究成果——VRAGRL(EmpowerVisionPerceptionBasedRAGforVisuallyRichInformationUnderstandingviaIterativeReaso...
2025-06-06 06:18:32 694瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
背景隨著GPT4o在圖像生成任務(wù)上的橫空出世,以及越來(lái)越多采用自回歸架構(gòu)(autoregressivearchitecture)的文本到圖像(T2I)模型迅速發(fā)展,當(dāng)前一代的生成模型在理解與執(zhí)行用戶復(fù)雜指令(prompts)方面,已經(jīng)實(shí)現(xiàn)了飛躍式突破?。如今的T2I模型不僅能識(shí)別多個(gè)屬性(如顏色、材質(zhì)、風(fēng)格等),還能處理帶有邏輯推理結(jié)構(gòu)甚至復(fù)雜修辭的超長(zhǎng)自然語(yǔ)言指令。Asquareimagecontaininga4rowby4columngridcontaining16objectsonawhiteback...
2025-06-06 06:14:42 870瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在大語(yǔ)言模型(LLMs)的后訓(xùn)練與推理Scaling時(shí)代,一個(gè)革命性范式正在崛起:LearningfromRewards(獎(jiǎng)勵(lì)驅(qū)動(dòng)學(xué)習(xí))。從OpenAIo1和DeepSeekR1中的強(qiáng)化學(xué)習(xí),到測(cè)試時(shí)的BestofN采樣,獎(jiǎng)勵(lì)信號(hào)不再只是訓(xùn)練噪聲的附屬,而是引領(lǐng)模型走向主動(dòng)學(xué)習(xí)的導(dǎo)航星標(biāo)。它使模型更貼近人類偏好、具備復(fù)雜推理能力,推動(dòng)邁向更通用、更智能、更可控的AI系統(tǒng)!本文是當(dāng)前最系統(tǒng)的LearningfromRewards綜述之一,全面梳理該范式在LLMs后訓(xùn)練(PostTr...
2025-05-23 06:41:48 748瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片論文:MorphMark:FlexibleAdaptiveWatermarkingforLargeLanguageModels鏈接:https:arxiv.orgabs2505.11541圖片一、研究背景隨著大型語(yǔ)言模型(LLMs)在自然語(yǔ)言生成領(lǐng)域的廣泛應(yīng)用,AI生成內(nèi)容的可追溯性和版權(quán)保護(hù)已成為亟待解決的核心問(wèn)題?;诩t綠表(RedGreenList)機(jī)制的水印技術(shù)應(yīng)運(yùn)而生,通過(guò)嵌入可檢測(cè)的獨(dú)特模式來(lái)區(qū)分AI生成內(nèi)容與人類創(chuàng)作內(nèi)容。然而,現(xiàn)有方法普遍面臨一個(gè)根本性矛盾:提升水印有效性往往導(dǎo)致...
2025-05-23 06:39:02 1267瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今日分享一篇羅格斯大學(xué)團(tuán)隊(duì)發(fā)現(xiàn)了大語(yǔ)言模型注意力機(jī)制的查詢(Q)和鍵(K)表示中存在非常集中的大值,并探討了這些極大值的應(yīng)用以及來(lái)源,該研究已經(jīng)被機(jī)器學(xué)習(xí)三大頂會(huì)之一ICML收錄.。這項(xiàng)研究揭示了大型語(yǔ)言模型中一個(gè)重要現(xiàn)象:在注意力機(jī)制的查詢(Q)和鍵(K)表示中存在集中的大值,而在值(V)表示中卻沒(méi)有這種模式。這一現(xiàn)象在使用旋轉(zhuǎn)位置編碼(RoPE)的現(xiàn)代Transformer模型中普遍存在。??四大核心發(fā)現(xiàn)1.極大值在Q和K中的特定...
2025-05-09 06:02:39 1128瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.Any2Caption:InterpretingAnyConditiontoCaptionforControllableVideoGeneration在視頻創(chuàng)作領(lǐng)域,如何精準(zhǔn)理解用戶需求一直是個(gè)難題。今天,我們帶來(lái)一項(xiàng)革命性突破——Any2Caption!這個(gè)全新框架讓視頻生成徹底告別"意難平",無(wú)論什么條件都能精準(zhǔn)把控創(chuàng)作方向。核心優(yōu)勢(shì):智能分離兩大步驟:先解析用戶需求,再生成視頻,避免"理解偏差"全能輸入支持:文字、圖片、視頻甚至專業(yè)參數(shù)(如鏡頭運(yùn)動(dòng)、拍攝角度)都能"聽(tīng)懂"AI大...
2025-04-24 07:26:36 1143瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.Qwen2.5OmniTechnicalReport我們?nèi)峦瞥鯭wen2.5Omni,一個(gè)能同時(shí)理解文字、圖片、聲音和視頻的"全能型"AI模型!它像人類一樣,不僅能看圖聽(tīng)聲,還能邊思考邊生成自然流暢的文本和語(yǔ)音回答。三大創(chuàng)新亮點(diǎn):1)同步感知:采用獨(dú)特的"交錯(cuò)處理"技術(shù),讓視頻畫(huà)面和音頻完美同步,配合創(chuàng)新的"時(shí)間對(duì)齊"算法,確保多模態(tài)信息精準(zhǔn)配合。2)雙軌生成:獨(dú)創(chuàng)"思考者說(shuō)話者"架構(gòu)——思考者:像超強(qiáng)大腦一樣生成文字內(nèi)容說(shuō)話者:根據(jù)思考...
2025-04-14 01:06:10 1774瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.LongContextAutoregressiveVideoModelingwithNextFramePrediction在語(yǔ)言生成領(lǐng)域,長(zhǎng)上下文自回歸模型已取得顯著進(jìn)展,但視頻生成卻一直難以有效利用長(zhǎng)時(shí)間序列信息。為解決這一難題,我們提出了一種名為FrameAutoRegressive的全新視頻生成方法。。FAR借鑒了語(yǔ)言模型逐幀學(xué)習(xí)的思路,通過(guò)捕捉視頻連續(xù)幀之間的時(shí)序因果關(guān)系,顯著提升了模型的收斂效率,表現(xiàn)優(yōu)于現(xiàn)有主流方法(如TokenAR和視頻擴(kuò)散模型)。然而,長(zhǎng)視頻生成仍...
2025-04-01 00:57:00 1620瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.TransformerswithoutNormalization在現(xiàn)代深度學(xué)習(xí)模型中,歸一化層幾乎成了標(biāo)配,大家普遍認(rèn)為不可或缺。但我們的研究發(fā)現(xiàn),其實(shí)不用歸一化層也能讓Transformer模型表現(xiàn)優(yōu)異——只需要一個(gè)簡(jiǎn)單的小技巧就夠了。我們提出的動(dòng)態(tài)雙曲正切函數(shù)(DyT),本質(zhì)上就是通過(guò)調(diào)整參數(shù)α來(lái)控制tanh函數(shù)的形狀(DyT(x)tanh(αx)),這個(gè)方法能完美替代歸一化層的功能。這靈感來(lái)自于Transformer中常用的層歸一化,它其實(shí)和tanh函數(shù)的S型曲線...
2025-03-20 07:32:59 2553瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.ProcessbasedSelfRewardingLanguageModels大型語(yǔ)言模型在各類下游任務(wù)中表現(xiàn)都很不錯(cuò),現(xiàn)在已經(jīng)在好多場(chǎng)景里廣泛應(yīng)用了。我們通過(guò)用人類標(biāo)注的偏好數(shù)據(jù)訓(xùn)練語(yǔ)言模型,讓它性能得到了進(jìn)一步提升。不過(guò),這種性能是受限于人類能力上限的。為了突破這個(gè)限制,有人提出了自獎(jiǎng)勵(lì)方法,就是讓語(yǔ)言模型自己給自己輸出的內(nèi)容獎(jiǎng)勵(lì),然后用這些獎(jiǎng)勵(lì)數(shù)據(jù)來(lái)訓(xùn)練。但現(xiàn)在已有的自獎(jiǎng)勵(lì)方法在數(shù)學(xué)推理場(chǎng)景中不太好用,弄不好還會(huì)讓模型性能變...
2025-03-07 11:20:21 1805瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.StepVideoT2VTechnicalReport:ThePractice,Challenges,andFutureofVideoFoundationModel我們提出了StepVideoT2V,這是個(gè)有300億參數(shù)的超厲害的文本到視頻預(yù)訓(xùn)練模型,它能生成有204幀那么長(zhǎng)的視頻內(nèi)容。為了做好視頻生成這個(gè)任務(wù),我們專門(mén)設(shè)計(jì)了一個(gè)深度壓縮變分自動(dòng)編碼器,也就是VideoVAE。它能把空間壓縮到16x16,時(shí)間上壓縮8倍,還能保證視頻重建的質(zhì)量非常高。。用戶要是輸入提示內(nèi)容,我們用兩個(gè)雙語(yǔ)文本編碼器來(lái)處理...
2025-02-18 13:41:43 2512瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.GoldmedalistPerformanceinSolvingOlympiadGeometrywithAlphaGeometry2我們推出了AlphaGeometry2,這是對(duì)Trinh等人在2024年提出的AlphaGeometry的重大改進(jìn)版本,如今它在解決奧林匹克幾何問(wèn)題方面的能力已經(jīng)超過(guò)了普通金牌得主。為了實(shí)現(xiàn)這一突破,我們首先對(duì)原有的AlphaGeometry語(yǔ)言進(jìn)行了擴(kuò)展,使其能夠處理涉及物體運(yùn)動(dòng)的更難題型,以及包含角度、比例和距離的線性方程的問(wèn)題。這些改進(jìn)以及其他新增內(nèi)容,顯著提高了AlphaG...
2025-02-10 12:03:05 2265瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.Kimik1.5:ScalingReinforcementLearningwithLLMs語(yǔ)言模型預(yù)訓(xùn)練時(shí),通過(guò)預(yù)測(cè)下一個(gè)詞來(lái)提升計(jì)算量的方法效果不錯(cuò),可訓(xùn)練數(shù)據(jù)量卻限制了它的進(jìn)一步發(fā)展。強(qiáng)化學(xué)習(xí)(RL)的拓展則為人工智能持續(xù)進(jìn)步提供了新途徑,讓大語(yǔ)言模型(LLMs)有機(jī)會(huì)通過(guò)學(xué)習(xí)探索擴(kuò)充訓(xùn)練數(shù)據(jù)。不過(guò),之前相關(guān)研究成果都不太理想,沒(méi)有特別突出的?;谶@樣的情況,我們來(lái)分享Kimik1.5的訓(xùn)練過(guò)程。這是我們新研發(fā)的多模態(tài)LLM,使用RL訓(xùn)練。我們會(huì)講講R...
2025-01-26 14:40:21 2242瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.算法介紹樸素貝葉斯是一種基于貝葉斯定理的分類算法,廣泛應(yīng)用于文本分類、垃圾郵件過(guò)濾、情感分析等領(lǐng)域。它是一種簡(jiǎn)單但非常有效的分類方法,特別適用于高維度特征空間的分類問(wèn)題。樸素貝葉斯分類器的"樸素"來(lái)源于它對(duì)特征之間獨(dú)立性的假設(shè)。盡管這個(gè)假設(shè)在現(xiàn)實(shí)中往往不成立,但該算法在許多實(shí)際應(yīng)用中仍然表現(xiàn)出色。2.算法原理3.案例分析我們使用著名的鳶尾花(Iris)數(shù)據(jù)集來(lái)演示樸素貝葉斯分類器的應(yīng)用。首先建立樸素貝葉斯分...
2025-01-16 12:17:39 1862瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.MiniMax01:ScalingFoundationModelswithLightningAttention我們推出了MiniMax01系列,包括MiniMaxText01和MiniMaxVL01。這兩款產(chǎn)品不僅性能可與頂尖模型相媲美,而且在處理更長(zhǎng)文本上下文方面具備卓越能力。其核心技術(shù)是LightningAttention及其高效的擴(kuò)展方法。為充分發(fā)揮計(jì)算能力,我們將其與混合專家(MoE)技術(shù)相結(jié)合,打造出擁有32個(gè)專家模塊、共計(jì)4560億參數(shù)的模型,每個(gè)Token激活459億參數(shù)。針對(duì)MoE和閃電注意力機(jī)制,...
2025-01-16 12:14:33 2614瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.PersonalizedGraphBasedRetrievalforLargeLanguageModels隨著大語(yǔ)言模型(LLMs)的演進(jìn),它們提供個(gè)性化和上下文相關(guān)響應(yīng)的能力具有改變用戶體驗(yàn)的潛力。然而,現(xiàn)有的個(gè)性化方法通常僅依賴用戶歷史來(lái)增強(qiáng)提示,這在冷啟動(dòng)場(chǎng)景或數(shù)據(jù)稀疏的情況下限制了其有效性。為了克服這些限制,我們提出了一種基于圖的個(gè)性化檢索增強(qiáng)生成(PGraphRAG)框架,該框架利用用戶中心的知識(shí)圖來(lái)豐富個(gè)性化。通過(guò)直接將結(jié)構(gòu)化的用戶知識(shí)融入檢索...
2025-01-08 13:04:30 2252瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
量化已成為壓縮大語(yǔ)言模型(LLMs)的最有效方法之一。然而,現(xiàn)有的量化方案仍然存在不可忽視的準(zhǔn)確性下降或系統(tǒng)效率低下的局限性。在本文中,我們?nèi)娣治隽肆炕囊话阍瓌t對(duì)準(zhǔn)確性、內(nèi)存消耗和系統(tǒng)效率三角關(guān)系的影響。我們提出了MixLLM,這是一種基于輸出特征之間的混合精度量化的方法。MixLLM從全局視角識(shí)別高顯著性的輸出特征,而非僅在單層內(nèi)部,有效地為最需要的輸出特征分配更大的位寬,從而在低內(nèi)存消耗的情況下實(shí)現(xiàn)良...
2024-12-30 13:03:29 2923瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.VidTok:AVersatileandOpenSourceVideoTokenizer將視頻內(nèi)容編碼為緊湊的潛在token已經(jīng)成為視頻生成和理解中的一個(gè)基本步驟,這是為了應(yīng)對(duì)像素級(jí)表示中固有的冗余問(wèn)題。因此,隨著以視頻為中心的研究日益重要,對(duì)高性能、開(kāi)源視頻token化工具的需求也在不斷增長(zhǎng)。我們推出了VidTok,這是一種多功能的視頻Tokenizer,在連續(xù)和離散token化方面都提供了最先進(jìn)的性能。VidTok相較于現(xiàn)有方法引入了幾個(gè)關(guān)鍵改進(jìn):模型架構(gòu)方面采用了...
2024-12-20 10:36:02 2568瀏覽 0點(diǎn)贊 0回復(fù) 0收藏