ThinkingMachines,一家成立不久便震驚硅谷的AI公司。它由前OpenAICTOMira和聯(lián)合創(chuàng)始人JohnSchulman共同創(chuàng)立,團(tuán)隊匯集了大量來自O(shè)penAI的核心人才。他們繼承了80年代傳奇AI超算公司“ThinkingMachines”之名,志在進(jìn)行最根本、最前沿的AI探索。來自ThinkingMachines的最新研究《LoRAWithoutRegret》深入探討了參數(shù)高效微調(diào)(PEFT)的領(lǐng)先方法——低秩適應(yīng)(LoRA),并得出結(jié)論:在特定條件下,LoRA的性能可以完全媲美甚至超越...
2025-10-15 00:24:40 977瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
果然是假期之前愛“搞事”,還有兩天就國慶了,DeepSeek放出了DeepSeekV3.2Exp。相比之前的版本,主要創(chuàng)新是引入了一種稀疏注意力機(jī)制DSA(DeepSeekSparseAttention)。官方的TechReport比較宏觀,對細(xì)節(jié)描述不多。好在DeepSeek今天也開源模型推理源代碼,我認(rèn)真看了一下,做了一點(diǎn)實驗,分享記錄DSA的一些技術(shù)原理和細(xì)節(jié)。為什么大模型害怕“長篇大論”?想象一下你走進(jìn)一個上百人的聚會,為了不錯過任何重要信息,你需要聽清...
2025-10-15 00:16:38 1835瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家可能聽說過(希望沒有感受過)“超級細(xì)菌”感染的可怕。幾年前,我的一個同事講述其父親在一個有淤泥的池塘里不小心劃傷了腿,最終演變成了對多種抗生素都耐藥的“超級細(xì)菌”感染。老人因此被送進(jìn)ICU,與死神搏斗了數(shù)周,經(jīng)歷了巨大的煎熬,最終吉人天相。但那段經(jīng)歷的兇險,應(yīng)該會讓身邊的人至今心有余悸。這個故事,正是我們這個時代正面臨的一場危機(jī)的縮影:抗生素耐藥性。曾被視為醫(yī)學(xué)奇跡的抗生素(如青霉素),正逐漸...
2025-08-26 07:07:25 1303瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在大型語言模型(LLM)的強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域,一個很有潛力的方向是利用可驗證的獎勵(VerifiableRewards)進(jìn)行模型優(yōu)化,即RLVR。傳統(tǒng)的強(qiáng)化學(xué)習(xí)依賴于人類反饋(RLHF)或者一個專屬的價值模型(ValueModel),這可能主觀又昂貴。而RLVR通過程序化的、客觀的獎勵函數(shù)來指導(dǎo)模型學(xué)習(xí),例如,在數(shù)學(xué)問題上,答案是否正確是可以通過計算驗證的。這種方法為我們提供了一條更高效、可擴(kuò)展的路徑,來增強(qiáng)模型的推理等復(fù)雜能力。在RLV...
2025-08-26 06:42:39 3969瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大模型在服務(wù)時的能源消耗一直備受關(guān)注,但具體的能耗數(shù)據(jù),尤其是來自頭部公司的數(shù)據(jù),長期處于未知狀態(tài)。這兩天,Google發(fā)布了一篇研究論文,首次系統(tǒng)性地披露了其Gemini大模型在真實生產(chǎn)環(huán)境中,與用戶聊一次(也就是響應(yīng)一次用戶提示,即常說的Prompt)的能源消耗——約0.24瓦時(Wh)。為了讓這個數(shù)字更具實感,論文將其與日?;顒舆M(jìn)行了對比:這大致相當(dāng)于一臺現(xiàn)代電視機(jī)播放9秒,或是一臺家用微波爐運(yùn)行1秒所消耗的電能,...
2025-08-26 06:40:26 1417瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
OpenAI終于打破了自GPT2以來長達(dá)六年多的沉寂,再次擁抱開源社區(qū),發(fā)布了兩個全新的開放權(quán)重模型:gptoss120b和gptoss20b。在AI社區(qū)激起了千層浪。畢竟,上一個來自O(shè)penAI的開源模型GPT2,幾乎以一己之力點(diǎn)燃了全球開發(fā)者對大語言模型的熱情。我花了點(diǎn)時間研究它之后(源代碼和模型權(quán)重URL參考末尾附錄),有點(diǎn)驚喜,但也有一點(diǎn)失望。驚喜的是,OpenAI確實兌現(xiàn)了承諾,并且模型在特定硬件上的高效表現(xiàn)令人印象深刻;失望的是,...
2025-08-13 06:30:44 2392瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
剛剛過去的幾天,科技圈和數(shù)學(xué)界因2025年的國際數(shù)學(xué)奧林匹克競賽(IMO)而異常熱鬧。首先,讓我們?yōu)檎嬲墓谲?mdash;—中國隊——獻(xiàn)上最熱烈的祝賀!六名隊員以絕對優(yōu)勢再次為中國捧回團(tuán)體總分第一的桂冠,基本上可以說咱中國人的智商碾壓全世界,作為中國人,咱們倍感驕傲與自豪。然而,在這場人類智慧的巔峰對決之外,另一場關(guān)于人工智能(AI)的“競賽”也賺足了眼球。先是OpenAI略帶尷尬地宣布其模型達(dá)到“金牌水平”,后又被指...
2025-07-28 00:52:30 2855瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在大語言模型(LLM)的進(jìn)化之路上,我們熟知兩大基石:預(yù)訓(xùn)練,如同海量知識的灌輸,讓模型博聞強(qiáng)識;微調(diào)(無論是監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí)),則更像行為塑造,教會模型如何“得體”地回應(yīng),比如習(xí)得特定的對話風(fēng)格。這兩種方式,都在潛移默化中改變著模型的“內(nèi)在記憶”——也就是那些神經(jīng)網(wǎng)絡(luò)的參數(shù)。一種LLM缺失的重要學(xué)習(xí)方式——“系統(tǒng)提示學(xué)習(xí)”?反觀人類的學(xué)習(xí),似乎還存在一種更為直接、更為“顯性”的模式。想象一下,...
2025-07-07 07:34:59 1751瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
這兩天重讀了一篇很有趣的論文,《Effectoftheinitialconfigurationofweightsonthetrainingandfunctionofartificialneuralnetworks》(https:arxiv.orgpdf2012.02550)。它非常直白的展示了人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的初始權(quán)重配置對網(wǎng)絡(luò)功能和性能的影響。通俗來講,神經(jīng)網(wǎng)絡(luò)就像是一臺復(fù)雜的機(jī)器,它內(nèi)部有很多“開關(guān)”(也就是權(quán)重),這些開關(guān)從一開始就有隨機(jī)的初始設(shè)置。在訓(xùn)練過程中,這些開關(guān)的設(shè)置會一點(diǎn)一點(diǎn)調(diào)整,目標(biāo)...
2025-06-23 07:28:16 1405瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
想象一下,一種專門為某個人量身打造的藥物,能夠精確修復(fù)他體內(nèi)導(dǎo)致疾病的那個小小的基因“印刷錯誤”。這聽起來像是科幻小說里的情節(jié),但如今,它正悄然照進(jìn)現(xiàn)實。最近,一名叫KJ的嬰兒成為了這個醫(yī)學(xué)奇跡的主角。他患有一種罕見的遺傳性肝臟疾病,由于基因突變,身體無法正常分解蛋白質(zhì),導(dǎo)致有毒物質(zhì)氨在體內(nèi)累積,嚴(yán)重威脅著他的大腦發(fā)育和生命健康。傳統(tǒng)的治療方法對于KJ這樣嚴(yán)重的病例往往效果有限,預(yù)后不佳。然而,來...
2025-06-10 06:59:33 1949瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在大語言模型(LLM)的進(jìn)化之路上,我們熟知兩大基石:預(yù)訓(xùn)練,如同海量知識的灌輸,讓模型博聞強(qiáng)識;微調(diào)(無論是監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí)),則更像行為塑造,教會模型如何“得體”地回應(yīng),比如習(xí)得特定的對話風(fēng)格。這兩種方式,都在潛移默化中改變著模型的“內(nèi)在記憶”——也就是那些神經(jīng)網(wǎng)絡(luò)的參數(shù)。一種LLM缺失的重要學(xué)習(xí)方式——“系統(tǒng)提示學(xué)習(xí)”?反觀人類的學(xué)習(xí),似乎還存在一種更為直接、更為“顯性”的模式。想象一下,...
2025-05-28 06:22:20 2725瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
已有的大模型能否通過PromptEngineering達(dá)到O1類似的推理水平?我見過很多嘗試,在個別案例上有觀察到驚艷的推理效果,但大多沒有普遍提升已有大模型的推理能力。今天看到這個方法,感覺是通過PromptEngineering可以有效普遍提升大模型的推理能力。以下就是那個MagicPrompt,先睹為快。作者準(zhǔn)備了50道需要長推理過程的問題,分別測試幾種場景:ClaudeSonnet+上述PromptClauseSonnetLlama3.18B+上述PromptLlama3.18BChatGPT4o+上...
2025-05-14 06:55:34 1865瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大語言模型(LLM)的飛速發(fā)展正深刻改變著我們與信息和技術(shù)交互的方式(想想大家有多久不用傳統(tǒng)搜索引擎了)。它們展現(xiàn)出的能力令人矚目,但要驅(qū)動它們超越模仿,在復(fù)雜推理、規(guī)劃和解決未知問題等層面達(dá)到更高的“智能”水平,傳統(tǒng)的預(yù)訓(xùn)練(Pretrain)和監(jiān)督微調(diào)(SFT)范式顯得力有不逮。強(qiáng)化學(xué)習(xí)(RL),特別是結(jié)合人類或規(guī)則反饋的RLHFRL,已成為關(guān)鍵的引擎,推動LLM智能向更高層級躍遷。RL的核心在于賦予模型一種“目標(biāo)導(dǎo)...
2025-04-28 00:25:51 3478瀏覽 1點(diǎn)贊 0回復(fù) 1收藏
人工智能(AI)快速發(fā)展,模型訓(xùn)練是核心環(huán)節(jié),優(yōu)化器扮演著至關(guān)重要的角色,它負(fù)責(zé)調(diào)整模型的參數(shù),讓模型在數(shù)據(jù)上表現(xiàn)得更好。多年來,AdamW優(yōu)化器一直是優(yōu)化器的標(biāo)桿,因其穩(wěn)定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規(guī)模的不斷擴(kuò)大,訓(xùn)練成本和時間的需求也在激增,這讓人們開始尋找更高效的優(yōu)化方法。近期,一種名為Muon的優(yōu)化器算法悄然出現(xiàn)(源代碼????https:github.comKellerJordanMuon????),...
2025-04-17 06:40:28 3053瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
DeepSeekR1在數(shù)學(xué)推理、問題解決等復(fù)雜任務(wù)上的表現(xiàn)令全世界矚目。它在AIME2024等高難度數(shù)學(xué)測試中取得了79.8分好成績(OpenAIo11217得分79.2)。而這一切的背后,有一個關(guān)鍵技術(shù)功不可沒——GroupRelativePolicyOptimization(GRPO),一種基于強(qiáng)化學(xué)習(xí)的優(yōu)化算法。盡管GRPO教會R1高智商推理,但有研究人員發(fā)現(xiàn),它存在一些缺陷,比如它會導(dǎo)致模型生成冗長的錯誤回答,或者更傾向于解決簡單問題而忽略難題。大家在用DeepSeekR1...
2025-04-07 00:08:13 4222瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
開源世界的期待與漣漪人工智能的浪潮奔涌向前,Meta的Llama系列一直扮演著特殊的角色。回想Llama2的橫空出世和開源姿態(tài),極大地降低了高性能大模型的門檻,在全球范圍內(nèi)點(diǎn)燃了研究和應(yīng)用的熱情,催生了無數(shù)創(chuàng)新,其影響力至今仍在激蕩。相較之下,Llama3的發(fā)布雖然帶來了性能提升,但在社區(qū)看來,似乎少了些Llama2那樣的顛覆性震撼,更像是一次穩(wěn)健但略顯保守的迭代。在這樣的背景下,Llama4的發(fā)布承載了社區(qū)極高的期待。4月6日...
2025-04-07 00:04:09 3234瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
人工智能(AI)快速發(fā)展,模型訓(xùn)練是核心環(huán)節(jié),優(yōu)化器扮演著至關(guān)重要的角色,它負(fù)責(zé)調(diào)整模型的參數(shù),讓模型在數(shù)據(jù)上表現(xiàn)得更好。多年來,AdamW優(yōu)化器一直是優(yōu)化器的標(biāo)桿,因其穩(wěn)定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規(guī)模的不斷擴(kuò)大,訓(xùn)練成本和時間的需求也在激增,這讓人們開始尋找更高效的優(yōu)化方法。近期,一種名為Muon的優(yōu)化器算法悄然出現(xiàn)(源代碼????https:github.comKellerJordanMuon????),...
2025-03-25 00:43:07 5123瀏覽 0點(diǎn)贊 0回復(fù) 1收藏
2月28日OpenAI發(fā)布了GPT4.5,OpenAI稱這是其迄今為止最大的預(yù)訓(xùn)練模型。我有點(diǎn)期待GPT4.5會帶來令人振奮的突破。然而,從官方披露的信息以及實際表現(xiàn)來看,GPT4.5沒有展現(xiàn)出超越前代模型的顯著優(yōu)勢。有點(diǎn)“強(qiáng)弩之末”的感覺??赡茉俅悟炞C了業(yè)界比較廣泛的認(rèn)知:“單純擴(kuò)大模型參數(shù)規(guī)模,對性能提升的邊際效應(yīng)正在遞減”。接下來分幾個章節(jié),談?wù)勎业母惺?。期待與現(xiàn)實的落差GPT4.5被OpenAI定位為“ourlargestandbestmodelforcha...
2025-03-13 06:57:59 5965瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老師在教一個學(xué)生寫作文。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法(比如PPO)會給學(xué)生的每一句話打分,告訴他這句好,那句不好。但GRPO不這么做,它更像是一位“佛系”老師:不看過程,看結(jié)果:GRPO不會逐句指導(dǎo)學(xué)生,而是讓學(xué)生一口氣寫完幾篇不同的作文(一組作文)。幾篇作文一起比較:然后,老師把這幾篇作文放在一起比較,根據(jù)一個預(yù)先定好的規(guī)則(基于規(guī)則的獎勵模型),評判...
2025-02-28 12:15:57 8718瀏覽 0點(diǎn)贊 0回復(fù) 0收藏