這兩天重讀了一篇很有趣的論文,《Effectoftheinitialconfigurationofweightsonthetrainingandfunctionofartificialneuralnetworks》(https:arxiv.orgpdf2012.02550)。它非常直白的展示了人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的初始權(quán)重配置對(duì)網(wǎng)絡(luò)功能和性能的影響。通俗來講,神經(jīng)網(wǎng)絡(luò)就像是一臺(tái)復(fù)雜的機(jī)器,它內(nèi)部有很多“開關(guān)”(也就是權(quán)重),這些開關(guān)從一開始就有隨機(jī)的初始設(shè)置。在訓(xùn)練過程中,這些開關(guān)的設(shè)置會(huì)一點(diǎn)一點(diǎn)調(diào)整,目標(biāo)...
2025-06-23 07:28:16 478瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
想象一下,一種專門為某個(gè)人量身打造的藥物,能夠精確修復(fù)他體內(nèi)導(dǎo)致疾病的那個(gè)小小的基因“印刷錯(cuò)誤”。這聽起來像是科幻小說里的情節(jié),但如今,它正悄然照進(jìn)現(xiàn)實(shí)。最近,一名叫KJ的嬰兒成為了這個(gè)醫(yī)學(xué)奇跡的主角。他患有一種罕見的遺傳性肝臟疾病,由于基因突變,身體無法正常分解蛋白質(zhì),導(dǎo)致有毒物質(zhì)氨在體內(nèi)累積,嚴(yán)重威脅著他的大腦發(fā)育和生命健康。傳統(tǒng)的治療方法對(duì)于KJ這樣嚴(yán)重的病例往往效果有限,預(yù)后不佳。然而,來...
2025-06-10 06:59:33 732瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在大語言模型(LLM)的進(jìn)化之路上,我們熟知兩大基石:預(yù)訓(xùn)練,如同海量知識(shí)的灌輸,讓模型博聞強(qiáng)識(shí);微調(diào)(無論是監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí)),則更像行為塑造,教會(huì)模型如何“得體”地回應(yīng),比如習(xí)得特定的對(duì)話風(fēng)格。這兩種方式,都在潛移默化中改變著模型的“內(nèi)在記憶”——也就是那些神經(jīng)網(wǎng)絡(luò)的參數(shù)。一種LLM缺失的重要學(xué)習(xí)方式——“系統(tǒng)提示學(xué)習(xí)”?反觀人類的學(xué)習(xí),似乎還存在一種更為直接、更為“顯性”的模式。想象一下,...
2025-05-28 06:22:20 660瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
已有的大模型能否通過PromptEngineering達(dá)到O1類似的推理水平?我見過很多嘗試,在個(gè)別案例上有觀察到驚艷的推理效果,但大多沒有普遍提升已有大模型的推理能力。今天看到這個(gè)方法,感覺是通過PromptEngineering可以有效普遍提升大模型的推理能力。以下就是那個(gè)MagicPrompt,先睹為快。作者準(zhǔn)備了50道需要長推理過程的問題,分別測(cè)試幾種場(chǎng)景:ClaudeSonnet+上述PromptClauseSonnetLlama3.18B+上述PromptLlama3.18BChatGPT4o+上...
2025-05-14 06:55:34 691瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大語言模型(LLM)的飛速發(fā)展正深刻改變著我們與信息和技術(shù)交互的方式(想想大家有多久不用傳統(tǒng)搜索引擎了)。它們展現(xiàn)出的能力令人矚目,但要驅(qū)動(dòng)它們超越模仿,在復(fù)雜推理、規(guī)劃和解決未知問題等層面達(dá)到更高的“智能”水平,傳統(tǒng)的預(yù)訓(xùn)練(Pretrain)和監(jiān)督微調(diào)(SFT)范式顯得力有不逮。強(qiáng)化學(xué)習(xí)(RL),特別是結(jié)合人類或規(guī)則反饋的RLHFRL,已成為關(guān)鍵的引擎,推動(dòng)LLM智能向更高層級(jí)躍遷。RL的核心在于賦予模型一種“目標(biāo)導(dǎo)...
2025-04-28 00:25:51 1240瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
人工智能(AI)快速發(fā)展,模型訓(xùn)練是核心環(huán)節(jié),優(yōu)化器扮演著至關(guān)重要的角色,它負(fù)責(zé)調(diào)整模型的參數(shù),讓模型在數(shù)據(jù)上表現(xiàn)得更好。多年來,AdamW優(yōu)化器一直是優(yōu)化器的標(biāo)桿,因其穩(wěn)定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規(guī)模的不斷擴(kuò)大,訓(xùn)練成本和時(shí)間的需求也在激增,這讓人們開始尋找更高效的優(yōu)化方法。近期,一種名為Muon的優(yōu)化器算法悄然出現(xiàn)(源代碼????https:github.comKellerJordanMuon????),...
2025-04-17 06:40:28 1292瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
DeepSeekR1在數(shù)學(xué)推理、問題解決等復(fù)雜任務(wù)上的表現(xiàn)令全世界矚目。它在AIME2024等高難度數(shù)學(xué)測(cè)試中取得了79.8分好成績(OpenAIo11217得分79.2)。而這一切的背后,有一個(gè)關(guān)鍵技術(shù)功不可沒——GroupRelativePolicyOptimization(GRPO),一種基于強(qiáng)化學(xué)習(xí)的優(yōu)化算法。盡管GRPO教會(huì)R1高智商推理,但有研究人員發(fā)現(xiàn),它存在一些缺陷,比如它會(huì)導(dǎo)致模型生成冗長的錯(cuò)誤回答,或者更傾向于解決簡單問題而忽略難題。大家在用DeepSeekR1...
2025-04-07 00:08:13 2188瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
開源世界的期待與漣漪人工智能的浪潮奔涌向前,Meta的Llama系列一直扮演著特殊的角色?;叵隠lama2的橫空出世和開源姿態(tài),極大地降低了高性能大模型的門檻,在全球范圍內(nèi)點(diǎn)燃了研究和應(yīng)用的熱情,催生了無數(shù)創(chuàng)新,其影響力至今仍在激蕩。相較之下,Llama3的發(fā)布雖然帶來了性能提升,但在社區(qū)看來,似乎少了些Llama2那樣的顛覆性震撼,更像是一次穩(wěn)健但略顯保守的迭代。在這樣的背景下,Llama4的發(fā)布承載了社區(qū)極高的期待。4月6日...
2025-04-07 00:04:09 1813瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
人工智能(AI)快速發(fā)展,模型訓(xùn)練是核心環(huán)節(jié),優(yōu)化器扮演著至關(guān)重要的角色,它負(fù)責(zé)調(diào)整模型的參數(shù),讓模型在數(shù)據(jù)上表現(xiàn)得更好。多年來,AdamW優(yōu)化器一直是優(yōu)化器的標(biāo)桿,因其穩(wěn)定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規(guī)模的不斷擴(kuò)大,訓(xùn)練成本和時(shí)間的需求也在激增,這讓人們開始尋找更高效的優(yōu)化方法。近期,一種名為Muon的優(yōu)化器算法悄然出現(xiàn)(源代碼????https:github.comKellerJordanMuon????),...
2025-03-25 00:43:07 2116瀏覽 0點(diǎn)贊 0回復(fù) 1收藏
2月28日OpenAI發(fā)布了GPT4.5,OpenAI稱這是其迄今為止最大的預(yù)訓(xùn)練模型。我有點(diǎn)期待GPT4.5會(huì)帶來令人振奮的突破。然而,從官方披露的信息以及實(shí)際表現(xiàn)來看,GPT4.5沒有展現(xiàn)出超越前代模型的顯著優(yōu)勢(shì)。有點(diǎn)“強(qiáng)弩之末”的感覺。可能再次驗(yàn)證了業(yè)界比較廣泛的認(rèn)知:“單純擴(kuò)大模型參數(shù)規(guī)模,對(duì)性能提升的邊際效應(yīng)正在遞減”。接下來分幾個(gè)章節(jié),談?wù)勎业母惺?。期待與現(xiàn)實(shí)的落差GPT4.5被OpenAI定位為“ourlargestandbestmodelforcha...
2025-03-13 06:57:59 2986瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老師在教一個(gè)學(xué)生寫作文。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法(比如PPO)會(huì)給學(xué)生的每一句話打分,告訴他這句好,那句不好。但GRPO不這么做,它更像是一位“佛系”老師:不看過程,看結(jié)果:GRPO不會(huì)逐句指導(dǎo)學(xué)生,而是讓學(xué)生一口氣寫完幾篇不同的作文(一組作文)。幾篇作文一起比較:然后,老師把這幾篇作文放在一起比較,根據(jù)一個(gè)預(yù)先定好的規(guī)則(基于規(guī)則的獎(jiǎng)勵(lì)模型),評(píng)判...
2025-02-28 12:15:57 4078瀏覽 0點(diǎn)贊 0回復(fù) 0收藏