偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek爆火后的新Scaling Law究竟是什么? 原創(chuàng)

發(fā)布于 2025-3-14 11:17
瀏覽
0收藏

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

嘉賓 | 周博洋、魏新宇

采訪 | 薛彥澤

撰稿 | 李美涵

DeepSeek R1的發(fā)布在全球人工智能領(lǐng)域引發(fā)了巨大反響。這款由中國(guó)初創(chuàng)企業(yè)DeepSeek推出的低成本、高性能AI模型,打破了人們對(duì)AI研發(fā)“高投入、長(zhǎng)周期”的固有認(rèn)知,被西方媒體譽(yù)為“人工智能的斯普特尼克時(shí)刻”。

DeepSeek的“奇跡”有目共睹。其應(yīng)用上線僅20天,日活躍用戶數(shù)就突破了2000萬(wàn),而ChatGPT達(dá)到同樣的日活量則耗時(shí)150天之余。不僅如此,DeepSeek的開源路線也廣受好評(píng),R1成功登頂開源平臺(tái)“抱抱臉”最受歡迎模型,還以一己之力開啟了一波開源熱潮,影響不僅波及國(guó)內(nèi)模型廠商,還促使OpenAI的Altman也放出了開源計(jì)劃。

另一個(gè)近期AI圈的熱點(diǎn),則是千呼萬(wàn)喚始出來(lái)的GPT-4.5。在“大模型撞墻論”甚囂塵上之際,OpenAI官方承認(rèn),GPT-4.5的優(yōu)勢(shì)在于規(guī)模龐大,盡管模型參數(shù)量級(jí)擴(kuò)張,但性能并未達(dá)到前沿水平。這迫使我們正視:在AI領(lǐng)域,新的時(shí)代已經(jīng)開始。

為此,AIGC實(shí)戰(zhàn)派特別邀請(qǐng)了微軟(中國(guó))有限公司高級(jí)架構(gòu)師周博洋和AI技術(shù)專家魏新宇,就DeepSeek出現(xiàn)后值得關(guān)注的熱門話題進(jìn)行了深入討論和解讀。有趣的是,兩位專家達(dá)成了一個(gè)共識(shí):預(yù)訓(xùn)練時(shí)代并未終結(jié),然而,新的Scaling Law已經(jīng)誕生。

周博洋認(rèn)為,新的Scaling Law其實(shí)是“思考時(shí)間”,即模型思考的時(shí)間越久,給出的回答質(zhì)量就越佳。

魏新宇則提出,新Scaling Law的重點(diǎn)在于后訓(xùn)練的數(shù)據(jù)質(zhì)量和獎(jiǎng)勵(lì)模型的設(shè)計(jì)。誰(shuí)能在這些問(wèn)題上有所突破,誰(shuí)就找到了模型性能提升的第二曲線。

以下是訪談要點(diǎn):

?預(yù)訓(xùn)練時(shí)代的持續(xù):兩位專家一致認(rèn)為,預(yù)訓(xùn)練和微調(diào)仍然是模型學(xué)習(xí)知識(shí)的標(biāo)準(zhǔn)范式。盡管Scaling曲線不再陡峭,但方法本身仍然有效。

?新的Scaling Law:魏新宇認(rèn)為,新的Scaling Law將出現(xiàn)在訓(xùn)練數(shù)據(jù)和獎(jiǎng)勵(lì)模型的設(shè)計(jì)方面。他從獎(jiǎng)勵(lì)模型最常見的三種設(shè)計(jì)講起,揭秘了DeepSeek R1的獎(jiǎng)勵(lì)算法如何為模型打分。

?強(qiáng)化學(xué)習(xí)與推理能力:周博洋指出,強(qiáng)化學(xué)習(xí)之所以在出現(xiàn)很久后,才由R1走通了強(qiáng)推理的路徑,是因?yàn)榇饲盎A(chǔ)模型能力的局限性?!皼](méi)有CoT的能力,強(qiáng)化就沒(méi)有意義,因?yàn)閺?qiáng)化學(xué)習(xí)不是直接賦予模型推理能力,而是激發(fā)它潛在的推理能力。”

?小模型的強(qiáng)推理能力:魏新宇認(rèn)為,小模型擁有強(qiáng)推理能力的關(guān)鍵在于數(shù)據(jù)強(qiáng)化和訓(xùn)練方法的選擇。他以微軟的小模型明星Phi-4為例,給小模型的蒸餾和微調(diào)提出了一些建議。

?接入DeepSeek的建議:周博洋提供了清晰可行的建議:如果是為了業(yè)務(wù),就選最穩(wěn)的API;如果是日常使用,就選方便易用的。

?AI應(yīng)用新場(chǎng)景:魏新宇提到,R1的推理能力為AI應(yīng)用解鎖了新的場(chǎng)景,在教育、科研領(lǐng)域的潛力更大。推理意味著模型不僅能勝任現(xiàn)有知識(shí)的問(wèn)答,還能對(duì)未來(lái)趨勢(shì)做預(yù)測(cè),例如預(yù)測(cè)票房、股市等。

1.預(yù)訓(xùn)練時(shí)代終結(jié)了嗎?

薛彥澤: 第一個(gè)問(wèn)題,預(yù)訓(xùn)練時(shí)代終結(jié)了嗎?

魏新宇: 我的觀點(diǎn)是預(yù)訓(xùn)練并沒(méi)有結(jié)束,它依然是大模型的基礎(chǔ)。比如最近很火的DeepSeek R1,也是基于V3進(jìn)行強(qiáng)化學(xué)習(xí)的。預(yù)訓(xùn)練仍然是通用知識(shí)庫(kù)的來(lái)源,所以仍然是必要的。不過(guò),預(yù)訓(xùn)練會(huì)與后續(xù)的強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),優(yōu)化以前大規(guī)模消耗算力的預(yù)訓(xùn)練模式。因此不能說(shuō)預(yù)訓(xùn)練終結(jié),我認(rèn)為是一種范式的提升。

周博洋: 補(bǔ)充兩句,我覺(jué)得預(yù)訓(xùn)練和微調(diào)依然是模型學(xué)習(xí)知識(shí)的標(biāo)準(zhǔn)范式。

首先,預(yù)訓(xùn)練和監(jiān)督微調(diào)是模型理解知識(shí)本源的關(guān)鍵步驟。我們會(huì)給模型各種數(shù)據(jù),比如互聯(lián)網(wǎng)數(shù)據(jù)、特定領(lǐng)域的數(shù)據(jù)比如MATH-500等等,目的是讓模型理解語(yǔ)義,繼而懂得Token之間的關(guān)聯(lián)性。傳統(tǒng)上,預(yù)訓(xùn)練主要是讓模型學(xué)會(huì)續(xù)寫和理解語(yǔ)言的邏輯,而微調(diào)則是讓模型生成符合人類習(xí)慣和規(guī)范的文本。

從GPT-3開始,強(qiáng)化學(xué)習(xí)被引入,最初是為了讓模型對(duì)齊人類價(jià)值觀,比如避免偏見、暴力等不良內(nèi)容。但在訓(xùn)練的過(guò)程中,逐漸發(fā)現(xiàn)了強(qiáng)化學(xué)習(xí)在推理領(lǐng)域的潛力。

至于預(yù)訓(xùn)練是否終結(jié),我覺(jué)得現(xiàn)在討論還為時(shí)尚早。雖然Scaling的曲線沒(méi)有那么陡峭了,大家也從強(qiáng)化學(xué)習(xí)等其他方向,探索提升能力的路徑。但是預(yù)訓(xùn)練本身仍然有效。

薛彥澤: 那目前Scaling Law的瓶頸怎么突破呢?

周博洋: 還是從兩個(gè)維度來(lái)看。

第一個(gè)維度是算力和模型參數(shù)的關(guān)系。在固定的算力體系下,模型參數(shù)和token數(shù)量的關(guān)系是關(guān)鍵。比如,現(xiàn)在有些模型已經(jīng)接近Scaling Law的極限,但如果能突破這個(gè)限制,比如把70B參數(shù)的模型和1.4T的數(shù)據(jù)放大十倍,就會(huì)變成700B參數(shù)和14T的數(shù)據(jù),這其實(shí)已經(jīng)接近一些現(xiàn)有大模型的規(guī)模了。不過(guò),像DeepMind這樣的研究機(jī)構(gòu)可能覺(jué)得已經(jīng)達(dá)到算力上限了,但OpenAI的模型成長(zhǎng)速度其實(shí)還能更快。因?yàn)楝F(xiàn)在更受限于多卡互聯(lián)訓(xùn)練時(shí)的通信損耗,比如馬斯克提到的十萬(wàn)卡訓(xùn)練,效率低主要是因?yàn)橥ㄐ艙p耗。所以,未來(lái)可能需要在算力優(yōu)化和通信效率上做更多工作。

第二個(gè)維度是數(shù)據(jù)的獲取和利用。現(xiàn)在很多人認(rèn)為數(shù)據(jù)挖掘已經(jīng)到底了。但我們忽略了99%的數(shù)據(jù)其實(shí)不在集中數(shù)據(jù)里,而是分散在端側(cè)設(shè)備上,這些數(shù)據(jù)可能因?yàn)榘踩珕?wèn)題無(wú)法聯(lián)網(wǎng),價(jià)值也沒(méi)被挖掘,這可能是突破Scaling Law瓶頸的一個(gè)方向。

2.后訓(xùn)練、推理語(yǔ)境下的新Scaling Law究竟是什么?

薛彥澤: 后訓(xùn)練、推理語(yǔ)境下的新Scaling Law究竟是什么?

周博洋:我覺(jué)得后訓(xùn)練和推理語(yǔ)境下的新Scaling Law其實(shí)跟“思考時(shí)間”有關(guān)。思維鏈的產(chǎn)生和我的偶像Donald Norman有關(guān),他在大學(xué)癡迷玩德國(guó)撲克,這個(gè)游戲就是思考的事件越長(zhǎng),獲勝概率才會(huì)更高。這跟Alpha Go有點(diǎn)像,它們會(huì)花很長(zhǎng)時(shí)間思考,最終戰(zhàn)勝人類。人類大腦也有快思考和慢思考,簡(jiǎn)單的事情比如約喝咖啡,很快就能決定;但復(fù)雜的事情比如討論算法,就需要很多中間步驟和時(shí)間。

魏新宇: 我覺(jué)得后訓(xùn)練和推理語(yǔ)境下的新Scaling Law,重點(diǎn)在于后訓(xùn)練的數(shù)據(jù)質(zhì)量和獎(jiǎng)勵(lì)模型的設(shè)計(jì)。以前是靠增加模型參數(shù)和數(shù)據(jù)量來(lái)提升性能,但現(xiàn)在更多是看怎么優(yōu)化后訓(xùn)練階段。

現(xiàn)在強(qiáng)化學(xué)習(xí)領(lǐng)域,獎(jiǎng)勵(lì)模型的設(shè)計(jì)也很重要。相當(dāng)于給模型的答案打分,判斷是否符合人類標(biāo)準(zhǔn)。獎(jiǎng)勵(lì)方式大概有三種:1. 直接打分:只看答案是否正確來(lái)打分;2. 多步驟打分:結(jié)合推理步驟和結(jié)果一起打分;3. 全步驟打分:每一步都打分,理論上效果最好,但很復(fù)雜,實(shí)際很難完全實(shí)現(xiàn)。

像DeepSeek的話,獎(jiǎng)勵(lì)模型還會(huì)基于一些規(guī)則進(jìn)行打分,比如推理問(wèn)題和非推理的問(wèn)題打分規(guī)則各有側(cè)重。比如訓(xùn)練醫(yī)學(xué)問(wèn)題時(shí),獎(jiǎng)勵(lì)模型會(huì)根據(jù)答案是否正確、正確答案出現(xiàn)的次序位置等因素打分,正確答案越靠前,分?jǐn)?shù)越高。

薛彥澤: OpenAI宣布從GPT-5開始就做基礎(chǔ)模型和推理模型的混合模型了,那么,后訓(xùn)練會(huì)推動(dòng)模型的架構(gòu)進(jìn)行變革嗎?

周博洋: 首先,任何架構(gòu)的模型都可以做推理。我覺(jué)得后訓(xùn)練可能會(huì)推動(dòng)模型架構(gòu)的變革,但目前的核心還是提升效率,而不是徹底改變模型的本質(zhì)。

從模型架構(gòu)的改進(jìn)來(lái)看,比如DeepSeek V3模型使用的MoE技術(shù),MoE把模型的FFN層或MLP層變大,理論上能讓模型更好地學(xué)習(xí)語(yǔ)義,從而提升性能。但問(wèn)題在于,如果模型太大,推理時(shí)會(huì)面臨顯存占用過(guò)高的問(wèn)題。因?yàn)橥评頃r(shí)模型的參數(shù)是固定的,傳統(tǒng)模型會(huì)激活所有神經(jīng)元,即使有些神經(jīng)元在推理時(shí)并不需要,這就會(huì)浪費(fèi)顯存。

為了解決這個(gè)問(wèn)題,MoE技術(shù)在訓(xùn)練時(shí)只激活部分“專家”(即MLP子模塊),而不是全部。這樣可以提高效率,但訓(xùn)練難度也增加了。比如,Llama 3.1模型被認(rèn)為是MoE模型,但它的訓(xùn)練者也承認(rèn)MoE模型很難訓(xùn)練充分,因?yàn)楹茈y確定哪些專家在推理時(shí)真正起作用。

DeepSeek V3模型通過(guò)一些函數(shù)強(qiáng)制實(shí)現(xiàn)負(fù)載均衡,確保所有專家都能被訓(xùn)練到,這樣MoE技術(shù)才能真正發(fā)揮作用。但目前來(lái)看,這些改進(jìn)的核心還是為了提高效率,而不是徹底改變模型的推理方式。模型的變革可能還在路上,目前的重點(diǎn)是讓現(xiàn)有架構(gòu)更好地支持推理和后訓(xùn)練。

3.OpenAl o1、o3模型都免費(fèi)了DeepSeek R1還有優(yōu)勢(shì)嗎?

薛彥澤: OpenAl o1、o3模型都免費(fèi)了DeepSeek R1還有優(yōu)勢(shì)嗎?沿著這個(gè)思路,我們還想了解兩個(gè)開源或者說(shuō)免費(fèi)的模型,究竟應(yīng)該如何比較?DeepSeek的核心優(yōu)勢(shì)在哪里?

魏新宇: 我覺(jué)得DeepSeek R1還是有優(yōu)勢(shì)的,即使OpenAI的o1、o3模型免費(fèi)了。首先,免費(fèi)模型雖然開源,但不一定能滿足所有定制化需求。比如DeepSeek R1雖然模型較大,有600多B,部署需要近1T顯存,但它的推理能力很強(qiáng),而且在特定領(lǐng)域,比如金融行業(yè),可以通過(guò)蒸餾或微調(diào)來(lái)優(yōu)化,讓模型更小、推理速度更快。因?yàn)閺氖褂皿w驗(yàn)看,R1、o3模型有時(shí)候推理一個(gè)問(wèn)題需要長(zhǎng)達(dá)十幾秒甚至更久,這在生產(chǎn)環(huán)境中可能難以接受。

其次,企業(yè)對(duì)數(shù)據(jù)安全和合規(guī)性有很高要求。DeepSeek R1可以通過(guò)特定手段確保模型的回答符合人類價(jià)值觀和當(dāng)?shù)胤ㄒ?guī),比如在中東國(guó)家避免涉及某些敏感話題。而開源模型在這方面可能需要額外的定制和優(yōu)化。

再者,推理效率和高可用性也是關(guān)鍵。DeepSeek R1在推理過(guò)程中采用了諸如MLA技術(shù)等優(yōu)化手段,通過(guò)低秩聯(lián)合壓縮等方式節(jié)省顯存,提升推理速度。尤其是蒸餾以后,去做垂域模型,比全量模型更適合大規(guī)模商業(yè)化部署。

所以,開源或免費(fèi)模型的優(yōu)勢(shì)在于成本低、易獲取,但DeepSeek R1的核心優(yōu)勢(shì)在于推理效率、定制化能力、數(shù)據(jù)安全性和高可用性。

薛彥澤:DS的橫空出現(xiàn),會(huì)不會(huì)改變國(guó)內(nèi)互聯(lián)網(wǎng)的競(jìng)爭(zhēng)格局?

魏新宇:從技術(shù)人員的角度來(lái)看,我覺(jué)得DeepSeek的出現(xiàn)肯定會(huì)對(duì)國(guó)內(nèi)模型的競(jìng)爭(zhēng)格局產(chǎn)生影響,但最終的競(jìng)爭(zhēng)還是會(huì)落到整體生態(tài)上?,F(xiàn)在國(guó)內(nèi)AI市場(chǎng)競(jìng)爭(zhēng)很激烈,大家都在推各種模型,但模型之間的能力差距其實(shí)并沒(méi)有那么大。比如,R1可能比其他模型強(qiáng)一些,但并不是說(shuō)它比其他模型高出一大截,大家的能力其實(shí)都差不多。

關(guān)鍵在于,企業(yè)有沒(méi)有自己固有的客戶流量或生態(tài)。比如微信接入DS后,可以基于自己的生態(tài)推動(dòng)應(yīng)用;百度也可以通過(guò)地圖等業(yè)務(wù),基于模型做附加值的東西。谷歌和微軟也是一樣,谷歌的Gemini有YouTube和其他工具,微軟有自己的辦公軟件生態(tài),這些都是它們的優(yōu)勢(shì)。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-3-14 14:10:25修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄