偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

鯰魚效應(yīng):DeepSeek打開了AI大模型新序幕,未來(lái)大模型技術(shù)的方向選擇

發(fā)布于 2025-5-29 06:12
瀏覽
0收藏

從2024年12月份DeepSeek發(fā)布了DeepSeek V3開始,整個(gè)AI圈內(nèi)就掀起了一波技術(shù)創(chuàng)新式浪潮,核心的因素在于一家在2023年剛注冊(cè)成立的初創(chuàng)企業(yè)所發(fā)布的第一個(gè)正式版本模型就直接對(duì)標(biāo)了OpenAI閉源的GPT-4o以及Claude-3.5-Sonnet,更重要的是其訓(xùn)練階段的成本只有不到600萬(wàn)美元,是什么概念?

在這之前,普遍的訓(xùn)練成本都在千萬(wàn)甚至于上億美元的成本支出,突然出現(xiàn)預(yù)訓(xùn)練大模型在性能上比肩目前最強(qiáng)的GPT-4o,成本上比GPT-4o要節(jié)約十幾倍,關(guān)鍵在于它還是完全開源的,而GPT-4o的是收費(fèi)且技術(shù)是閉源的,并且目前還沒有哪一個(gè)模型能夠做到類似于GPT-o1的推理能力,2025年1月20日DeepSeek-R1的發(fā)布無(wú)疑是打破了這一技術(shù)壁壘,讓整個(gè)AI技術(shù)領(lǐng)域重新點(diǎn)燃的了新的希望。

在GPT-4上線的時(shí)候,當(dāng)時(shí)大模型領(lǐng)域內(nèi)眾多的大語(yǔ)言模型都在做預(yù)訓(xùn)練模型,也就是說(shuō)需要不斷的采集數(shù)據(jù),從各方收集數(shù)據(jù),然后將數(shù)據(jù)“喂給”大模型,以達(dá)到大模型在多種領(lǐng)域內(nèi)實(shí)現(xiàn)相關(guān)的思維能力,在預(yù)訓(xùn)練階段需要依賴源源不斷的超大規(guī)模數(shù)據(jù),以及大模型的開發(fā)基本上是以CUDA編程來(lái)進(jìn)行實(shí)現(xiàn)的。

在此之前幾乎沒有人挑戰(zhàn)過(guò)說(shuō)繞開CUDA的高級(jí)編程方式,而從更加底層的角度來(lái)重寫CUDA的很多低級(jí)API(也就是PTX編程),放在編程領(lǐng)域內(nèi)可以理解為:在編寫應(yīng)用程序時(shí)有很多高級(jí)編程語(yǔ)言例如Java、Python、C#、Golang,但是考慮到很多高級(jí)語(yǔ)言所帶來(lái)的性能損耗,例如內(nèi)存管理、通信機(jī)制、CPU調(diào)度等等方面的問題,而選擇使用原始的C語(yǔ)言或者二進(jìn)制編程的方式來(lái)重新實(shí)現(xiàn)一套語(yǔ)言之下的內(nèi)存、CPU、通信管理機(jī)制。

一出道就站在C位,核心要素算法創(chuàng)新、性能表現(xiàn)、開源屬性

DeepSeek可以說(shuō)一出道就直接站在了C位,受到了整個(gè)行業(yè)甚至于全球關(guān)注,春節(jié)期間無(wú)論是在那個(gè)地方,都能看到關(guān)于AI DeepSeek的種種報(bào)道,國(guó)家官方媒體也頻頻的發(fā)文宣傳對(duì)于DeepSeek的推廣,普羅大眾從不知道AI,到了解并使用AI,大家再一次的感受到了AI所帶來(lái)的不僅僅是一個(gè)趨勢(shì)性問題而是一場(chǎng)徹徹底底的社會(huì)變革,這種變革所帶來(lái)的影響力比移動(dòng)互聯(lián)網(wǎng)的普及程度都更高更快。

相信在過(guò)去兩年作為互聯(lián)網(wǎng)圈內(nèi)的朋友都接觸過(guò)很多不同的AI產(chǎn)品,在這兩三年中整個(gè)全球AI技術(shù)的風(fēng)向標(biāo)一直是以GPT為首,無(wú)論是最開始的GPU-3發(fā)布,還是GPT-4o或者sora的發(fā)布,都對(duì)整個(gè)行業(yè)帶來(lái)了極大的影響,但DeepSeek這波可以說(shuō)是引領(lǐng)級(jí)別的,什么概念?但凡DeepSeek的技術(shù)創(chuàng)新是在GPT其他產(chǎn)品中,都不足以撼動(dòng)那么大的波浪,而由于中國(guó)本地技術(shù)創(chuàng)新所帶來(lái)的AI前沿科技能力,在如今的形勢(shì)下,毫無(wú)疑問是一場(chǎng)階段性的勝利,當(dāng)然,技術(shù)是無(wú)國(guó)度的,但是,身為國(guó)人就是自豪。

推理模型的技術(shù)瓶頸被拉開了新的序幕

在目前的大模型種類可以分為三類:基座大模型、推理模型、多模態(tài)模型,而DeepSeek-V3是DeepSeek最先發(fā)布的一個(gè)大模型,V3是一個(gè)基座大模型,而后續(xù)發(fā)布的DeepSeek R1則是在DeepSeek V3基礎(chǔ)上的推理模型,DeepSeek-R1-Zero 與 DeepSeek-R1 均基于 DeepSeek-V3-Base 訓(xùn)練,DeepSeek-R1-Distill 版本的模型基于開源模型進(jìn)行微調(diào),使用 DeepSeek-R1 生成的樣本。

鯰魚效應(yīng):DeepSeek打開了AI大模型新序幕,未來(lái)大模型技術(shù)的方向選擇-AI.x社區(qū)

推理模型是OpenAI發(fā)布o(jì)1、o3模型開創(chuàng)的新范式,在去年 OpenAI推出o1推理模型預(yù)覽版的時(shí)候,推理模型就成為了行業(yè)熱門話題,它和以往問答直接給出答案不同,推理模型會(huì)將問題進(jìn)行分解,然后劃分為幾個(gè)步驟來(lái)解決,這個(gè)過(guò)程會(huì)花費(fèi)幾秒甚至幾十秒來(lái)分析回答問題,通過(guò)思維鏈的方式來(lái)反思自己的分析,本質(zhì)上是自我問答和檢驗(yàn),基于思考的思考,認(rèn)知能力會(huì)有一定的提升(這點(diǎn)在最后再聊),這里參考DeepSeek-reasoner會(huì)更加直觀。

鯰魚效應(yīng):DeepSeek打開了AI大模型新序幕,未來(lái)大模型技術(shù)的方向選擇-AI.x社區(qū)

正如上所說(shuō),GPT-o1發(fā)布了推理模型之后,OpenAI對(duì)外并沒有公布相關(guān)的技術(shù)細(xì)節(jié)和實(shí)現(xiàn)原理,對(duì)于外界來(lái)說(shuō)推理模型的技術(shù)是一個(gè)瓶頸口,而DeepSeek可以說(shuō)是第一個(gè)打破了推理模型瓶頸的技術(shù)創(chuàng)新點(diǎn),它跳過(guò)了監(jiān)督微調(diào),直接從強(qiáng)化學(xué)習(xí)開始訓(xùn)練。

選擇開源模型,硬剛ChatGPT 4-o1模型,引起國(guó)內(nèi)外科技圈的關(guān)注

很多媒體都講到說(shuō)這是中國(guó)人自己研發(fā)的大模型,從各方面都比美國(guó)所主導(dǎo)的AI技術(shù)都先進(jìn)一些,是中美之間科技競(jìng)賽的勝利,但是,我更想說(shuō)它是開源技術(shù)所帶來(lái)的成果,DeepSeek選擇開源其各項(xiàng)數(shù)據(jù)以及相關(guān)論文的理論內(nèi)容,讓原本在預(yù)訓(xùn)練模型中遇到技術(shù)挑戰(zhàn)的人找到了不同的解法,讓原本做AI應(yīng)用的企業(yè)的商業(yè)運(yùn)營(yíng)成本直線下降,大家可能沒有這種體感,列舉個(gè)簡(jiǎn)單例子:

很多app產(chǎn)品內(nèi)部集成了不同的AI大模型應(yīng)用,其實(shí)這里有很多都是調(diào)用其它AI大模型的接口,自己產(chǎn)品外部包裝了一層展示界面,然后很多企業(yè)都希望有一個(gè)足夠好且精準(zhǔn)的AI大模型來(lái)提升產(chǎn)品的質(zhì)量,于是很多都會(huì)選擇調(diào)用OpenAI的開放API,但由于OpenAI是按照Token和調(diào)用次數(shù)來(lái)收費(fèi)的,這部分收費(fèi)要么用戶出,要么是企業(yè)自己來(lái)出,一年少則幾百萬(wàn)多則幾千萬(wàn)的投入,而DeepSeek不一樣啊,技術(shù)本身是開源的,并且接口調(diào)用的價(jià)格也極低,很多企業(yè)接入了DeepSeek之后,一年節(jié)約了幾百上萬(wàn)千,甚至由此盈利了。

這里多插一句,在過(guò)去的幾十年里,從信息化時(shí)代,到互聯(lián)網(wǎng)時(shí)代,再到移動(dòng)互聯(lián)網(wǎng)我們基本都是跟隨的態(tài)度,底層的核心技術(shù)都是引入的國(guó)外廠商或者是國(guó)外開源的技術(shù)底座,我們更多的是做應(yīng)用層產(chǎn)品的研發(fā)和技術(shù)運(yùn)營(yíng)的角色,但近幾年從國(guó)家戰(zhàn)略上就提出自主創(chuàng)新、國(guó)產(chǎn)化的主張,從芯片制造、數(shù)據(jù)庫(kù)技術(shù)、操作系統(tǒng)等等都主張自主研發(fā),這也是為什么很多高科技企業(yè)會(huì)受到了西方抵制?他們肯定不希望也接受不了我國(guó)的核心技術(shù)能力超過(guò)他們,但事實(shí)無(wú)數(shù)次證明,抵制是沒有用的,面對(duì)13億人口,人才輩出的大國(guó),總有不甘平凡,勇于超越的時(shí)代弄潮兒。

未來(lái)AI技術(shù)有哪些可能性?

1. 計(jì)算量級(jí)和模型性能之間存在冪律關(guān)系可能會(huì)被打破

在過(guò)去大家都認(rèn)為大模型的訓(xùn)練和所需要的計(jì)算量(也就是GPU的算力和內(nèi)存大?。┦怯袃缏申P(guān)系的,也就是說(shuō)通過(guò)增加計(jì)算量,無(wú)論是使用更強(qiáng)悍的GPU還是增加更長(zhǎng)的訓(xùn)練時(shí)間,都可以提高模型的性能,但是事實(shí)證明現(xiàn)在可能不需要那么大的計(jì)算量也可以訓(xùn)練出比較高性能的大模型來(lái)。

2. 基于思維鏈的推理模型會(huì)越來(lái)越多,也就是提示詞工程會(huì)弱化

使用過(guò)DeepSeek之后就會(huì)發(fā)現(xiàn),當(dāng)我們組織一下語(yǔ)言問DeepSeek問題的時(shí)候,它不像過(guò)去其它的大語(yǔ)言模型直接回答問題,而是基于我們的問題,它自己站在不同的維度來(lái)闡述這個(gè)問題,再將進(jìn)一步組織之后的問題去問模型本身,過(guò)去,大模型回答問題的精準(zhǔn)度很大程度上依賴于提問者的問題,提問的問題越細(xì)化、全面、標(biāo)準(zhǔn),那么回答的就越好,而DeepSeek可以基于我們的問題來(lái)發(fā)散思考,這樣得到的答案的精準(zhǔn)度是非常高的。

3. 基于第二點(diǎn),進(jìn)一步聯(lián)網(wǎng)并進(jìn)行全網(wǎng)搜索之后再深度思考能力,也會(huì)在今年應(yīng)用落地

在OpenAI新推出的Deep Research模型已經(jīng)具備了聯(lián)網(wǎng)并深度思考能力,但是目前只針對(duì)付費(fèi)訂閱以及Web版本進(jìn)行開放,其官網(wǎng)的評(píng)測(cè)結(jié)果中,準(zhǔn)確率達(dá)到了26%的歷史新高,同時(shí),國(guó)內(nèi)的一些大模型也在發(fā)力聯(lián)網(wǎng)深度思考能力,目前看到阿里的通義千問也已經(jīng)具備了聯(lián)網(wǎng)搜索,但是無(wú)論是OpenAI或者通義千問 對(duì)于聯(lián)網(wǎng)深度思考能力上都處于初期階段。

4. 小模型的性能會(huì)越來(lái)越好,大模型和小模型會(huì)交替學(xué)習(xí)

很多大模型由于訓(xùn)練參數(shù)過(guò)多,數(shù)據(jù)集難以維持較大的訓(xùn)練量,可能會(huì)出現(xiàn)小模型在大模型上面不斷迭代,會(huì)促進(jìn)小模型的性能越來(lái)越強(qiáng),而反之,大模型也可能會(huì)跟著小模型來(lái)學(xué)習(xí)。

5. 特定領(lǐng)域的專有模型將得到飛速發(fā)展,場(chǎng)景落地能力將加快

在過(guò)去AI快速發(fā)展的兩年,很多企業(yè)也意識(shí)到做大語(yǔ)言模型的成本實(shí)在太高昂,而且整個(gè)訓(xùn)練周期以及效果都存在諸多的風(fēng)險(xiǎn),倒不如轉(zhuǎn)入做專用模型,例如做金融領(lǐng)域、醫(yī)療領(lǐng)域、法律領(lǐng)域、教育領(lǐng)域等為中心的專用模型,通過(guò)以高度專業(yè)化的方式來(lái)實(shí)現(xiàn)更好的商業(yè)化落地。

6. DeepSeek V3所帶來(lái)的架構(gòu)創(chuàng)新或許會(huì)成為未來(lái)主流:MoE、MLA(多頭潛在注意力)、輔助無(wú)損負(fù)載均衡和多標(biāo)記預(yù)測(cè)訓(xùn)練

在GPT的訓(xùn)練大語(yǔ)言模型過(guò)程中,會(huì)將所有的資源算力全部調(diào)度起來(lái),全部都用來(lái)跑模型訓(xùn)練,這樣模型本身就會(huì)變得更“聰明”,但是需要特別巨大的GPU算力資源,而且需要花費(fèi)很多的時(shí)間和費(fèi)用成本,而DeepSeek V3 的MoE架構(gòu)則不是,MoE全稱是Mixture of Experts,它是一種“混合專家”模型。

對(duì)比GPT而言,它不需要所有的GPU資源全部運(yùn)作起來(lái),而是將任務(wù)切分為很多小的算力需求,而這些任務(wù)整個(gè)組合之后就是一個(gè)大語(yǔ)言模型所需的整體能力,對(duì)于任務(wù)而言,有的專注于語(yǔ)言,有的專注于數(shù)學(xué),有的專注于文學(xué)等等,在訓(xùn)練過(guò)程中每個(gè)專家都負(fù)責(zé)某幾個(gè)任務(wù)的執(zhí)行,其它專家經(jīng)過(guò)排序組合之后可以進(jìn)行休息,這樣GPU算力資源就能夠節(jié)省很多,而最終的訓(xùn)練效果也非常不錯(cuò)(后面單獨(dú)解讀訓(xùn)練部分的邏輯)。

上面基于專家和任務(wù)的分配機(jī)制,內(nèi)部還有一個(gè)專用名詞叫MLA(Multi-Head Latent Attention)(多頭潛在注意力),類似于它在閱讀大量的資料之后,首先會(huì)歸納重點(diǎn)內(nèi)容,再?gòu)亩鄠€(gè)不同視角去理解內(nèi)容,這樣即節(jié)約時(shí)間效率又高。

本文轉(zhuǎn)載自??DataForAI??,作者:易程Date

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦