關(guān)于大模型微調(diào)與訓(xùn)練的問(wèn)題,大模型訓(xùn)練的難點(diǎn)在哪里? 原創(chuàng)
?“ 大模型訓(xùn)練的難點(diǎn)不在于大模型本身,而在于訓(xùn)練數(shù)據(jù) ”
這兩天公眾號(hào)上有一個(gè)小兄弟問(wèn)我關(guān)于大模型訓(xùn)練的問(wèn)題,然后他想自己訓(xùn)練一個(gè)小模型,但又不知道該怎么操作;所以,今天就再來(lái)討論一下大模型的訓(xùn)練問(wèn)題,大模型訓(xùn)練的難點(diǎn)到底在哪里?
大模型訓(xùn)練的難點(diǎn)
對(duì)大部分學(xué)習(xí)大模型技術(shù)的人來(lái)說(shuō),大模型訓(xùn)練和微調(diào)可能都是一個(gè)無(wú)法繞過(guò)的問(wèn)題,也是很多人弄不明白的問(wèn)題,總認(rèn)為由于沒(méi)有足夠的算力,個(gè)人無(wú)法進(jìn)行模型訓(xùn)練。
但事實(shí)上有這種想法的人是進(jìn)入了一個(gè)誤區(qū),原因是對(duì)大模型不夠了解,認(rèn)為大模型的難點(diǎn)就在于訓(xùn)練。
大家都知道目前市面上的模型主要都是預(yù)訓(xùn)練模型或者一些基座模型;除了哪些真正有技術(shù)和資金,能夠真的自己去設(shè)計(jì)模型,然后實(shí)現(xiàn)模型的組織或企業(yè)來(lái)說(shuō),大部分所謂的自己的模型都是基于一些開(kāi)源模型進(jìn)行的二次訓(xùn)練或微調(diào)。
大模型技術(shù)本身確實(shí)有很多難點(diǎn),比如說(shuō)算法,架構(gòu),并行計(jì)算的方式,幻覺(jué)問(wèn)題,能力不足等等多種問(wèn)題;但對(duì)采用開(kāi)源模型,使用重新訓(xùn)練的方式得到一個(gè)具有特定模型的企業(yè)來(lái)說(shuō),大模型本身對(duì)他們來(lái)說(shuō)并沒(méi)有特別大的難度,如果說(shuō)有難度那么唯一的難度就是基于當(dāng)前模型做的二次開(kāi)發(fā),使得其功能更完善與強(qiáng)大。
而如果只是把開(kāi)源模型重新訓(xùn)練一下,那么大模型本身的復(fù)雜度對(duì)他們來(lái)說(shuō)都不是問(wèn)題;原因就在于這些開(kāi)源模型在開(kāi)源的時(shí)候已經(jīng)把模型的基礎(chǔ)架構(gòu)和一些算法進(jìn)行了實(shí)現(xiàn);對(duì)訓(xùn)練者來(lái)說(shuō)已經(jīng)不需要再進(jìn)行算法的開(kāi)發(fā)。
因此,對(duì)這些訓(xùn)練者來(lái)說(shuō),重新訓(xùn)練一個(gè)大模型就類似于把別人已經(jīng)制作好的工具,用自己的數(shù)據(jù)重新再跑一遍,然后怎么跑,開(kāi)源者已經(jīng)給了一個(gè)詳細(xì)的步驟;就是開(kāi)源模型的核心技術(shù)以及訓(xùn)練的步驟。這些文檔在開(kāi)源模型里面都已經(jīng)有了,不會(huì)的直接拿過(guò)來(lái)看就行了,如果看不懂就多看幾遍,多嘗試幾遍。
上面說(shuō)了這么多,主要就是想說(shuō)明白一件事,對(duì)基于開(kāi)源模型進(jìn)行訓(xùn)練的人來(lái)說(shuō),大模型本身已經(jīng)做的很好了,你已經(jīng)不需要再對(duì)大模型進(jìn)行調(diào)整,就可以直接進(jìn)行訓(xùn)練;或者如果你能力很強(qiáng),當(dāng)然也可以根據(jù)自己的需求對(duì)大模型的整個(gè)架構(gòu)或算法進(jìn)行重寫(xiě)。
ok ,現(xiàn)在我們說(shuō)一下大模型訓(xùn)練的真正難點(diǎn)在什么地方?這個(gè)前提是拋開(kāi)大模型的架構(gòu)設(shè)計(jì)和算法實(shí)現(xiàn),只是單純的對(duì)大模型進(jìn)行訓(xùn)練,不涉及二次開(kāi)發(fā)等情況。
對(duì)訓(xùn)練者來(lái)說(shuō),大模型訓(xùn)練的難點(diǎn)不在于算力,也不在于大模型的復(fù)雜度,而在于訓(xùn)練數(shù)據(jù)的收集與處理。
大模型訓(xùn)練的流程現(xiàn)在基本上已經(jīng)很詳細(xì)了,網(wǎng)絡(luò)上能找到各種大模型訓(xùn)練和微調(diào)的文章以及案例;但訓(xùn)練和微調(diào)的過(guò)程你知道了,算力也可以去買(mǎi)算力服務(wù),但訓(xùn)練的數(shù)據(jù)哪里來(lái)?
使用開(kāi)源模型做訓(xùn)練來(lái)實(shí)現(xiàn)一個(gè)新的業(yè)務(wù),最難的一點(diǎn)就是收集和整理訓(xùn)練數(shù)據(jù);比如說(shuō),你想做一個(gè)垃圾分類的模型,那么你就需要收集大量的和垃圾有關(guān)的數(shù)據(jù),比如干垃圾有哪些,濕垃圾又有哪些,什么是可回收的,什么是不可回收的。
如果只是訓(xùn)練一個(gè)小模型問(wèn)題還不是很大,少者幾十到幾百,多則幾千到幾千萬(wàn),甚至上億的訓(xùn)練數(shù)據(jù);傳說(shuō)openAI訓(xùn)練GPT4已經(jīng)把全世界能找到的數(shù)據(jù)全部收集了過(guò)來(lái),用于模型的訓(xùn)練;這些數(shù)據(jù)的收集,處理,加載,存儲(chǔ)都是一個(gè)個(gè)問(wèn)題。
這玩意就類似于造原子彈,原子彈的圖紙都是公開(kāi)的,技術(shù)也是公開(kāi)的;但制造原子彈的原料哪里來(lái)?
原子彈的原料都是各國(guó)嚴(yán)格管控的,如果想自己制作原料,就一個(gè)高速離心機(jī)有幾個(gè)國(guó)家能做的出來(lái)?
所以,大模型的訓(xùn)練的難度就像造原子彈一樣,技術(shù)和原理都有了;但就是找不到制造的原料,而數(shù)據(jù)就是大模型訓(xùn)練的原料。
當(dāng)然,現(xiàn)在有很多提供各種數(shù)據(jù)的企業(yè)服務(wù),甚至一些灰色地帶公開(kāi)叫賣(mài)一些數(shù)據(jù);但問(wèn)題是這些數(shù)據(jù)可能并不能完全符合你的需求,因此想打造一個(gè)好的模型,模型的設(shè)計(jì)或選擇雖然很重要;但訓(xùn)練數(shù)據(jù)的收集和整理也很重要。
?
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
