有了大模型的應(yīng)用經(jīng)驗(yàn)之后,再談對(duì)大模型的理解 原創(chuàng)
?“ 大模型的本質(zhì)就是一段有輸入和輸出,并能使用某種算法達(dá)到某種目的得計(jì)算機(jī)程序 ”
在剛開(kāi)始接觸大模型時(shí),根本不明白大模型是個(gè)什么玩意,看著別人給出的定義一臉懵逼。
不論是業(yè)內(nèi)還是網(wǎng)上的文章,對(duì)大模型的普遍定義都是擁有巨大參數(shù)量和復(fù)雜計(jì)算的機(jī)器學(xué)習(xí)模型/深度學(xué)習(xí)模型。
從定義中能夠看出哪些東西?
巨大參數(shù)量,復(fù)雜計(jì)算,機(jī)器/深度學(xué)習(xí)模型。
說(shuō)句實(shí)話,對(duì)大部分人來(lái)說(shuō)看了這玩意有什么用,有誰(shuí)能用自己的話說(shuō)明白什么是大模型。
所以,對(duì)剛開(kāi)始學(xué)習(xí)大模型技術(shù)的人來(lái)說(shuō),即使告訴他大模型的作用,概念和實(shí)現(xiàn)原理,但對(duì)他來(lái)說(shuō)還是七竅通了六竅,就剩下一竅不通。
為什么會(huì)出現(xiàn)這種情況?
原因就在于概念和定義是別人在事物的基礎(chǔ)之上,加上自己的理解所下的定義;但你又不理解,因此看了別人的定義也不會(huì)真正明白;這就像道理大家都懂,但真正能理解道理的卻沒(méi)幾個(gè)。
基于應(yīng)用理解大模型
在剛開(kāi)始學(xué)習(xí)大模型的時(shí)候,作者一直在嘗試?yán)斫獯竽P偷亩x,原理,以及訓(xùn)練和微調(diào)的步驟和流程。
然后由于大模型需要龐大的算力支持,而自己又沒(méi)有那么多錢(qián)來(lái)支撐自己購(gòu)買(mǎi)GPU等算力工具;因此就覺(jué)得大模型好牛逼,好復(fù)雜。然后就覺(jué)得搞大模型好難啊,沒(méi)有足夠的資金和技術(shù)根本玩不轉(zhuǎn)。
但經(jīng)過(guò)這段時(shí)間從事大模型的應(yīng)用開(kāi)發(fā),并隨著時(shí)間的推移,遇到的事情也越來(lái)越多;然后對(duì)大模型的理解也更加的深入,這時(shí)才發(fā)現(xiàn)大模型原來(lái)沒(méi)有想象中的那么復(fù)雜;當(dāng)然也沒(méi)想象中的那么簡(jiǎn)單。
首先,我們不要過(guò)度神話大模型,大模型并不是神仙,它還做不到無(wú)所不能;其次,大模型是一種技術(shù),本質(zhì)上是一個(gè)工具,其表現(xiàn)的是一種能力。
比如說(shuō),文字,視頻,圖片生成能力,也就是AIGC的能力,有些模型你只需要輸入文字,它就可以根據(jù)你的要求生成一張圖片或視頻。
既然大模型是人工制造的智能體,既然人都無(wú)法做到無(wú)所不能;因此,大模型就更不可能做到無(wú)所不能了,所以不同的大模型就會(huì)像不同的人一樣,擅長(zhǎng)不同的領(lǐng)域。
比如有些大模型擅長(zhǎng)內(nèi)容生成,比如有些擅長(zhǎng)生成古風(fēng)的圖片,有些擅長(zhǎng)生成二次元圖片等;而有些模型可能更擅長(zhǎng)推理規(guī)劃,還有的模型擅長(zhǎng)回答問(wèn)題等。
原因是什么?
原因就是不同的大模型采用不同的技術(shù)和訓(xùn)練數(shù)據(jù),直接導(dǎo)致它們擅長(zhǎng)不同的領(lǐng)域;就像人一樣,不同的人選擇不同的專業(yè),擅長(zhǎng)的東西也不一樣。
這就是在之前的文章中所講的大模型的能力問(wèn)題——你對(duì)大模型認(rèn)知的開(kāi)始——大模型的能力問(wèn)題;不同的大模型具有不同的能力。
ok現(xiàn)在我們知道了不同大模型擁有不同的能力,那怎么理解大模型的訓(xùn)練和微調(diào)? 大模型為什么需要訓(xùn)練?
嚴(yán)格來(lái)說(shuō)大模型的訓(xùn)練叫做學(xué)習(xí),大模型的實(shí)現(xiàn)原理就是模仿人類的學(xué)習(xí)能力,讓機(jī)器能夠通過(guò)學(xué)習(xí)的方式獲得智能——這個(gè)過(guò)程叫做機(jī)器學(xué)習(xí),而隨著技術(shù)的發(fā)展,技術(shù)人員開(kāi)始通過(guò)模仿人類的大腦神經(jīng)元的方式來(lái)模擬人類的學(xué)習(xí)過(guò)程——這個(gè)過(guò)程叫做深度學(xué)習(xí)。
而關(guān)于學(xué)習(xí),學(xué)習(xí)的方式多種多樣,比如說(shuō)去學(xué)校學(xué)習(xí),自己自學(xué)等;大模型也是如此。
所謂的監(jiān)督學(xué)習(xí)就是告訴大模型一些問(wèn)題,然后再給它一份答案,讓它自己去觀察和總結(jié)其中的原理;而無(wú)監(jiān)督學(xué)習(xí)就是直接扔給大模型一堆問(wèn)題,然后讓它自己看,自己學(xué),然后去尋找其中的一些規(guī)律,然后下次再碰到類似的問(wèn)題就知道怎么做了。
這就是大模型訓(xùn)練的過(guò)程,也是學(xué)習(xí)的過(guò)程;只不過(guò)這些過(guò)程都需要人類幫助機(jī)器去實(shí)現(xiàn),而且為了實(shí)現(xiàn)這些過(guò)程還需要增加很多輔助性的工程,比如損失計(jì)算,通過(guò)損失函數(shù)來(lái)讓大模型知道自己的學(xué)習(xí)效果。
ok ,那現(xiàn)在再來(lái)理解什么是大模型,以及大模型的參數(shù)?
所謂的大模型,其實(shí)就是一個(gè)計(jì)算機(jī)程序,然后這個(gè)程序能夠讀取數(shù)據(jù),并使用某種方式來(lái)對(duì)這些數(shù)據(jù)進(jìn)行分析,然后總結(jié)出相關(guān)的規(guī)律,并記錄下來(lái)。
而其中分析數(shù)據(jù)的方式叫做算法,記錄下來(lái)的規(guī)律叫做參數(shù);而由于要在復(fù)雜的數(shù)據(jù)環(huán)境中找到規(guī)律,因此要記錄很多規(guī)律點(diǎn),所以才導(dǎo)致大模型擁有龐大的系統(tǒng)參數(shù)。
這也是為什么大模型被稱為巨大參數(shù)量的機(jī)器學(xué)習(xí)模型,從本質(zhì)上來(lái)說(shuō)它只是一個(gè)機(jī)器學(xué)習(xí)模型或者說(shuō)是深度學(xué)習(xí)模型;只不過(guò)它要學(xué)習(xí)復(fù)雜的數(shù)據(jù),因此需要大量的參數(shù)進(jìn)行標(biāo)識(shí),才導(dǎo)致它成為了一個(gè)巨大參數(shù)量的機(jī)器學(xué)習(xí)模型。
現(xiàn)在明白了什么是大模型,以及大模型的參數(shù),那么如果讓你實(shí)現(xiàn)一個(gè)模型應(yīng)該怎么做?
首先,你要明白這個(gè)模型是干什么的,也就是說(shuō)它應(yīng)該具備哪些能力? 比如說(shuō)畫(huà)畫(huà)的能力。
其次,既然知道了模型應(yīng)該具備畫(huà)畫(huà)的能力,那怎么才能讓它學(xué)會(huì)畫(huà)畫(huà)呢?
這時(shí)就需要去學(xué)習(xí)和了解計(jì)算機(jī)視覺(jué)相關(guān)的知識(shí)了,知道圖像的原理,怎么生成,怎么保存,然后用那種算法讓模型學(xué)習(xí)繪畫(huà)的技巧等等。
這時(shí),你再去學(xué)習(xí)大模型,甚至讓你去開(kāi)發(fā)一個(gè)模型,你就能做到有地放矢。
?
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/G7mMw_d9qk5urtmiZB19hA???
