AI 黑話太多看不懂?一文幫你打通:AI, 機(jī)器學(xué)習(xí), 大模型, LLM, Agent 都是啥關(guān)系?
最近是不是感覺(jué)整個(gè)世界都在聊AI?從ChatGPT、Sora、到Cursor… 人工智能正以前所未有的速度和廣度滲透進(jìn)我們的生活和工作。
伴隨而來(lái)的是一堆高頻詞匯:大模型(Large Model)、LLM(Large Language Model)、機(jī)器學(xué)習(xí)(Machine Learning)、深度學(xué)習(xí)(Deep Learning,雖然你沒(méi)問(wèn),但它太重要了,我們也會(huì)提一下)、還有最新的智能體(Agent)……
哎呀,聽(tīng)得多了,感覺(jué)腦袋都成了一鍋粥。
- 這些詞到底是什么意思?
- 它們之間有啥關(guān)系?
- 是不是大模型就是AI的全部?
- LLM又是大模型的子集嗎?
- Agent是不是更高級(jí)的AI?
如果你也有這些疑問(wèn),恭喜你,來(lái)對(duì)地方了!
本文將用最直白的方式,幫你徹底理清這些核心概念。準(zhǔn)備好了嗎?咱們開(kāi)始!
第一站:最宏大的概念——人工智能 (Artificial Intelligence, AI)
想象一下,我們?nèi)祟?lèi)擁有的智能是什么?是會(huì)思考、會(huì)學(xué)習(xí)、會(huì)理解語(yǔ)言、會(huì)識(shí)別圖像、會(huì)決策、會(huì)創(chuàng)造……
人工智能(AI),它的目標(biāo)就是要讓機(jī)器也具備這些類(lèi)似人類(lèi)的智能能力。
所以,人工智能(AI)是一個(gè)非常、非常廣泛的概念,它是計(jì)算機(jī)科學(xué)的一個(gè)分支,致力于創(chuàng)建能夠執(zhí)行通常需要人類(lèi)智能的任務(wù)的系統(tǒng)。
AI的夢(mèng)想始于上世紀(jì)中葉,早期試圖通過(guò)編寫(xiě)大量規(guī)則來(lái)模擬智能。然而,面對(duì)現(xiàn)實(shí)世界的復(fù)雜性和例外情況(如識(shí)別各種各樣的貓),規(guī)則難以窮盡,這種方法很快遭遇瓶頸。
這就像想教一個(gè)機(jī)器人認(rèn)識(shí)所有的貓:你可能寫(xiě)規(guī)則"貓有四條腿、有尾巴、會(huì)喵喵叫",但總有無(wú)腿貓、無(wú)尾貓,或者不會(huì)叫的貓… 規(guī)則會(huì)變得異常復(fù)雜且不完善。
所以,AI并不僅僅指代某個(gè)具體的算法或技術(shù),它更像是一個(gè)宏偉的目標(biāo)和愿景:讓機(jī)器擁有智能。而為了實(shí)現(xiàn)這個(gè)目標(biāo),科學(xué)家們探索了各種各樣的方法,其中最成功、最主流的一個(gè)方法,就是接下來(lái)要說(shuō)的——機(jī)器學(xué)習(xí)。
AI就像一個(gè)大大的金字塔,人工智能(AI)就是金字塔的最頂端,代表著最終的目標(biāo)。
第二站:實(shí)現(xiàn)AI的強(qiáng)大工具——機(jī)器學(xué)習(xí) (Machine Learning, ML)
既然給機(jī)器寫(xiě)規(guī)則太難,那能不能讓機(jī)器自己去“看”數(shù)據(jù),然后自己從數(shù)據(jù)里找到規(guī)律、學(xué)會(huì)完成任務(wù)呢?這就是機(jī)器學(xué)習(xí)的核心思想!
機(jī)器學(xué)習(xí)(ML)是人工智能的一個(gè)子集。它研究如何讓計(jì)算機(jī)系統(tǒng)通過(guò)分析數(shù)據(jù)來(lái)自動(dòng)改進(jìn)性能,而無(wú)需進(jìn)行顯式的程序設(shè)計(jì)。
區(qū)別于傳統(tǒng)編程的"輸入數(shù)據(jù) + 規(guī)則 = 輸出",機(jī)器學(xué)習(xí)的核心是"輸入數(shù)據(jù) + 期望輸出 = 輸出規(guī)則(模型)",讓機(jī)器通過(guò)數(shù)據(jù)學(xué)習(xí)規(guī)律。
例如,識(shí)別貓時(shí),傳統(tǒng)方法需手動(dòng)編寫(xiě)規(guī)則,而機(jī)器學(xué)習(xí)則通過(guò)大量貓和非貓圖片及標(biāo)簽(期望輸出),自動(dòng)學(xué)習(xí)識(shí)別模型。
ML主要分為監(jiān)督學(xué)習(xí)(有標(biāo)簽數(shù)據(jù))、無(wú)監(jiān)督學(xué)習(xí)(無(wú)標(biāo)簽數(shù)據(jù))和強(qiáng)化學(xué)習(xí)(通過(guò)試錯(cuò)學(xué)習(xí))。
所以,機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能目標(biāo)的重要方法論和技術(shù)。 如果AI是金字塔頂端的目標(biāo),那機(jī)器學(xué)習(xí)就是實(shí)現(xiàn)這個(gè)目標(biāo)過(guò)程中,位于金字塔中間、非常重要的一層技術(shù)。
第三站:機(jī)器學(xué)習(xí)的顛覆者——深度學(xué)習(xí) (Deep Learning, DL)
在說(shuō)大模型之前,繞不開(kāi)一個(gè)概念:深度學(xué)習(xí)。
深度學(xué)習(xí)(Deep Learning, DL)是機(jī)器學(xué)習(xí)的一種,它用的是一種叫“神經(jīng)網(wǎng)絡(luò)”的模型。
你可以把神經(jīng)網(wǎng)絡(luò)想象成人腦神經(jīng)元的簡(jiǎn)化版。它由一層層“節(jié)點(diǎn)”組成:數(shù)據(jù)從輸入層進(jìn)來(lái),經(jīng)過(guò)中間的隱藏層處理,最后從輸出層得出結(jié)果。每一層負(fù)責(zé)提取不同層次的特征,越往后,提取的特征就越抽象。
比如在識(shí)別一張人臉的圖片時(shí):
- 前幾層可能識(shí)別邊緣、顏色、角等簡(jiǎn)單特征
- 中間層可能識(shí)別眼睛、鼻子、嘴巴
- 更深層甚至能判斷出整張臉是誰(shuí)
在深度學(xué)習(xí)出現(xiàn)之前,機(jī)器學(xué)習(xí)模型需要人手動(dòng)“設(shè)計(jì)”出這些特征,非常依賴(lài)經(jīng)驗(yàn)。深度學(xué)習(xí)厲害的地方在于:它能自動(dòng)從原始數(shù)據(jù)中學(xué)會(huì)提取有用特征,大大簡(jiǎn)化了流程。
從2010年左右開(kāi)始,由于GPU變強(qiáng)、數(shù)據(jù)變多,深度學(xué)習(xí)迅速發(fā)展,在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得了巨大突破,也由此引發(fā)了這波AI熱潮。
所以,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中目前最成功、最熱門(mén)的一個(gè)分支,是實(shí)現(xiàn)復(fù)雜AI任務(wù)的利器。
在我們的AI金字塔里,深度學(xué)習(xí)是位于機(jī)器學(xué)習(xí)下一層,更靠近技術(shù)實(shí)現(xiàn)的那一層。
第四站:規(guī)模帶來(lái)智能的飛躍——大模型 (Large Models)
在深度學(xué)習(xí)快速發(fā)展的過(guò)程中,科學(xué)家發(fā)現(xiàn)一個(gè)現(xiàn)象:只要神經(jīng)網(wǎng)絡(luò)足夠大、數(shù)據(jù)夠多,模型的能力會(huì)突然“飛躍”,出現(xiàn)一些小模型根本做不到的新本事,這種現(xiàn)象叫做 “涌現(xiàn)能力”(Emergent Abilities)。
于是,“大力出奇跡”變成了新思路,大家開(kāi)始訓(xùn)練規(guī)模更大的模型,這就誕生了所謂的 大模型(Large Models)。
什么是大模型?
簡(jiǎn)單說(shuō),就是:
- 參數(shù)特別多(幾十億、上百億,甚至萬(wàn)億)
- 數(shù)據(jù)特別大(從全網(wǎng)抓來(lái)的海量文本、圖像等)
- 訓(xùn)練時(shí)間特別長(zhǎng)(動(dòng)輒幾百?gòu)堬@卡跑幾個(gè)月)
但“大”不僅是體積大,它帶來(lái)了三種能力:
- 泛化強(qiáng):能處理更多樣、復(fù)雜的任務(wù)
- 知識(shí)多:模型“看過(guò)”很多東西,像個(gè)百科全書(shū)
- 有涌現(xiàn)能力:沒(méi)學(xué)過(guò)的任務(wù)也能“試試看”,比如給它幾個(gè)例子,它就能模仿著做(few-shot);甚至沒(méi)例子也能做(zero-shot)
大模型的出現(xiàn),是深度學(xué)習(xí)發(fā)展的重要轉(zhuǎn)折點(diǎn)。以前,做一個(gè)任務(wù)(比如翻譯、問(wèn)答)就要訓(xùn)練一個(gè)專(zhuān)門(mén)的模型?,F(xiàn)在,只需要一個(gè)提前訓(xùn)練好的大模型,配合簡(jiǎn)單的指令(Prompt)或少量微調(diào),就能完成各種任務(wù),大大提升了AI的通用性和效率。
大模型是深度學(xué)習(xí)發(fā)展到一定階段的產(chǎn)物,也是當(dāng)前實(shí)現(xiàn)強(qiáng)大AI能力的主流方式。它是深度學(xué)習(xí)里,通過(guò)“做大做強(qiáng)”實(shí)現(xiàn)能力飛躍的代表。
第五站:大模型中的“語(yǔ)言大師”——LLM (Large Language Models)
在大模型這個(gè)家族中,有一類(lèi)特別亮眼的成員,那就是大型語(yǔ)言模型(LLM)。
LLM是專(zhuān)門(mén)處理文字的大模型,擅長(zhǎng)理解、生成和分析人類(lèi)語(yǔ)言。
它的核心技術(shù)是Transformer架構(gòu)(就是那個(gè)“Attention is all you need”),特別適合處理一段接一段的文字,能理解上下文、抓住語(yǔ)義。
LLM之所以厲害,是因?yàn)樗诤A课谋緮?shù)據(jù)上學(xué)過(guò),比如網(wǎng)頁(yè)、書(shū)籍、對(duì)話、代碼等。在這個(gè)過(guò)程中,它學(xué)會(huì)了語(yǔ)言的用法、知識(shí)、常識(shí),甚至一些邏輯推理。
我們熟悉的ChatGPT、Gemini、Claude、文心一言等,都是典型的LLM,能聊天、寫(xiě)文章、翻譯、編程、總結(jié)信息,甚至還能“創(chuàng)作”。
雖然它們以語(yǔ)言為主,但通過(guò)“多模態(tài)”技術(shù),有的也能看圖、聽(tīng)音頻、生成視頻。不過(guò),本質(zhì)上它們還是以語(yǔ)言為核心。
所以,LLM是大模型中最成功、用得最廣的一類(lèi),主攻語(yǔ)言任務(wù),是整個(gè)大模型圈子里最閃亮的一顆星。
第六站:讓AI能“手腳并用”去完成任務(wù)——Agent (智能體)
前面我們聊了AI的目標(biāo)、實(shí)現(xiàn)方法(ML/DL)、以及強(qiáng)大的工具(大模型/LLM)。但有了強(qiáng)大的“大腦”(大模型),怎么讓它去完成一系列復(fù)雜的任務(wù)呢?比如幫我訂機(jī)票、寫(xiě)一篇帶圖的文章、管理我的日程?靠一次問(wèn)答是不行的。
這時(shí)候,智能體(Agent) 登場(chǎng)了。
智能體(Agent)是一種能感知環(huán)境、思考目標(biāo)、主動(dòng)采取行動(dòng)來(lái)完成任務(wù)的系統(tǒng)。 它不只是被動(dòng)地接收輸入然后輸出,而是有主動(dòng)性和目標(biāo)性。
傳統(tǒng)的軟件Agent很早就存在了(比如幫你過(guò)濾郵件的Agent)。但當(dāng)前語(yǔ)境下討論的“AI Agent”,特別是“基于大模型的Agent”,則擁有前所未有的強(qiáng)大能力,因?yàn)樗鼈兊摹按竽X”是強(qiáng)大的大模型。
基于大模型的Agent通常包含幾個(gè)核心組件:
- 感知:理解用戶(hù)指令、讀取文件、獲取網(wǎng)頁(yè)等信息
- 規(guī)劃:用大模型“思考”怎么完成任務(wù),分步驟執(zhí)行
- 行動(dòng):調(diào)用搜索引擎、API,寫(xiě)郵件、生成文本等
- 記憶:記住中間結(jié)果或你的偏好,方便后續(xù)使用
如果說(shuō)大模型(LLM)是一個(gè)強(qiáng)大的“大腦”,那么Agent就是給這個(gè)大腦安上了“眼睛”(感知)、“手腳”(行動(dòng))和“思考框架”(規(guī)劃/記憶),讓它能夠自主地與外部世界互動(dòng),一步步地解決復(fù)雜問(wèn)題,而不僅僅是回答一個(gè)問(wèn)題。
所以,Agent是一種將大模型(或其他AI能力)落地、使其能夠自主執(zhí)行任務(wù)的應(yīng)用范式或系統(tǒng)架構(gòu)。它代表著讓AI更具自主性和實(shí)用性的方向。 Agent是構(gòu)建在前面所有技術(shù)之上的,是AI金字塔中更靠近實(shí)際應(yīng)用和自主行為的那一層。
概念大串聯(lián):它們到底是什么關(guān)系?
好了,現(xiàn)在我們把這幾個(gè)概念串起來(lái):
- AI:目標(biāo)是讓機(jī)器像人一樣聰明
- 機(jī)器學(xué)習(xí)(ML):實(shí)現(xiàn)AI的一種方法,靠數(shù)據(jù)讓機(jī)器學(xué)規(guī)律
- 深度學(xué)習(xí)(DL):ML中最強(qiáng)的技術(shù),用神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)復(fù)雜特征
- 大模型:DL發(fā)展到一定規(guī)模后出現(xiàn)的新范式,模型越大,能力越強(qiáng)
- LLM:大模型中專(zhuān)門(mén)處理語(yǔ)言的,是目前應(yīng)用最廣、最強(qiáng)的一類(lèi)
- Agent:用LLM等AI能力,構(gòu)建能感知、思考、行動(dòng)的系統(tǒng),完成復(fù)雜任務(wù)
它們的關(guān)系可以簡(jiǎn)單理解為一種包含和演進(jìn)的關(guān)系。
一句話:AI是愿景,ML是方法論,DL是技術(shù)核心,LLM是大腦,大模型是基座,Agent是落地。