偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大神卡帕西拿DeepSeek R1講強(qiáng)化學(xué)習(xí)!最新大模型內(nèi)部機(jī)制視頻爆火,“沒(méi)有技術(shù)背景也能看懂”

人工智能 新聞
發(fā)布三個(gè)半小時(shí)視頻課,深入解析了ChatGPT等大語(yǔ)言模型的內(nèi)部工作機(jī)制,其中涵蓋模型開(kāi)發(fā)的完整訓(xùn)練過(guò)程、如何在實(shí)際應(yīng)用中最有效地使用它們,還有AI未來(lái)發(fā)展趨勢(shì)。

宣布全職搞教育的AI大神Andrej Karpathy(卡帕西),新年第一課來(lái)了——

發(fā)布三個(gè)半小時(shí)視頻課,深入解析了ChatGPT等大語(yǔ)言模型的內(nèi)部工作機(jī)制,其中涵蓋模型開(kāi)發(fā)的完整訓(xùn)練過(guò)程、如何在實(shí)際應(yīng)用中最有效地使用它們,還有AI未來(lái)發(fā)展趨勢(shì)。

卡帕西強(qiáng)調(diào),這次是為大眾準(zhǔn)備的,即使沒(méi)有技術(shù)背景也能看懂!

他在視頻中深入淺出用大量具體示例,如GPT-2、Llama 3.1等,完整講述了大模型的原理。

當(dāng)紅炸子雞DeepSeek也沒(méi)落下,成為一大重點(diǎn)。

卡帕西課程的含金量無(wú)需多言,剛一發(fā)就被網(wǎng)友團(tuán)團(tuán)圍住,熬夜也要看的那種。

網(wǎng)友們表示,接下來(lái)三個(gè)半小時(shí)就這樣過(guò)了:

你知道,Karpathy發(fā)布新視頻,一整天都會(huì)變得非常美好,每個(gè)視頻都是金礦!

機(jī)器學(xué)習(xí)工程師Rohan Paul看后也表示其中有關(guān)于ChatGPT內(nèi)部工作機(jī)制最簡(jiǎn)潔明了的解釋。

話不多說(shuō)了,以下是重點(diǎn)知識(shí)點(diǎn),文末有完整視頻~

重點(diǎn)一覽

用過(guò)類(lèi)似ChatGPT等工具的人可能都會(huì)有這樣的疑問(wèn):

這個(gè)文本框背后是什么?你可以在里面輸入任何內(nèi)容并按回車(chē),但我們應(yīng)該輸入什么?這些生成的詞又是什么意思?這一切是如何工作的?你究竟在與什么交流?

卡帕西在視頻中詳細(xì)解答了這些問(wèn)題。

他從如何構(gòu)建這樣一個(gè)LLM展開(kāi),詳細(xì)講解了所有階段:

  • 預(yù)訓(xùn)練:數(shù)據(jù)、分詞、Transformer神經(jīng)網(wǎng)絡(luò)的輸入/輸出及內(nèi)部機(jī)制、推理、GPT-2訓(xùn)練示例、Llama 3.1基礎(chǔ)推理示例。
  • 監(jiān)督微調(diào):對(duì)話數(shù)據(jù)、“LLM心理學(xué)”:幻覺(jué)、工具使用、知識(shí)/工作記憶、自我認(rèn)知、模型需要token來(lái)思考、拼寫(xiě)、參差不齊的智力。
  • 強(qiáng)化學(xué)習(xí):熟能生巧、DeepSeek-R1、AlphaGo、基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)。

預(yù)訓(xùn)練

首先是預(yù)訓(xùn)練階段,使模型擁有豐富的知識(shí)。

預(yù)訓(xùn)練的第一步是下載和處理互聯(lián)網(wǎng)數(shù)據(jù)。目標(biāo)是從互聯(lián)網(wǎng)的公開(kāi)資源中獲取大量且種類(lèi)多樣的文本、高質(zhì)量文檔,例如FineWeb。

第二步是文本提取。

爬蟲(chóng)獲取的是網(wǎng)頁(yè)的原始HTML代碼,需要過(guò)濾和處理提取出網(wǎng)頁(yè)文本,去除導(dǎo)航和無(wú)關(guān)內(nèi)容。

還要進(jìn)行語(yǔ)言過(guò)濾,例如只保留英語(yǔ)占比超過(guò)65%的網(wǎng)頁(yè),不同公司會(huì)根據(jù)需求決定保留的語(yǔ)言種類(lèi),如果過(guò)濾掉所有的西班牙語(yǔ),那么模型之后在西班牙語(yǔ)上的表現(xiàn)就可能不會(huì)很好。

之后,還會(huì)進(jìn)行去重、移除個(gè)人身份信息等進(jìn)一步的過(guò)濾步驟,最終得到大規(guī)模的文本數(shù)據(jù),進(jìn)入訓(xùn)練集。

接下來(lái)要做的是在這些數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在將文本輸入神經(jīng)網(wǎng)絡(luò)之前,需要將文本轉(zhuǎn)換為一維符號(hào)序列。

通過(guò)字節(jié)對(duì)編碼(BPE)算法,將常見(jiàn)的字節(jié)組合成新符號(hào),從而減少序列長(zhǎng)度并增加符號(hào)詞匯量。tokenization是將文本轉(zhuǎn)換為符號(hào)序列的過(guò)程,不同的輸入文本會(huì)根據(jù)tokenization規(guī)則生成不同的符號(hào)序列。

訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),從數(shù)據(jù)集中隨機(jī)抽取token作為輸入,并預(yù)測(cè)下一個(gè)token。神經(jīng)網(wǎng)絡(luò)的輸出是下一個(gè)token出現(xiàn)的概率分布。

通過(guò)訓(xùn)練過(guò)程不斷更新網(wǎng)絡(luò)參數(shù),使預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)的統(tǒng)計(jì)模式一致。

神經(jīng)網(wǎng)絡(luò)內(nèi)部是一個(gè)復(fù)雜的數(shù)學(xué)表達(dá)式,輸入token序列與網(wǎng)絡(luò)參數(shù)混合,經(jīng)過(guò)多層變換后輸出預(yù)測(cè)結(jié)果?,F(xiàn)代神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如Transformer,具有大量參數(shù)和復(fù)雜的內(nèi)部結(jié)構(gòu),但本質(zhì)上是通過(guò)優(yōu)化參數(shù)來(lái)使預(yù)測(cè)結(jié)果與訓(xùn)練數(shù)據(jù)匹配。

訓(xùn)練過(guò)程需要強(qiáng)大的計(jì)算資源支持,依賴(lài)高性能GPU集群,這些硬件能夠高效處理大規(guī)模并行計(jì)算任務(wù),加速模型的訓(xùn)練和優(yōu)化。隨著技術(shù)的發(fā)展,訓(xùn)練成本逐漸降低,但大規(guī)模模型的訓(xùn)練仍然需要大量的計(jì)算資源投入。

卡帕西在視頻中以GPT-2為例討論了訓(xùn)練,包括其參數(shù)、上下文長(zhǎng)度和訓(xùn)練成本。

之后他又以Llama 3為例討論了基礎(chǔ)語(yǔ)言模型的屬性,它可以生成類(lèi)似于互聯(lián)網(wǎng)文檔的token序列,并將知識(shí)存儲(chǔ)在其參數(shù)中。

然而,模型的輸出具有隨機(jī)性,每次生成的結(jié)果可能不同,且模型可能會(huì)過(guò)度記憶訓(xùn)練數(shù)據(jù)中的某些內(nèi)容,導(dǎo)致輸出與訓(xùn)練數(shù)據(jù)高度相似,甚至直接復(fù)述某些條目。

這種現(xiàn)象在實(shí)際應(yīng)用中可能會(huì)帶來(lái)問(wèn)題,例如模型可能無(wú)法區(qū)分事實(shí)和虛假信息,因?yàn)樗皇腔谟?xùn)練數(shù)據(jù)的統(tǒng)計(jì)規(guī)律進(jìn)行生成。

預(yù)訓(xùn)練階段,模型通過(guò)大量互聯(lián)網(wǎng)文檔數(shù)據(jù)學(xué)習(xí)生成文本的能力,輸出為基礎(chǔ)模型,它能夠生成與互聯(lián)網(wǎng)文檔統(tǒng)計(jì)特性相似的token序列,但本身并不是一個(gè)能夠回答問(wèn)題的“助手”。

所以還需要后訓(xùn)練。

后訓(xùn)練

在后訓(xùn)練階段,模型通過(guò)學(xué)習(xí)人類(lèi)標(biāo)注的對(duì)話數(shù)據(jù)來(lái)調(diào)整其行為,從而能夠生成符合人類(lèi)期望的回答。數(shù)據(jù)集規(guī)模較小,訓(xùn)練時(shí)間也相對(duì)較短。

早期的對(duì)話數(shù)據(jù)集(如InstructGPT)主要由人類(lèi)標(biāo)注人員手工創(chuàng)建,但隨著技術(shù)的發(fā)展,現(xiàn)代的對(duì)話數(shù)據(jù)集越來(lái)越多地利用現(xiàn)有的語(yǔ)言模型來(lái)生成初始回答,然后由人類(lèi)進(jìn)行編輯和優(yōu)化。這些數(shù)據(jù)集可能包含數(shù)百萬(wàn)條對(duì)話,覆蓋廣泛的主題和領(lǐng)域。

具體來(lái)說(shuō),后訓(xùn)練包括監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)

在監(jiān)督微調(diào)階段,模型通過(guò)創(chuàng)建對(duì)話數(shù)據(jù)集,學(xué)習(xí)如何與人類(lèi)進(jìn)行多輪對(duì)話

例如,OpenAI的InstructGPT論文詳細(xì)介紹了如何通過(guò)人類(lèi)標(biāo)注者創(chuàng)建對(duì)話數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)階段,目的是讓模型通過(guò)實(shí)踐和試錯(cuò)來(lái)發(fā)現(xiàn)解決問(wèn)題的最佳方法。

卡帕西用人類(lèi)在學(xué)校學(xué)習(xí)的過(guò)程類(lèi)比。預(yù)訓(xùn)練相當(dāng)于閱讀課本中的背景知識(shí),微調(diào)相當(dāng)于學(xué)習(xí)專(zhuān)家提供的解題方法,而強(qiáng)化學(xué)習(xí)則相當(dāng)于通過(guò)練習(xí)題來(lái)鞏固知識(shí),自己探索解題步驟。

具體來(lái)說(shuō),模型會(huì)嘗試多種不同的解題方法,這些方法可能來(lái)自不同的prompt。之后評(píng)估解決方案,檢查每個(gè)解決方案是否正確。正確的解決方案會(huì)被標(biāo)記為“好”,錯(cuò)誤的解決方案會(huì)被標(biāo)記為“壞”。

模型會(huì)根據(jù)正確答案的解決方案進(jìn)行訓(xùn)練,強(qiáng)化那些能夠得到正確答案的解決方案。這類(lèi)似于學(xué)生在練習(xí)中發(fā)現(xiàn)有效的方法后,會(huì)更多地使用這些方法。

強(qiáng)化學(xué)習(xí)和人類(lèi)標(biāo)注相比,人類(lèi)標(biāo)注者在創(chuàng)建訓(xùn)練數(shù)據(jù)時(shí),很難知道哪種解決方案最適合模型。人類(lèi)標(biāo)注者可能會(huì)注入模型不理解的知識(shí),或者忽略模型已有的知識(shí),導(dǎo)致模型難以理解。而強(qiáng)化學(xué)習(xí)讓模型通過(guò)試錯(cuò)來(lái)自主發(fā)現(xiàn)適合自己的解決方案。

模型會(huì)嘗試多種路徑,找到能夠可靠地達(dá)到正確答案的解決方案。

卡帕西用具體示例討論了強(qiáng)化學(xué)習(xí)在大語(yǔ)言模型中的應(yīng)用及其重要性,特別是DeepSeek最近發(fā)布的論文引發(fā)了公眾對(duì)這一領(lǐng)域的關(guān)注。

他還講了人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)工作原理及其優(yōu)缺點(diǎn)。

最后卡帕西提到了多模態(tài)模型的發(fā)展,模型能夠?qū)⒁纛l、圖像和文本轉(zhuǎn)化為tokens,并在同一個(gè)模型中同時(shí)處理。

這種多模態(tài)能力將使模型能夠進(jìn)行更自然的交互,例如理解語(yǔ)音指令、處理圖像內(nèi)容等。

目前局限性在于,模型執(zhí)行任務(wù)時(shí),通常是被動(dòng)地接收任務(wù)并完成,無(wú)法像人類(lèi)那樣在長(zhǎng)時(shí)間內(nèi)持續(xù)、連貫地執(zhí)行復(fù)雜任務(wù)。

未來(lái)可能會(huì)出現(xiàn)能夠持續(xù)執(zhí)行任務(wù)的Agent,可以在長(zhǎng)時(shí)間內(nèi)執(zhí)行任務(wù),并定期向人類(lèi)報(bào)告進(jìn)度。人類(lèi)將成為這些Agent的監(jiān)督者。

感興趣的童鞋來(lái)看完整視頻

持續(xù)專(zhuān)注于教育的AI大牛

卡帕西曾任特斯拉AI主管,之后去了OpenAI,去年2月從OpenAI離職。

他在整個(gè)AI屆擁有超高人氣,很大一部分來(lái)自于他的課程。

包括他自己的早期博客文字分享和后來(lái)的一系列Youtube視頻教程,他還與李飛飛合作開(kāi)設(shè)的的斯坦福大學(xué)首個(gè)深度學(xué)習(xí)課程CS231n《卷積神經(jīng)網(wǎng)絡(luò)與視覺(jué)識(shí)別》。

今天不少學(xué)者和創(chuàng)業(yè)者,都是跟著他入門(mén)的。

卡帕西對(duì)教育的熱情,甚至可以追溯到學(xué)生時(shí)期在網(wǎng)上教大家玩魔方。

去年7月,從OpenAI離職的卡帕西突然官宣創(chuàng)業(yè),搞了一家AI原生的新型學(xué)?!?strong>Eureka Labs。

怎么理解AI原生?

想象一下與費(fèi)曼一起學(xué)習(xí)高質(zhì)量教材,費(fèi)曼會(huì)在每一步中1對(duì)1指導(dǎo)你。

不幸的是,即使每個(gè)學(xué)科都能找到一位像費(fèi)曼這樣的大師,他們也無(wú)法分身親自輔導(dǎo)地球上的80億人。

但AI可以,而且AI有無(wú)限的耐心,精通世界上所有的語(yǔ)言。

所以卡帕西要打造“教師+人工智能的共生”,可以在一個(gè)通用平臺(tái)上運(yùn)行整個(gè)課程。

如果我們成功了,任何人都將易于學(xué)習(xí)任何東西,擴(kuò)大教育這個(gè)概念本身的“范圍”和“程度”。

目前在EurekaLabs的官方GitHub賬號(hào)上也有相關(guān)課程了,手把手帶你構(gòu)建一個(gè)類(lèi)似ChatGPT的故事生成大模型,感興趣的童鞋可以去一睹為快。

視頻鏈接:https://www.youtube.com/watch?v=7kVfqmGtDL8

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2019-11-18 10:38:03

線程池Java框架

2025-10-20 08:48:00

2025-02-17 13:00:00

ChatGPT大模型AI

2025-02-17 10:09:54

2017-02-22 15:04:52

2013-09-22 10:34:08

碼農(nóng)機(jī)器學(xué)習(xí)算法

2019-03-26 11:15:34

AI機(jī)器學(xué)習(xí)人工智能

2025-04-03 09:42:05

2018-12-24 08:46:52

Kubernetes對(duì)象模型

2025-01-21 11:53:53

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-04-28 14:06:24

大模型AIOpenAI

2025-02-25 08:20:50

AI程序員DeepSeek

2025-01-27 12:30:07

2019-10-10 11:10:04

SpringBoot異步編程

2020-02-15 17:16:05

Kubernetes容器

2018-03-06 10:38:23

云計(jì)算大數(shù)據(jù)人工智能

2025-02-20 17:19:08

2025-04-09 09:41:43

2024-11-01 05:10:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)