從理論到實(shí)踐:學(xué)會如何商用 DeepSeek,收藏這一篇就夠了
Hi,大家好,我叫秋水,當(dāng)前專注于 AI Agent 和 AI 工作流自動化。
近期 DeepSeek,全球聞名,大家紛紛在討論,我看過很多文章和視頻,很多說的有點(diǎn)夸張,23 年 AI 剛來的那些內(nèi)容,又重新說了一遍,只是把 AI 兩個字母換成了 DeepSeek。
在我看來,DeepSeek 出圈的主要原因是能力強(qiáng)、價格低、開源、可以本地部署,這個好處在于企業(yè)在 AI 方面的應(yīng)用會加速落地,我們國內(nèi)的用戶不需要那么麻煩的出海使用 ChatGPT 了。
今天這期內(nèi)容,我會結(jié)合大模型的一些底層原理,從商用的視角從理論到實(shí)踐給大家介紹一下 DeepSeek,內(nèi)容包含如下幾個部分。
第一部分,介紹大模型的運(yùn)行原理,例如什么是大模型的推理能力?它與通用大模型有何區(qū)別?通用大模型如何增強(qiáng)推理能力?具有推理能力的大模型是如何工作的?
第二部分,介紹大模型的上下文長度的概念,這也是是影響大模型輸出質(zhì)量很重要的一個方面,必看。
第三部分,介紹 DeepSeek R1 的提示詞的使用技巧,例如 DeepSeek R1 萬能提示模版,通過例子可以看到它與通用大模型 DeepSeek V3 的區(qū)別,商用場景下的提示詞示例,與 R1 交互影響輸出質(zhì)量的因素有哪些?
第四部分,拋磚引玉,介紹 DeepSeek 的商用場景都有哪些?其中開始會介紹一下 DeepSeek R1 帶給我們的驚喜有哪些?最近經(jīng)常聽到的強(qiáng)化學(xué)習(xí)和蒸餾是什么意思?它帶給我們的商業(yè)思考是什么?R1 蒸餾出來的小模型部署需要的硬件配置怎樣的?
如上這些內(nèi)容,在我們在打造一個 AI Agent 的過程中,也是花時間比較多的地方,這也是我們需要重點(diǎn)學(xué)習(xí)的知識。
只有你知道了大模型的一些基本底層原理、能力范圍,你才能在流程設(shè)計上去彌補(bǔ)這些能力缺陷。
記住,商用 AI Agent 需要重點(diǎn)考慮運(yùn)行成本、穩(wěn)定性、可實(shí)施性、準(zhǔn)確性,這期內(nèi)容重點(diǎn)也在講運(yùn)行成本和準(zhǔn)確性。
第一部分 大模型的運(yùn)行原理
首先,我們先簡單介紹一下通用大模型和推理大模型指的是什么?
什么是通用大模型
通用大模型指的是像 DeepSeek V3、OpenAI GPT-4 之類的模型。
這類模型相當(dāng)于一個擁有強(qiáng)大知識儲備的研究生或博士生,他們通過大量的訓(xùn)練積累了豐富的知識和經(jīng)驗(yàn)。
什么是大模型的推理能力
推理大模型指的是 DeepSeek 的 R1、Kimi 的 k1.5 和探索版、OpenAI 的 o1、o3 等模型。
這類模型是建立在通用大模型基礎(chǔ)上,增強(qiáng)了推理、邏輯分析和決策能力。
它相當(dāng)于一位大偵探福爾摩斯,可以從蛛絲馬跡的細(xì)節(jié)中,推導(dǎo)出很多隱藏的真相和答案,幫我更好的解決問題。
DeepSeek-R1 的推理能力是在 V3 的基礎(chǔ)上進(jìn)一步訓(xùn)練的。
AI Agent 的核心能力也是建立在大模型的推理能力之上的,推理能力越強(qiáng),AI Agent 的自主解決、處理能力就越強(qiáng)。
通用大模型和推理大模型的區(qū)別
為了更好的區(qū)分兩種大模型,我們先說一個概念,“慢思考,快思考”,快思考對應(yīng)系統(tǒng) 1,慢思考對應(yīng)系統(tǒng) 2,這是獲過諾貝爾經(jīng)濟(jì)學(xué)獎的丹尼爾·卡尼曼在其著作《思考,快與慢》中提出的一個概念。
快思考(系統(tǒng) 1) | 慢思考(系統(tǒng) 2) | |
舉例 | 3+5 等于幾? 我們立刻就知道答案是 8,這就是大腦中的快思考。 | 127 * 206 等于多少? 我們大多數(shù)人就需要一張草稿紙,一步一步的進(jìn)行運(yùn)算,這就是慢思考。 |
解釋 | 思考過程是無意識的,而且毫不費(fèi)力,一切都是自然而然發(fā)生的。 | 首先,你會從記憶中重新提取讀書時所學(xué)的乘法相關(guān)知識,然后加以運(yùn)用。 這個過程不容易,你得記住很多內(nèi)容,你要知道自己算到哪一步了,知道下一步該怎樣做,同時還要記住已得到的結(jié)果。 這個計算過程是腦力工作,需要刻意、努力并且有序地進(jìn)行。 |
特點(diǎn) | 脫口而出 | 三思而后行 |
結(jié)果 | 不熟悉的,需要深度思考,出錯的概率大 | 思考周全,出錯概率不大 |
理解了“快思考,慢思考”,我們在來理解通用大模型和推理型大模型就容易多了,“快思考”對應(yīng)的就是通用大模型 ,“慢思考”對應(yīng)的就是具有推理能力的大模型。
兩者之間區(qū)別是:
- 推理大模型的優(yōu)勢在于數(shù)學(xué)、邏輯分析、代碼生成、復(fù)雜問題拆解;劣勢在于創(chuàng)造力,例如內(nèi)容創(chuàng)作、創(chuàng)意、想象力等。
- 通用大模型的優(yōu)勢在于文本生成、創(chuàng)意寫作、多輪對話等通用場景,劣勢在于推理大模型的優(yōu)勢部分。
簡單的理解,可以把推理大模型看成理科生,通用大模型看成文科生。
通用大模型如何提升推理能力
接下來,我們再看看通用大模型是如何提升推理能力的。
思維鏈
一種方式是基于思維鏈(Chain of Thought, CoT),就是讓大模型將一個復(fù)雜問題拆解為一個個的子問題,再依次解決。
簡單來說,就是在給大模型的提示中明確告訴它應(yīng)該怎么去思考,或者在提示詞后面,增加“請一步一步思考”,就可以“喚醒”通用大模型的推理能力,這種推理能力不是大模型的自身帶的,而是我們通過引導(dǎo)激發(fā)出來的。
我們用一個翻譯的例子進(jìn)一步說明一下。
如下圖片為在提示詞的最后追加了“請一步一步思考”。
可以看到大模型自己將翻譯過程自動分成多個步驟,每一個步驟都是一次思考,最終輸出翻譯結(jié)果。
如下圖片為我們在提示詞中,規(guī)定了大模型的翻譯步驟。
可以看到大模型按照我們規(guī)定的步驟進(jìn)行思考,最后輸出翻譯結(jié)果。
AI 工作流編排
另外一種方式,就是 AI 工作流編排,它將復(fù)雜的任務(wù)分解為一個個有序的步驟,從而解決一些復(fù)雜問題,它本質(zhì)上是思維鏈的一種應(yīng)用。
例如 Coze 、Dify 中我們用到的工作流,流程中的每個節(jié)點(diǎn)都可以被視為思維鏈中的一個“思考步驟”。
如下為在 Coze 中編排的一個文章總結(jié)、保存到飛書中的工作流,在整個流程中,可以調(diào)用大模型、可以對接第三方平臺,可以執(zhí)行代碼等等。
這種方式擴(kuò)寬了大模型解決問題的能力邊界。
以上兩種方式都是通過外部手段提升通用大模型的推理能力,這種后期的人為提升,肯定也是因人而異,有的人會寫提示詞,有的人會設(shè)計流程,有的人啥也不會。
所以我們更希望能利用大模型自身來去解決復(fù)雜問題,我們不需要寫復(fù)雜的提示詞,只需要提出我們的需求,這個時候大模型的推理能力應(yīng)運(yùn)而生。
大模型的推理能力如何工作的
2024 年 9 月份 OpenAI 公司發(fā)布的 o1 是第一款具有推理能力的模型。
2025 年 1 月 20 日,DeepSeek 正式發(fā)布 DeepSeek-R1 推理能力模型,由于開源,且性價比相當(dāng)高,馬上火爆出圈。
這種推理能力就是將前面提到的思維鏈和工作流編排(目前只包含提示詞,不包含工具調(diào)用等)嵌入到模型自身,使得模型在生成最終答案前能夠進(jìn)行邏輯推理,考慮多種方案,然后選擇最優(yōu)方案,這種運(yùn)行方式也是我們前面提到的“慢思考”。
下面的圖片是 DeepSeek-R1 模型的內(nèi)部推理過程,從圖片中我們可以看到三輪推理過程中,期間每次都會把上一輪的問題和回答傳到下一輪,用于后面借鑒,幾輪下來后,Token 就會越來越大。
最終需要幾輪,要看模型在哪一輪能發(fā)現(xiàn)最優(yōu)解決方案,則推理成功,輸出結(jié)果。
從整個推理過程中,我們可以發(fā)現(xiàn)幾個現(xiàn)象:
- 推理時間長,需要用戶等待幾秒、幾十秒、甚至幾分鐘,那么在商用的時候就需要從用戶的角度去考慮這一點(diǎn),讓客戶干等著?還是讓它異步執(zhí)行,執(zhí)行完后給用戶通知?
- 過程會產(chǎn)生大量的 Token,成本就會高,它可能是通用大模型的幾十倍甚至上百倍,那么商用的時候,我們需要著重關(guān)注 Token 的消耗情況,此外是用本地部署?還是用云端?需要綜合考量。
- 不是所有的場景都用推理模型,在一個 AI Agent 中應(yīng)該根據(jù)場景特點(diǎn),混合使用大模型。
如下圖是在 DeepSeek R1 上運(yùn)行剛才翻譯的例子,可以看到思考過程輸出的內(nèi)容很多,在商用調(diào)用 API 接口的時候,這些內(nèi)容都會消耗 Token,計算為費(fèi)用。
我們可以對比一下,三種形式的翻譯,結(jié)果基本一樣,采用推理模型雖然提示詞簡單,但是過程消耗的 Token 太多了,所以這種場景就可以不使用推理大模型。
我們再舉一個極端的例子,“1+1 等于幾”,來看看通用大模型和推理大模型的輸出情況,可以更加直觀的可以看到一個簡單的問題使用推理大模型,消耗的 Token 是通用大模型的好多倍。
這相當(dāng)于問大偵探福爾摩斯一個簡單的問題,福爾摩斯心里想問到我這里的問題能是簡單的問題嗎,然后腦子里就開始飛速的轉(zhuǎn)起來,這里推理一下,那邊在推理一下,結(jié)果到最后一看,原來謎底就在謎面上啊,費(fèi)了那么多腦細(xì)胞。
第二部分 大模型的上下文長度的概念
說完大模型的運(yùn)行原理,接下來,我們在一起看一個概念“上下文”。
這個知識點(diǎn)非常重要,重點(diǎn)中的重點(diǎn),大家一定要搞清楚這個概念,很多朋友和大模型聊一會發(fā)現(xiàn)輸出的內(nèi)容越來越差,大概率是因?yàn)椴磺宄@個知識點(diǎn)。
這個也是大模型的能力邊界中的一個知識點(diǎn),知道能力邊界后,我們在開發(fā) AI Agent 的時候,在與大模型交互的時候,才知道采取何種策略來解決。
上下文分為上下文長度(Context Length)和上下文窗口(Context Window)。
上下文長度,決定了一次性輸出的字?jǐn)?shù)
上下文長度(Context Length), 決定了大模型一次性可以輸出文字的數(shù)量。
它是我們與大模型單次交互中可以處理的最大 Token 數(shù)量,這個數(shù)量包含我們的輸入和大模型的輸出。
這就意味著我們在輸入提問時的提示詞越多,那么大模型返回內(nèi)容的 Token 數(shù)量就越少。
注意,有的大模型沒有注明上下文長度,例如 DeepSeek V3 和 R1 的官方文檔中約定了一次最大輸出長度為 8K Token,即大約 4000 個漢字。
簡單解釋一下 Token,它是大模型用來表示自然語言的基本單位,也是計費(fèi)單位,可以直觀的理解為“字”或“詞”,通常 1 個中文詞語、1 個英文單詞、1 個數(shù)字或 1 個符號計為 1 個 Token。
不同模型的 Token 和 字?jǐn)?shù)換算情況不一樣,如下是 DeepSeek 的官方換算規(guī)則:
- 1 個英文字符 ≈ 0.3 個 Token。
- 1 個中文字符 ≈ 0.6 個 Token。
還有一個問題,我們需要注意的是,上下文長度中的輸入不僅僅包含我們輸入的提示詞,還包含聊天應(yīng)用底層的系統(tǒng)提示詞和我們不知道的其他輸入,我們上傳的文檔,互聯(lián)網(wǎng)搜索的內(nèi)容等等。
有的朋友可能又有疑問了,我上傳的文檔相當(dāng)之大,已經(jīng)超出了上下文長度了,為什么第一次交互的時候,輸出的結(jié)果還不錯呢?那可能是聊天應(yīng)用端做了優(yōu)化處理,例如先將文檔讀取、識別、總結(jié)后,然后連同我們寫的提示詞一起發(fā)給大模型,具體大家需要親自測試。
如果我們發(fā)現(xiàn)大模型輸出的內(nèi)容本應(yīng)該很多,但是卻很少,就需要看看是不是我們一次性輸入的內(nèi)容是不是太多了,或者一次性讓大模型輸出不同維度的內(nèi)容太多了。
上下文窗口,決定了一次會話中可以記憶多少內(nèi)容
上下文窗口(Context Window),決定了一次會話中可以記憶多少內(nèi)容。
就是在大模型回復(fù)時可以參考前面內(nèi)容的范圍,例如在一個會話里,你已經(jīng)和大模型互動了 10 次,在第 11 次互動時,大模型可以參考前面 10 次互動的內(nèi)容,這樣有助于大模型回復(fù)的時候保持與前面的內(nèi)容保持一致性。
例如我們再讓大模型幫我們對數(shù)據(jù)進(jìn)行分析,前面幾輪互動中,我們發(fā)給大模型一些數(shù)據(jù),那么后續(xù)大模型回復(fù)的時候,就會依據(jù)這些數(shù)據(jù)進(jìn)行回復(fù)。
但是如果幾輪互動后,輸入輸出的總長度超過了上下文窗口的總長度,那么最早的數(shù)據(jù),大模型就會忘記,會導(dǎo)致后面的數(shù)據(jù)分析沒有之前的數(shù)據(jù)作為依托,出現(xiàn)胡說八道的情況。
因此如果發(fā)現(xiàn)與大模型幾輪互動后,發(fā)現(xiàn)它輸出的內(nèi)容越來越不靠譜,那么就需要考慮一下是否超出了上下文窗口的總長度。
這種情況下,就需要和大模型在多個會話中交互,解決同一個問題。
在 DeepSeek V3 和 R1 的官方文檔中約定了上下文窗口長度為 64K Token,即大約 2-3 萬個漢字。
我們大家要注意每家大模型對于上下文長度、上下文窗口長度的定義不一樣,DeepSeeK 定義了最大輸出長度和上下文長度,這里的上下文長度就是上下文窗口長度。
需要我們?nèi)ス俜娇磳?yīng)的解釋。
小結(jié)一下:
上下文長度和上下文窗口越大,大模型對我們提出的問題理解的就越深刻、越精準(zhǔn),這相當(dāng)于腦容量的大小。
- 總結(jié) 500 頁書為兩頁時,大模型需理解書的結(jié)構(gòu)和核心觀點(diǎn),較大的上下文有助于更好地把握內(nèi)容。
- 創(chuàng)作 3 萬字小說時,大模型需理解小說結(jié)構(gòu)和情節(jié)發(fā)展,較大的上下文可幫助其把握故事走向。
- 在 AI 客服應(yīng)用中,客戶與 AI 機(jī)器人可能長時間對話,較大的上下文能讓機(jī)器人記住早期聊天記錄。
- 在代碼編寫中,大模型需理解代碼上下文,如變量定義、函數(shù)調(diào)用等,較大的上下文可幫助其理解代碼結(jié)構(gòu),一次性生成整個項(xiàng)目代碼。
- 在 RAG 場景中,模型需結(jié)合外部文檔或搜索數(shù)據(jù)生成回答,較大的上下文有助于理解檢索內(nèi)容并結(jié)合問題生成準(zhǔn)確回答。
第三部分 DeepSeek R1 的提示詞的使用技巧
接下來我們開始聊 R1 的提示詞使用技巧。
DeepSeek V3 提示詞生成器、模版
在講 DeepSeek R1 之前,我們先看看用大模型 DeepSeek V3 的提示詞,V3 的提示詞跟其他大模型的差不多,官方網(wǎng)站也有最佳實(shí)踐的例子,其中一個例子“模型提示詞生成”,我們可以用它來生成你需要的提示詞,然后在進(jìn)行調(diào)整。
DeepSeek 官方提示詞生成器:
你是一位大模型提示詞生成專家,請根據(jù)用戶的需求編寫一個智能助手的提示詞,來指導(dǎo)大模型進(jìn)行內(nèi)容生成,要求:
1. 以 Markdown 格式輸出
2. 貼合用戶需求,描述智能助手的定位、能力、知識儲備
3. 提示詞應(yīng)清晰、精確、易于理解,在保持質(zhì)量的同時,盡可能簡潔
4. 只輸出提示詞,不要輸出多余解釋
請幫我生成一個“Linux 助手”的提示詞
DeepSeek R1 萬能提示詞模版
接著我們看一下 DeepSeek R1 的萬能提示詞模版。
背景 + 需求 + 【結(jié)構(gòu)化提問 + 輸出風(fēng)格 】
注:
1、背景和目的是必須的,結(jié)構(gòu)化提問、輸出風(fēng)格可以根據(jù)實(shí)際情況進(jìn)行選擇。
2、提示詞簡潔,無廢話。
3、結(jié)構(gòu)化提問、輸出風(fēng)格的作用是限定大模型的推理方向,但在一定程度上也會降低大模型的思考維度。
背景
簡潔的說明你的背景,可以讓 AI 理解你的真實(shí)需求,背景可以是你自身的角色或者知識水平,也可以是你的業(yè)務(wù)場景,也可以是一些限制條件。
可以按照「領(lǐng)域 + 知識水平 + 限制」的結(jié)構(gòu)說明。
例如:"(領(lǐng)域)我要開發(fā)一款管理自媒體的 AI Agent,(知識水平)我不會編程,(限制)需要在 1 個月內(nèi)實(shí)現(xiàn)熱點(diǎn)素材自動化采集,(問題)請問應(yīng)該選擇哪個無代碼開源框架?"
需求
明確你的核心問題,避免模糊提問。
例如:
錯誤示例:“請幫我推薦一個采集框架”。
正確示例:“請幫我推薦一款不需要寫代碼,通過配置就可以采集數(shù)據(jù)的開源框架”。
結(jié)構(gòu)化提問
結(jié)構(gòu)化提問的方式,可以讓大模型有重點(diǎn)的按照指定順序輸出。
例如:分析市場時,可以在提示詞中加入結(jié)構(gòu)化的提問:“第一步:分析挖掘機(jī)市場的主要競爭者;第二步:列出每個競爭者的市場份額和產(chǎn)品特點(diǎn);第三步:預(yù)測市場未來的趨勢?!?/span>
輸出風(fēng)格
輸出風(fēng)格一方面可以對技術(shù)類內(nèi)容,讓其通俗易懂的講解,或者模仿某個人的風(fēng)格寫作,例如提示詞中加入“通俗易懂”、“講人話”、“用脫口秀風(fēng)格”。
例如:“我是技術(shù)小白,給我講一下什么大模型?講人話”。
通用大模型和推理大模型在提示詞方面區(qū)別
接著我們看一下通用大模型和推理大模型在提示詞方面的區(qū)別。
通過示例對比,我們可以看到推理模型的提示詞我們盡可能的要寫的簡單,寫的過多會影響大模型的各個維度的思考。
但是通用大模型則不一樣,它擁有豐富的知識儲備,但是不會進(jìn)行“慢思考”,所以我們和它交流的時候,我們需要給它思考的步驟,即思維鏈。
商用場景提示詞示例
接下來,我們聊一下一些商用使用場景,可以分為讓大模型幫我們做決策、做分析、想創(chuàng)意、驗(yàn)證方案、規(guī)劃執(zhí)行策略。
如下示例為拋磚引玉,具體還是需要結(jié)合自身的需求來撰寫。
每一個場景模版的第一部分是必須要寫的,后面幾部分是為了限定大模型的思考方向、輸出形式。
具體的,可以兩者都發(fā)送給大模型,看看哪個回答效果更好。
做決策
介紹:讓 AI 從多個方案中選擇一個最好的方案。
模版:目標(biāo)(想達(dá)成什么)+ 選項(xiàng)(有哪些選擇)+ 評估標(biāo)準(zhǔn)(怎么判斷好壞)。
為了加大企業(yè)在自媒體平臺的傳播力度,促進(jìn)銷售,現(xiàn)有兩種方案:
1、投放廣告 2、加大原創(chuàng)內(nèi)容制作
請根據(jù) AARRR 增長漏斗模型,對比 6 個月內(nèi)的數(shù)據(jù)(附件 Excel),推薦最優(yōu)方案。
做分析
介紹:提供數(shù)據(jù)給 AI,讓 AI 挖掘數(shù)據(jù)背后的規(guī)律和原因。
模版:問題(想知道什么)+ 數(shù)據(jù)/信息(手頭有什么資料)+ 分析方法(怎么挖)。
分析公司過去一年的自媒體運(yùn)營數(shù)據(jù)(附 Excel),說明:
1、內(nèi)容發(fā)布頻率與粉絲增長的關(guān)聯(lián)性;
2、使用 ARIMA 模型對下一年度的運(yùn)營方式進(jìn)行預(yù)測,并詳細(xì)解釋所選模型的參數(shù)選擇依據(jù)。
想創(chuàng)意
介紹:讓 AI 為企業(yè)的營銷、宣傳等提供創(chuàng)新的、腦洞大開的內(nèi)容。
模版:主題(搞什么)+ 風(fēng)格/約束(有什么要求)+ 創(chuàng)新方向(怎么與眾不同)。
設(shè)計一套自媒體內(nèi)容創(chuàng)新方案,要求:
1、提升內(nèi)容的吸引力和傳播力;
2、結(jié)合熱點(diǎn)話題和用戶興趣;
3、提供兩種不同內(nèi)容形式的創(chuàng)意方案說明。
驗(yàn)證方案
介紹:提供方案給 AI ,讓 AI 協(xié)助驗(yàn)證方案的可行性、可落地性或者風(fēng)險點(diǎn)等。
模版:結(jié)論/方案(驗(yàn)證什么)+ 驗(yàn)證方法(怎么檢查)+ 風(fēng)險點(diǎn)(可能哪里出問題)。
A 形式標(biāo)題優(yōu)于 B 形式標(biāo)題,請驗(yàn)證:
1、兩種形式數(shù)據(jù)指標(biāo) 2、通過 A/B 測試
如何執(zhí)行
介紹:給出目標(biāo),讓 AI 協(xié)助輸出執(zhí)行過程,例如寫代碼、畫流程圖。
模版:任務(wù)(做什么)+ 步驟約束(怎么操作)+ 輸出格式(結(jié)果長啥樣)。
梳理<自媒體編輯>這個角色的工作流程,要求: 1、標(biāo)記哪些可以由 AI 來協(xié)助,哪些我來去做。 2、以表格的形式(工作內(nèi)容/AI 協(xié)助/人工來做)輸出。
DeepSeek R1 寫提示詞的注意事項(xiàng)
- 無須提供參考例子,否則 R1 性能會出現(xiàn)明顯下降。
- 復(fù)雜角色扮演以及 JSON 輸出,R1 的表現(xiàn)不及通用大模型 DeepSeek V3。
- 避免一次會話中與 R1 多輪交互,多輪交互后其表現(xiàn)不如 V3。
- 不要用思維鏈提示,例如一步步思考等提示詞。
- 概念解釋不需要了,R1 會自己搞明白,例如提示詞中用到“金字塔原理”,無需對其解釋。
- R1 和 V3 的單次輸出字?jǐn)?shù)在 2000 - 4000 個漢字,如果讓大模型一次性輸出的內(nèi)容太多,可以分多次輸出。
- R1 和 V3 一次會話的總字?jǐn)?shù)在 2 萬 - 3 萬個漢字,上傳附件時需要注意,否則前面的內(nèi)容 AI 會忘記。
- 原先的結(jié)構(gòu)化提示詞依然有用,但主要集中在背景和需求描述上,但需要簡潔明了。
- 背景、需求描述上不要過于籠統(tǒng),也不要過度復(fù)雜,缺少關(guān)鍵細(xì)節(jié)會讓結(jié)果偏離預(yù)期,要求太多則會讓 R1 難以抓住重點(diǎn),或者限制它的自由推理空間。
- 初次輸出不滿意不要放棄,一方面可以要求 AI 對輸出的內(nèi)容自我評估,提供改進(jìn)建議,另外一方面我們可以在后續(xù)提問指導(dǎo) AI 進(jìn)行改進(jìn)。
什么是 Temperature?
有的朋友可能不知道 Temperature 參數(shù)是起什么作用?
Temperature 設(shè)置的值越高,AI 輸出的內(nèi)容更有創(chuàng)意,更加天馬行空,例如詩歌創(chuàng)作。
反之,輸出的內(nèi)容更加嚴(yán)謹(jǐn),例如代碼生成、數(shù)學(xué)解題。
在 DeepSeek 官方聊天窗口,Temperature 參數(shù)默認(rèn)設(shè)置為 1.0,但在其他平臺上是可以配置這個參數(shù),如下為官方提供的建議。
場景 | 溫度 |
代碼生成/數(shù)學(xué)解題 | 0 |
數(shù)據(jù)抽取/分析 | 1 |
通用對話 | 1.3 |
翻譯 | 1.3 |
創(chuàng)意類寫作/詩歌創(chuàng)作 | 1.5 |
小結(jié)一下
DeepSeek 官方對 R1 的能力描述,它在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上表現(xiàn)很不錯,因此不要把它當(dāng)成萬能的 大模型。
DeepSeek-R1 在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩 OpenAI o1 正式版。
- 官方技術(shù)白皮書
第四部分 DeepSeek R1 的商用場景
接下來,我們聊一下 DeepSeek R1 的商用場景。
DeepSeek R1 帶給我們的驚喜
在開始聊商用場景之前,我們先看看 DeepSeek 帶給我們哪些驚喜。
- 推理能力強(qiáng):DeepSeek R1 的性能優(yōu)于其他推理模型,在某些測試中,它與 OpenAI 的 01 模型表現(xiàn)相當(dāng),有時甚至更好。
- 性價比高:DeepSeek R1 的定價非常便宜,相比較性能相同的推理模型,價格便宜幾十倍。
- 多種版本可選:R1 提供多種不同大小推理模型,我們可以根據(jù)自己的計算資源選擇合適的版本。
- 開源免費(fèi):DeepSeek R1 是一個完全開源的模型,采用 MIT 許可證,免費(fèi)使用,且可以用于商業(yè)。
- 降低提示詞使用門檻:R1 自身會一步步的去推理解決問題,這樣就降低了我們使用 AI 的門檻。
- 展示思考過程:DeepSeek-R1 會向我們展示了思考過程,如果你想學(xué)習(xí)某件事,能夠看到大型語言模型的思考過程是非常重要的。
這些驚喜極大推動 AI Agent 商用場景的落地以及中小企業(yè)的在 AI 應(yīng)用上的普及。
接下來我們再聊一下兩個技術(shù),我們同樣也會得到一些驚喜。
什么是強(qiáng)化學(xué)習(xí)
先說一下強(qiáng)化學(xué)習(xí)。
DeepSeek-R1 技術(shù)論文中,講到直接使用強(qiáng)化學(xué)習(xí)。
簡單的說,強(qiáng)化學(xué)習(xí)就是通過不斷“試錯”來找到最好解決問題的辦法。
想象一下一個小孩剛學(xué)著站立,它開始不知道如何站立,會嘗試各種方法,最終找到了站的穩(wěn)的方法。
這意味著,當(dāng)你問 DeepSeek-R1 一個問題時,它會多次思考解決方案。
它會先提出答案,然后重新評估其答案,思考這個答案可能出錯的地方,再想一個更優(yōu)的答案,這樣一步步的思考、完善答案,直到大模型認(rèn)為最好的一個答案,然后輸出給我們。
這也是為什么與推理模型進(jìn)行交互的時候,提示詞需要說的簡練,說的過于復(fù)雜,會限制推理大模型的思考發(fā)揮。
什么是“蒸餾”
再說一下“蒸餾”
蒸餾就是讓大模型教小模型本事,簡單的理解就是老師把自己某些方面的能力移植到學(xué)生身上的一個過程。
這樣小模型的能力會變強(qiáng),資源耗用方面不會提升太大。
具體過程就是:
首先,需要一個能力強(qiáng)的大模型,例如 DeepSeek R1。
其次,讓 DeepSeek R1 生成用于訓(xùn)練小模型的數(shù)據(jù)樣本(問題、答案、思維鏈的思考過程),這些數(shù)據(jù)樣本側(cè)重訓(xùn)練推理能力的。
然后,在小模型 Qwen-7B 上用數(shù)據(jù)樣本進(jìn)行訓(xùn)練。
最后,得到新的小模型 Qwen-7B 在推理能力上會大大提高。
這意味著,小模型也可以擁有大模型的能力,降低了模型運(yùn)行成本,為商業(yè) AI 應(yīng)用的發(fā)展提供基礎(chǔ)。
因此在未來我們做一個 AI Agent 的場景,是可以混合使用大模型、小模型的。
DeepSeek R1 蒸餾出來的小模型運(yùn)行硬件配置
接下來,我們看一下蒸餾出來的小模型的運(yùn)行硬件配置。
這個表格來自網(wǎng)絡(luò),僅供參考,大家也可以問 Kimi,我個人不建議中小型企業(yè)獨(dú)立購買硬件部署,會增加很多額外的成本,例如服務(wù)器的運(yùn)維、模型自身升級的運(yùn)維,建議還是用 API 接口,或者云服務(wù)。
拋磚引玉,商用場景應(yīng)用
最后我們說一下商用場景,AI 從 2023 年到目前,大部分集中在寫作、出圖、出視頻方面,但是大面積的在企業(yè)業(yè)務(wù)流程上使用還是少數(shù),主要因素還是是 Token 消耗的成本過高,大模型的幻覺。
OpenAI 的 o 系統(tǒng)面世,雖然將大模型的幻覺進(jìn)行了改進(jìn),但是其高昂的費(fèi)用,在企業(yè)商用上還是一筆不小的開銷。
但是 DeepSeek R1 的面世,在提升大模型能力的前提下,價格一下子降下了幾十倍,我們也可以不用云端 API,可以自己獨(dú)立部署,這對企業(yè)來說,是一個極好的消息。
下面是我搜集的大家都在用 DeepSeek 在哪些商業(yè)場景上開始應(yīng)用了。
內(nèi)容生成與營銷
使用 DeepSeek R1,可以撰寫出吸引眼球的廣告文案,并生成極具吸引力的社交媒體內(nèi)容。此外,它還能根據(jù)關(guān)鍵詞進(jìn)行 SEO 優(yōu)化。
改進(jìn)客戶服務(wù)
DeepSeek R1 驅(qū)動的聊天機(jī)器人能響應(yīng)常見客戶咨詢,協(xié)助安排預(yù)約,甚至提供基礎(chǔ)的咨詢,從而提升客戶滿意度。
軟件開發(fā)
在軟件開發(fā)中,DeepSeek R1 可以協(xié)助我們進(jìn)行代碼開發(fā)和調(diào)試。并且能夠自動化生成技術(shù)文檔,大大提高了開發(fā)人員的效率。
財務(wù)與數(shù)據(jù)分析
在金融領(lǐng)域,DeepSeek R1 提供預(yù)測分析功能。同時,憑借其強(qiáng)大的數(shù)據(jù)分析能力,它還能有效進(jìn)行風(fēng)險評估。
合同審閱
想想我們審閱合同所花費(fèi)的時間。DeepSeek R1 能夠分析這些文檔,提取關(guān)鍵條款,識別潛在風(fēng)險,并提出改進(jìn)建議。
律師助手
DeepSeek R1 可自動化起草訴狀、合同和證據(jù)請求等標(biāo)準(zhǔn)化法律文件,節(jié)省時間、降低錯誤。
RPA 操控瀏覽器
最后就是給大家演示使用 browser-use 如何寫一個指令,讓瀏覽器自動執(zhí)行,DeepSeek 沒有出來之前,browser-use 執(zhí)行一次簡單的命令也需要消耗大量的 Token,現(xiàn)在雖然還有些缺陷,隨著推理大模型能力的不斷提升、Token 成本的進(jìn)一步降低,相信過不了多久就可以商用了。