偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<samp id="r7ojy"></samp>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DeepSeek“出圈”了，鵝廠人怎么看？

作者：騰訊技術(shù)工程 2025-02-28 09:00:00

DeepSeek被一些人稱為“AI技術(shù)的重大突破”，甚至被認(rèn)為是下一代人工智能發(fā)展的重要方向。今天，我們邀請了13位工程師同事，來一起聊聊DeepSeek。

話題背景

在人工智能領(lǐng)域，大型語言模型的快速發(fā)展引發(fā)了無數(shù)關(guān)于技術(shù)革新和未來趨勢的討論。隨著各類AI技術(shù)的不斷突破，越來越多的創(chuàng)新模型開始嶄露頭角，而最近備受關(guān)注的DeepSeek更是成為了熱議的焦點。它被一些人稱為“AI技術(shù)的重大突破”，甚至被認(rèn)為是下一代人工智能發(fā)展的重要方向。

今天，我們邀請了13位工程師同事，來一起聊聊DeepSeek。

鵝廠工程師的看法

1. foxy-后臺開發(fā)工程師

機器可以思考了。通過強化學(xué)習(xí)算法實現(xiàn)了推理能力自主進化，而不是簡單搜索整合。便宜了。用1/20的成本達到GPT4o效果，極大降低硬件成本。開源了。模型、代碼、論文全部開源，做了 OpenAI 本應(yīng)該做的。

2. chao-應(yīng)用開發(fā)工程師

強大之處在于可以正常交流，而不是有門檻。

(1) 拆解需求：按照 who+what+limit+format

我是____身份（我是誰）
我要解決______問題（我想解決什么問題）
必須包含______細(xì)節(jié) （回答需要什么，不要什么）
想要______格式的結(jié)果（按照什么格式輸出）

(2) 套用公式：按“身份→任務(wù)→細(xì)節(jié)→格式”順序重組問題：

“作為（身份），請（任務(wù)），要求（細(xì)節(jié)），用（格式）輸出”

(3) 迭代優(yōu)化：一次問不準(zhǔn)沒關(guān)系，重點是要會繼續(xù)補充細(xì)節(jié)：

增加：“請重點說明_____”
限制：“排除______情況”
調(diào)整：“改為______風(fēng)格”

(4) 注意：

一次不要問太多（3個），可以多聊幾輪。
不要讓AI去猜，有什么直接說。但限制條件也不能太多（3個）。

3. bran-應(yīng)用研究員

用戶角度：1，體驗免費方便，價格便宜2，回答問題質(zhì)量高3，深度思考功能，可以直接看到模型的完整思考過程

社會公眾角度：

各項專業(yè)測評上和open ai提供的api基本持平，不一定“又贏了”，但肯定是不再“絕對地落后”了
推出當(dāng)天，英偉達市值蒸發(fā)4000多億美金
open ai最近的英文回答中，中英文參雜概率大幅提升，基本坐實他們也在用deepseek的數(shù)據(jù)做訓(xùn)練，咱們也算做了點“技術(shù)輸出”

技術(shù)角度：

業(yè)界首創(chuàng)，跑通了完全的大規(guī)模強化學(xué)習(xí)，意味著不再需要大量人工清洗的數(shù)據(jù)和復(fù)雜的微調(diào)，整體訓(xùn)練非常簡潔優(yōu)雅（基本上給大部份大模型公司指明了方向）
第一個跑通的千億參數(shù)FP8大模型。FP8代表所有模型參數(shù)都用8bit來存，其他家都是32bit或者16bit來存一個模型參數(shù)，這一下就節(jié)省了非常多顯存（屬于大家都知道要這樣優(yōu)化，但工程和技術(shù)上的坑填不動，最后deepseek第一個實現(xiàn)了）
使用他們的大模型數(shù)據(jù)，再去訓(xùn)練“小模型”（其實是參數(shù)量相對較小的大模型），可以讓“小模型”效果提升非常多。最終導(dǎo)致現(xiàn)在可以用一塊2000多塊的英偉達3060本地部署一個相當(dāng)不錯的模型。這下很多有臺式機的用戶都能體驗本地部署模型的樂趣了（獨樂樂不如眾樂樂，臺式機可比數(shù)據(jù)中心多太多了）

其他的補充點：

防杠：上文說的“業(yè)界首創(chuàng)”和“第一個跑通”，不包括open ai。因為open ai非常close，無法評估他們做到什么程度
一點猜測：deepseek最近狂招硬件工程師，加上他們在模型訓(xùn)練過程中已經(jīng)體現(xiàn)出了對英偉達原生api的爆改能力，推測他們有機會在國產(chǎn)gpu上做點文章
talk is cheap，show you the paper： https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

4. young-應(yīng)用開發(fā)工程師

最大的核心是 RL策略創(chuàng)新 + 減少人工干預(yù)?？深A(yù)見未來如果AI算法找對了優(yōu)化策略，將強大到可怕

5. bill-產(chǎn)品運營

我不是技術(shù)人，但是deepseek啟示我的是要相信自己的第一判斷。之前關(guān)于大模型，很多人告訴我，包括技術(shù)專家告訴我的都是“這是一個黑箱”，輸出的邏輯和結(jié)果不可控。我從一開始就質(zhì)疑這不不合理。但是被技術(shù)大拿教育說就是這樣的，所以也沒有太多挑戰(zhàn)。可是deepseek出來以后，它不僅不是黑箱，而且非常詳細(xì)的先說明自己的決策過程，再給你結(jié)論。這就使得整個決策過程可以看到，用戶也可根據(jù)deepseek的邏輯思考過程，給出更細(xì)的要求，從而輸出更適合的結(jié)論。

有人說deepseek是回歸了人類的思考邏輯。我的啟示是：為什么我沒有堅持大模型應(yīng)該回歸了人類的思考邏輯？認(rèn)為黑箱不合理的肯定我一個人，但為什么大多都沒有提出它的不合理性，知道deepseek去改變了它？所以，人還是要回歸最基礎(chǔ)的需求，要敢于相信和堅持自己的第一判斷。

6. lovise-前端開發(fā)工程師

主要還是找到一條低成本從gpt4到o1的技術(shù)路線（通過強化學(xué)習(xí)），并且還開源了，大家都能復(fù)現(xiàn)。而且這條路線還很有前景，模型現(xiàn)在能自主領(lǐng)悟新技能（有點像alpha zero，啥人類下棋方法都不用教，最后自己就能領(lǐng)悟并超越人類），因此繼續(xù)堆算力訓(xùn)練，優(yōu)化算法，模型能力還能繼續(xù)進化。

7. zihao-運營開發(fā)工程師

個人理解是ds與gpt的區(qū)別在于，它能讓更多的人參與進來迭代更新，降低了入門門檻。ds出來前，訓(xùn)練一個大模型的成本是基本只有一線的公司能負(fù)擔(dān)得起的，其他中小公司和大學(xué)的實驗室根本沒有碰的可能，更別說在原有的基礎(chǔ)上對算法進行優(yōu)化（因為你沒有足夠用于驗證的算力），而且就算你有足夠的算力，你只能在最初開源的gpt上慢慢迭代優(yōu)化（后面open ai變成了close ai），基本不可能優(yōu)于最新的gpt，相當(dāng)于浪費投入，先發(fā)優(yōu)勢上open ai已完勝。

ds一方面降低了算力成本，而且又開源，相當(dāng)于把open ai的兩條護城河給填了，大家都能來入局，而且因為開源，我能基于當(dāng)前開源項目的最新特性進行優(yōu)化，大家一起搭橋總比一個人摸著石頭過河好，能少走很多彎路。

8. alexzx-后臺開發(fā)工程師

因為便宜、好用、開源，而且性能接近gpt o1。我去年年底就開始試著用ds，目前大部分情況下都可以平替gpt，自己部署的成本也不高。

9. frank-后臺策略安全

推理和思考的過程相比以前AI黑盒子，更好用了，從他的思維過程，我反而能學(xué)到一些東西，另外推理出來的結(jié)果，確實準(zhǔn)，好用，特別是專業(yè)領(lǐng)域的問題

10. tylert-游戲運營

客觀來說模型方面感覺沒啥提高的，就是打平而已，但成本效率確實大大提高了，符合降本增效的前提，就好比你原來需要20個人團隊做的事情，DS現(xiàn)在只需要1個人就能做得差不多~

11. leo-應(yīng)用研究員

單純看論文，有點嘩眾取寵的意思??，Deepseek的論文中也有類似的工作。

對于算力的需求，有個Jevons悖論，講的是第一次工業(yè)革命期間，蒸汽機效率的提高不僅沒有降低煤炭總量的消耗，反而有所提升。因為消費總量 = 消費量 * 單價。只有足夠便宜，才有機會普及。

因此，降本無論是對技術(shù)發(fā)展、生態(tài)繁榮，還是對英偉達本身，我覺得都是利好。只有更多的玩家能上牌桌，牌局才能更精彩。

但相比于其他開源模型，DS的技術(shù)突破主要是算法+工程的優(yōu)化（以DeepSeek-R1-Zero為例）

主要在以下幾方面：

SFT-FREE：區(qū)別于其他大模型需要進行SFT，DS首次實現(xiàn)純粹依賴強化學(xué)習(xí)進行訓(xùn)練。
可拓展的強化學(xué)習(xí)設(shè)計：采用rule-based的方法設(shè)計獎勵信號，確保RL訓(xùn)練的可拓展性（scaling）。
高效的參數(shù)儲存優(yōu)化：采取FP8的參數(shù)儲存方法，大幅度降低了緩存成本。

除了技術(shù)創(chuàng)新外，我覺得DS出現(xiàn)所代表的更深遠的意義是，它證明了國內(nèi)團隊已經(jīng)具備組織高密度人才進行前沿創(chuàng)新的能力。

12. joliph-客戶端安全

可以從官方價格和其他獨立部署的價格就知道它的infra的優(yōu)勢有多大了。

13. leicong-技術(shù)產(chǎn)品

deepseek也有好多版本，比如v3、R1、R1 zero，就V3而言，感覺更多是工程上的優(yōu)勢，也就不管是注意力的計算還是后面的FNN，很多計算上的細(xì)節(jié)做了工程上的優(yōu)化，包括精簡、壓縮、分片、就近等不同的工程化策略，最終達到了對算力要求從量變到質(zhì)變的效果

責(zé)任編輯：趙寧寧來源：騰訊技術(shù)工程

DeepSeek 人工智能 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="evatn"></thead>

<bdo id="evatn"></bdo>