偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<code id="ojyod"><font id="ojyod"><form id="ojyod"></form></font></code>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DeepSeek的新模型很瘋狂：整個(gè)AI圈都在研究視覺(jué)路線(xiàn)，Karpathy不裝了

2025-10-21 12:35:18

人工智能新聞

「我很喜歡新的 DeepSeek-OCR 論文…… 也許更合理的是，LLM 的所有輸入都應(yīng)該是圖像。即使碰巧有純文本輸入，你更應(yīng)該先渲染它，然后再輸入?！?/div>

一夜之間，大模型的范式仿佛被 DeepSeek 新推出的模型給打破了。

昨天下午，全新模型 DeepSeek-OCR 突然開(kāi)源。在該模型的處理過(guò)程中，1000 個(gè)字的文章能被壓縮成 100 個(gè)視覺(jué) token，十倍的壓縮下精度也可以達(dá)到 97%，一塊英偉達(dá) A100 每天就可以處理 20 萬(wàn)頁(yè)的數(shù)據(jù)。

這種方式或許可以解決大模型領(lǐng)域目前頭疼的長(zhǎng)上下文效率問(wèn)題，更重要的是，如果「看」文本而不是「讀」文本最終被確定為正確的方向，也意味著大模型的范式會(huì)發(fā)生重要的轉(zhuǎn)變。

GitHub 上，DeepSeek-OCR 項(xiàng)目一晚收獲了超過(guò) 4000 個(gè) Star。

因?yàn)槭情_(kāi)源的小模型，DeepSeek-OCR 第一時(shí)間經(jīng)歷了整個(gè) AI 社區(qū)的檢驗(yàn)，很多大佬在看完論文之后紛紛發(fā)表了看法，興奮之情溢于言表。

OpenAI 聯(lián)合創(chuàng)始成員之一，前特斯拉自動(dòng)駕駛總監(jiān) Andrej Karpathy 表示，它是一個(gè)很好的 OCR 模型。

他表示，作為一個(gè)本質(zhì)上是研究計(jì)算機(jī)視覺(jué)，暫時(shí)偽裝成自然語(yǔ)言專(zhuān)家的人，他更感興趣的部分是：對(duì)于大語(yǔ)言模型來(lái)說(shuō)，像素是否比文本更適合作為輸入？文本 token 在輸入端是否浪費(fèi)資源，甚至很糟糕？

也許更合理的是，LLM 的所有輸入都應(yīng)該是圖像。即使你碰巧有純文本輸入，也許你更愿意先渲染它，然后再輸入：

更多信息壓縮（參見(jiàn)論文） => 更短的上下文窗口，更高的效率
明顯更為通用的信息流 => 不僅僅是文本，還包括粗體文本、彩色文本、任意圖像。
現(xiàn)在可以輕松地使用雙向注意力來(lái)處理輸入，并且默認(rèn)情況下，而不是自回歸注意力 - 功能更加強(qiáng)大。
刪除（輸入端的）分詞器?。∥乙呀?jīng)吐槽過(guò)我有多討厭分詞器了。分詞器很丑陋，獨(dú)立存在，而且不是端到端的。它「導(dǎo)入」了 Unicode 和字節(jié)編碼的所有丑陋之處，繼承了大量歷史包袱，以及安全 / 越獄風(fēng)險(xiǎn)（例如連續(xù)字節(jié)）。它讓兩個(gè)肉眼看起來(lái)相同的字符在網(wǎng)絡(luò)內(nèi)部看起來(lái)像兩個(gè)完全不同的 token。一個(gè)微笑的表情符號(hào)看起來(lái)像一個(gè)奇怪的 token，而不是…… 一個(gè)真正的笑臉，包括像素等等，以及它帶來(lái)的所有遷移學(xué)習(xí)。分詞器必須移除。

OCR 只是眾多有用的視覺(jué)-文本任務(wù)之一。文本-文本任務(wù)可以轉(zhuǎn)換為視覺(jué)-文本任務(wù)，反之則不行。

很多用戶(hù)信息都是圖像，但解碼器（智能助手的響應(yīng)）仍然是文本。如何真實(shí)地輸出像素…… 或者說(shuō)，如果你想要輸出像素，那就不那么明顯了。

紐約大學(xué)助理教授謝賽寧也發(fā)推對(duì) Karpathy 的評(píng)論給予了高度評(píng)價(jià)，他尤其對(duì)其中「作為一個(gè)本質(zhì)上是研究計(jì)算機(jī)視覺(jué)，暫時(shí)偽裝成自然語(yǔ)言專(zhuān)家的人」這一句深感共鳴。

畢竟正是謝賽寧當(dāng)年首次將 Transformer 架構(gòu)與擴(kuò)散模型相結(jié)合，提出了擴(kuò)散 Transformer（DiT），為文生視頻開(kāi)啟了新的道路。

也有研究者對(duì) DeepSeek-OCR 這項(xiàng)研究的潛在意義進(jìn)行了更引人入勝的解讀。

Emanuel 繼續(xù)寫(xiě)道：傳統(tǒng)上，在多模態(tài)大語(yǔ)言模型中，視覺(jué) token 幾乎像是事后添加的產(chǎn)物，或者說(shuō)是「外掛」在語(yǔ)言模型框架之上的功能。而如果用可識(shí)別的圖像像素形式來(lái)表示文本，那么一萬(wàn)英文單詞在多模態(tài) LLM 中所占的空間，將遠(yuǎn)遠(yuǎn)大于用文本 token 表示時(shí)的空間。

舉例來(lái)說(shuō)，那一萬(wàn)字的英文文本可能原本對(duì)應(yīng) 15,000 個(gè)文本 token，但如果轉(zhuǎn)換成視覺(jué) token，可能就會(huì)變成 30,000 到 60,000 個(gè)視覺(jué) token。由此可見(jiàn)，視覺(jué) token 的效率低得多，因此過(guò)去它們只適用于那些無(wú)法用文字有效表達(dá)的數(shù)據(jù)（例如圖像或視覺(jué)場(chǎng)景）。

但這篇論文的提出，顛覆了這一切。

DeepSeek 想出了一種方法，使得視覺(jué) token 的壓縮效率比文本 token 高出 10 倍！

換句話(huà)說(shuō)，原本需要 10,000 個(gè)單詞的文本，現(xiàn)在理論上只需約 1,500 個(gè)經(jīng)過(guò)特殊壓縮的視覺(jué) token 即可完整表示。

如果你想一想人類(lèi)大腦的運(yùn)作方式，這其實(shí)也并非完全出人意料。

畢竟，當(dāng)我們回憶一本讀過(guò)的書(shū)的某一部分時(shí)，往往會(huì)以視覺(jué)的方式來(lái)定位：我們能記得那段內(nèi)容在書(shū)的哪一頁(yè)、哪一側(cè)、頁(yè)面的大致位置，這說(shuō)明我們的大腦在使用某種視覺(jué)記憶表征機(jī)制。

不過(guò)，目前還不清楚這種機(jī)制在 LLM 的下游認(rèn)知能力中會(huì)如何表現(xiàn)。模型在使用這些壓縮后的視覺(jué) token 時(shí)，是否還能像使用普通文本 token 那樣進(jìn)行智能推理？或者，這種方式會(huì)不會(huì)讓模型變得不那么善于表達(dá)語(yǔ)言，因?yàn)樗黄雀嗟匾砸曈X(jué)方式來(lái)思考？

無(wú)論如何，可以想見(jiàn)：根據(jù)實(shí)際的性能權(quán)衡，這可能成為一個(gè)極具潛力的新方向，用于大幅擴(kuò)展模型的有效上下文長(zhǎng)度（context size）。

尤其是如果與 DeepSeek 幾周前發(fā)布的另一篇關(guān)于稀疏注意力（sparse attention）的論文結(jié)合使用，前景將更加令人興奮。

他還提到：「據(jù)我們所知，谷歌也可能早就發(fā)現(xiàn)了類(lèi)似的技術(shù)，這或許能解釋為什么 Gemini 模型擁有如此巨大的上下文窗口，并在 OCR 任務(wù)上表現(xiàn)得又快又好。當(dāng)然，如果他們真的做到了，可能也不會(huì)公開(kāi)說(shuō)明 —— 畢竟這會(huì)被視為核心商業(yè)機(jī)密。而 DeepSeek 的可貴之處在于：他們選擇了完全開(kāi)源，包括模型權(quán)重與方法細(xì)節(jié)。這意味著，任何人都可以試驗(yàn)、驗(yàn)證并進(jìn)一步探索這一突破?！?/span>

即使這些技巧可能讓注意力機(jī)制的表達(dá)變得略微「有損」（lossy），但如果它能讓前沿級(jí) LLM 擁有一千萬(wàn)甚至兩千萬(wàn) token 級(jí)別的上下文窗口，那無(wú)疑是令人振奮的。

設(shè)想一下：你可以把一家公司的所有關(guān)鍵內(nèi)部文檔都塞進(jìn)提示詞的前綴（prompt preamble）中，并緩存到 OpenAI 的系統(tǒng)里。之后只需在其上添加具體的問(wèn)題或提示詞，無(wú)需搜索工具，就能快速且經(jīng)濟(jì)地完成查詢(xún)。

或者，你可以將整個(gè)代碼庫(kù)都放入上下文中并緩存，每次修改時(shí)只需追加相當(dāng)于 Git 有差異的部分內(nèi)容。

他還表示：「這讓我想起著名物理學(xué)家 Hans Bethe（漢斯?貝特）的故事 —— 他以記憶力驚人著稱(chēng)，能背下大量隨機(jī)的物理數(shù)據(jù)（例如整個(gè)元素周期表、各種物質(zhì)的沸點(diǎn)等），因此在思考與計(jì)算時(shí)幾乎從不需要中斷去查閱資料。」

毫無(wú)疑問(wèn)，擁有大量與任務(wù)相關(guān)的知識(shí)并能隨時(shí)調(diào)用，是極其強(qiáng)大的能力。而 DeepSeek 的這一方法，似乎正是一個(gè)聰明且可擴(kuò)展的路徑，有望讓模型的「工作記憶」容量提升 10 倍甚至更多。

在 Hacker News 等平臺(tái)上，DeepSeek-OCR 也引發(fā)了廣泛熱議。

Django Web 框架的聯(lián)合創(chuàng)建者 Simon Willison 甚至成功嘗試了讓 Claude Code 成功在英偉達(dá) Spark 硬件上運(yùn)行這個(gè)模型。整個(gè)過(guò)程僅使用了 4 個(gè)提示詞，時(shí)間也只不過(guò) 40 分鐘。

科技視頻播主 NiceKate AI 將成功將其部署到了 Mac 上。

不過(guò)，值得注意的是，有不少研究者指出，DeepSeek 新模型雖然在工程上取得了不可否認(rèn)的巨大成功，但其核心方法思路并非首創(chuàng)。

事實(shí)上，早在 2022 年，哥本哈根大學(xué)等機(jī)構(gòu)的論文《Language Modelling with Pixels》就已經(jīng)提出了類(lèi)似的思想。其中提出了基于像素的語(yǔ)言編碼器（Pixel-based Encoder of Language），簡(jiǎn)稱(chēng) PIXEL，可望解決語(yǔ)言模型的詞匯瓶頸問(wèn)題。

PIXEL 架構(gòu)概況，來(lái)自論文《Language Modelling with Pixels》，arXiv:2207.06991

具體來(lái)說(shuō)，PIXEL 是一種預(yù)訓(xùn)練語(yǔ)言模型，可將文本渲染為圖像，從而能夠基于文字形態(tài)的相似性或像素共激活模式在不同語(yǔ)言之間實(shí)現(xiàn)表示的遷移。與傳統(tǒng)語(yǔ)言模型預(yù)測(cè) token 分布的方式不同，PIXEL 的訓(xùn)練目標(biāo)是重建被遮蓋圖像塊的像素。

此后也有多篇研究成果對(duì)這一研究思路進(jìn)行了發(fā)展和改進(jìn)，至少包括：

CVPR 2023 論文：CLIPPO: Image-and-Language Understanding from Pixels Only
NeurIPS 2024 論文：Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
2024 年論文：Improving Language Understanding from Screenshots
NeurIPS 2025 論文：Vision-centric Token Compression in Large Language Model

不管怎樣，看起來(lái) DeepSeek-OCR 確實(shí)是一個(gè)非常好用的模型，也已經(jīng)有不少先行者開(kāi)始用起來(lái)了：

當(dāng)然，批評(píng)的聲音依然是存在的，比如現(xiàn)在 Meta 工作的前 OpenAI 和 DeepMind 研究者 Lucas Beyer 就毫不客氣地表示 DeepSeek-OCR 的方法并不存在漸進(jìn)性，不像人類(lèi)。

最后，在 DeepSeek-OCR 熱烈的討論人群中，也有一群外國(guó)人注意到了其論文中有趣的 Prompt 示例，在研究什么叫「先天下之憂(yōu)而憂(yōu)，后天下之樂(lè)而樂(lè)」。

不論是對(duì) AI 還是對(duì)外國(guó)人來(lái)說(shuō)，理解準(zhǔn)確的意思確實(shí)是個(gè)挑戰(zhàn)。

你是否已經(jīng)嘗試過(guò) DeepSeek-OCR 模型？又怎么看待其背后的「以視覺(jué)方式壓縮一切」的研究思路？

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

DeepSeek AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sup id="mcw4y"><rt id="mcw4y"></rt></sup>