偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek新模型再次引爆外網(wǎng)!“省錢省token”背后,揭示了智能的本質(zhì) 原創(chuàng)

發(fā)布于 2025-10-21 18:43
瀏覽
0收藏

?

昨天,DeepSeek開源了全新的DeepSeek-OCR模型,采用“上下文光學(xué)壓縮”技術(shù),為解決長(zhǎng)文本處理中的算力瓶頸提供了全新的思路。

?

DeepSeek新模型再次引爆外網(wǎng)!“省錢省token”背后,揭示了智能的本質(zhì)-AI.x社區(qū)

?

DeepSeek-OCR的核心創(chuàng)新在于它驗(yàn)證了一個(gè)直觀卻從未被系統(tǒng)論證過的假設(shè):一張包含文檔文本的圖像,可以用比等效數(shù)字文本少得多的token來表示豐富信息。

?

簡(jiǎn)單來說,這個(gè)模型的核心思想是:用一張包含文檔的圖片,以比原始文本少得多的token數(shù)來表示相同的信息。
?

它不是在傳統(tǒng)OCR賽道上做簡(jiǎn)單優(yōu)化,而是試圖通過視覺模態(tài)來實(shí)現(xiàn)文本信息的高效壓縮。

?

實(shí)驗(yàn)數(shù)據(jù)顯示,在10倍壓縮比下,模型解碼精度能達(dá)到97%,即使壓縮到20倍,準(zhǔn)確率也保持在60%左右。這種壓縮效率在長(zhǎng)文本處理場(chǎng)景下潛力巨大。

?

技術(shù)架構(gòu)方面,DeepSeek-OCR由DeepEncoder視覺編碼器和基于MoE架構(gòu)的3B參數(shù)解碼器組成。特別值得一提的是DeepEncoder的設(shè)計(jì),它結(jié)合了SAM-base和CLIP-large,既能處理高分辨率輸入,又能保持較低的激活狀態(tài),最終生成數(shù)量適中的視覺token。

?

在實(shí)際應(yīng)用層面,這個(gè)模型的表現(xiàn)相當(dāng)出色。在OmniDocBench基準(zhǔn)測(cè)試中,僅用100個(gè)視覺token就超越了GOT-OCR2.0(需要256個(gè)token),用不到800個(gè)token就優(yōu)于MinerU2.0(需要近7000個(gè)token)。這種效率提升意味著單張A100 GPU每天能生成超過20萬頁的訓(xùn)練數(shù)據(jù)。

?

DeepSeek新模型再次引爆外網(wǎng)!“省錢省token”背后,揭示了智能的本質(zhì)-AI.x社區(qū)
?

除了傳統(tǒng)的文檔識(shí)別,模型還展現(xiàn)出對(duì)圖表、幾何圖形、化學(xué)公式的解析能力,支持近百種語言識(shí)別,并具備一定的通用圖像理解能力。

?

DeepSeek的新模型,在外網(wǎng)也引發(fā)了熱烈討論。特斯拉前自動(dòng)駕駛負(fù)責(zé)人、OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy對(duì)DeepSeek新開源的模型給予高度評(píng)價(jià),他認(rèn)為,這項(xiàng)技術(shù)可能撼動(dòng)了當(dāng)前大語言模型(LLM)處理文本的基礎(chǔ)范式。
?
DeepSeek新模型再次引爆外網(wǎng)!“省錢省token”背后,揭示了智能的本質(zhì)-AI.x社區(qū)
?
同時(shí),Karpathy的評(píng)價(jià)還觸及了當(dāng)前AI領(lǐng)域關(guān)注的幾個(gè)深層次問題:
?
首先是重新審視輸入方式。Karpathy強(qiáng)調(diào),他感興趣的并非DeepSeek-OCR作為一個(gè)文字識(shí)別工具的性能,而是一個(gè)更根本的問題:對(duì)于大語言模型(LLM)來說,像素是否比文本是更好的輸入形式?
?
他甚至激進(jìn)地提出,“也許更合理的是,LLM的所有輸入都應(yīng)該是圖像。即使碰巧有純文本輸入,你更應(yīng)該先渲染它,然后再輸入?!?這一觀點(diǎn)直接挑戰(zhàn)了當(dāng)前以文本Token為核心的自然語言處理范式。
?
其次,他揭示了視覺壓縮的潛力。DeepSeek-OCR模型在技術(shù)上驗(yàn)證了"上下文光學(xué)壓縮"的可行性。該模型能夠用100個(gè)視覺Token解碼出1000個(gè)文本Token(10倍壓縮),且精度保持在97%;
?
最后,他認(rèn)為這項(xiàng)研究推動(dòng)了分詞器的變革。Karpathy一直對(duì)傳統(tǒng)的分詞器持批判態(tài)度,他曾多次指出分詞器帶來的種種問題。DeepSeek-OCR的技術(shù)路徑,通過視覺編碼器直接將圖像轉(zhuǎn)換為模型可理解的表示,跳過了傳統(tǒng)分詞步驟。
?
這與Karpathy"刪除分詞器"的愿景不謀而合,也是他對(duì)此項(xiàng)技術(shù)感到興奮的重要原因。
?
Karpathy的評(píng)價(jià)為DeepSeek-OCR的熱度添了一把火,該項(xiàng)目在GitHub上線后迅速獲得了大量關(guān)注。紐約大學(xué)助理教授謝賽寧等人也對(duì)這種視覺處理方式表示了認(rèn)同。
?
當(dāng)然,也存在一些反面的聲音,例如有研究者認(rèn)為該方法并非首創(chuàng),或質(zhì)疑其與人類漸進(jìn)式認(rèn)知方式的差異。
?
DeepSeek新模型再次引爆外網(wǎng)!“省錢省token”背后,揭示了智能的本質(zhì)-AI.x社區(qū)
?
有研究者將DeepSeek-OCR的"視覺記憶壓縮"機(jī)制與人類的記憶和認(rèn)知方式相聯(lián)系。當(dāng)我們回憶一本書的內(nèi)容時(shí),大腦時(shí)常會(huì)借助視覺記憶,比如回憶某段話在書頁的哪個(gè)位置。這種方式與DeepSeek-OCR的處理邏輯有相似之處。
?
無論如何,這項(xiàng)工作的意義可能超出了OCR本身。它為我們提供了一種新思路:是否可以通過視覺方式來解決長(zhǎng)上下文壓縮和LLM記憶遺忘等問題?
?

雖然目前還只是初步探索,但這種跨模態(tài)的思維方法確實(shí)為后續(xù)研究打開了新的想象空間。

?

回歸智能的本質(zhì)

?

這項(xiàng)工作的真正價(jià)值或許還在于,它挑戰(zhàn)了AI領(lǐng)域的傳統(tǒng)發(fā)展路徑。在當(dāng)前大模型規(guī)模不斷膨脹、算力需求激增的背景下,DeepSeek仍然選擇通過提升效率而非單純擴(kuò)大規(guī)模來解決問題。
?

在物理世界和生物系統(tǒng)中,能量最低原則,是宇宙運(yùn)行的基本法則。這一原則普遍存在,要求系統(tǒng)以最少的能量消耗實(shí)現(xiàn)所需功能。

?

除了自然萬物,人類大腦同樣如此,它通過高效的神經(jīng)連接和信息處理機(jī)制,在有限體積和能量消耗下實(shí)現(xiàn)了驚人的智能。

?

DeepSeek-OCR通過精細(xì)的架構(gòu)設(shè)計(jì),在保證性能的同時(shí)大幅降低資源消耗,某種程度上是對(duì)這種自然法則的技術(shù)再現(xiàn)。它不是在追求極致的壓縮率,而是在壓縮效率和信息保真度之間尋找最優(yōu)平衡。

?

智能的本質(zhì)或許不在于規(guī)模大小,而在于效率高低。人類大腦在有限的能量消耗下實(shí)現(xiàn)高度智能,本身就是宇宙能量最低原則的完美體現(xiàn)。

?

在這個(gè)算力需求不斷增長(zhǎng)的時(shí)代,DeepSeek選擇回歸基本法則,通過提升效率而非單純擴(kuò)大規(guī)模來解決問題,恰恰是更接近智能本質(zhì)的體現(xiàn)。

?

正如自然界通過億萬年的進(jìn)化找到了各種最優(yōu)解,人工智能的發(fā)展或許也需要從這些基本法則中汲取靈感。

?

而這種效率優(yōu)先的設(shè)計(jì)理念,似乎正應(yīng)合了宇宙的基本規(guī)律。在有限資源下實(shí)現(xiàn)最大化價(jià)值,這不僅是技術(shù)挑戰(zhàn),更是智慧的本質(zhì)。

?

對(duì)于DeepSeek的新模型,大家怎么看?歡迎交流討論!

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦