偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

DeepMind爆火論文：向量嵌入模型存在數(shù)學上限，Scaling laws放緩實錘？

2025-09-02 12:04:09

人工智能新聞

DeepMind 的最新研究為這個爭論提供了新的證據(jù)。他們將幾何代數(shù)與通信復雜度理論結(jié)合，證明了向量嵌入的能力存在一個數(shù)學下界：對于任意給定的嵌入維度 d，當文檔數(shù)量超過某個臨界點時，總會存在一些相關文檔組合是無論如何都無法通過查詢同時召回的。

這幾天，一篇關于向量嵌入（Vector Embeddings）局限性的論文在 AlphaXiv 上爆火，熱度飆升到了近 9000。

要理解這篇論文的重要性，我們先簡單回顧一下什么是向量嵌入。

向量嵌入就像把文字、圖片或聲音這些復雜的東西，轉(zhuǎn)化成一個多維空間里的「坐標點」。比如，把「蘋果」這個詞變成一串幾百維的數(shù)字，這些數(shù)字捕捉了它的語義（它可以指水果，也可以指公司）。在這個空間里，相似的概念彼此靠近，不相似的則遠離。借助這種機制，計算機能夠快速搜索或比較海量數(shù)據(jù)，而無需逐字逐句地比對。

圖源：veaviate

多年以來，嵌入主要用于「檢索」任務，例如搜索引擎中的相似文檔查找，或推薦系統(tǒng)中的個性化推薦。隨著大模型技術的發(fā)展，嵌入的應用開始拓展到推理、指令遵循、編程等更復雜的任務。這些新興需求，推動著嵌入技術朝著能處理任何查詢、任何相關性定義的方向演進。

然而，先前的研究已經(jīng)指出了向量嵌入的理論局限性。它的本質(zhì)，是把一個高維度、復雜的概念（比如「愛」，可能包含親情、愛情、友情、奉獻、占有等無數(shù)面向）強行壓縮成一串固定長度的向量。這個過程不可避免地丟失信息，就像三維蘋果被拍成二維照片 —— 無論照片多清晰，你都無法從中還原出它的重量、氣味等屬性。

過去幾年，業(yè)界普遍認為這種理論困難可以通過更好的訓練數(shù)據(jù)和更大的模型來克服。這就是過去幾年以 OpenAI 為代表的公司所遵循的「大力出奇跡」（Scaling Laws）的哲學。

從 GPT-2 到 GPT-4，再到 GPT-5，模型參數(shù)量和數(shù)據(jù)量指數(shù)級增長，能力也確實發(fā)生了質(zhì)的飛躍。這讓很多人相信，這條路能一直走下去。

然而，當前 AI 圈的一個熱點爭論就是：我們是不是快要撞上「Scaling Laws」的天花板了？

DeepMind 的最新研究為這個爭論提供了新的證據(jù)。他們將幾何代數(shù)與通信復雜度理論結(jié)合，證明了向量嵌入的能力存在一個數(shù)學下界：對于任意給定的嵌入維度 d，當文檔數(shù)量超過某個臨界點時，總會存在一些相關文檔組合是無論如何都無法通過查詢同時召回的。

這意味著，嵌入模型存在一個不可逾越的限制，無法單純依靠「更大的模型」來突破。

論文標題：On the Theoretical Limitations of Embedding-Based Retrieval
arXiv 地址：https://arxiv.org/pdf/2508.21038

這一理論瓶頸在現(xiàn)實中最直接的體現(xiàn)，就是檢索增強生成（RAG）。RAG 的工作機制是：先用向量嵌入從知識庫中檢索相關信息，再交給大模型生成答案。但 DeepMind 的證明表明，當知識庫規(guī)模足夠大、一個問題需要多份文檔共同回答時，即使采用最先進的嵌入模型，也可能因為維度不足而無法完整召回關鍵信息。這會導致大模型在生成時受到錯誤或不完整上下文的干擾。

為了證明這一理論限制對任何模型或訓練數(shù)據(jù)都成立，研究者采用了一種「最佳情況」設定，即向量本身是使用測試數(shù)據(jù)直接進行優(yōu)化的。實驗發(fā)現(xiàn)，對于每個嵌入維度 d 都存在一個臨界點，一旦文檔數(shù)量超過該點，嵌入維度就不足以編碼所有的組合。他們還證明了這種臨界關系可以通過一個多項式函數(shù)進行經(jīng)驗性建模。

更進一步，研究者基于這些理論局限性構(gòu)建了一個名為 LIMIT 的簡單數(shù)據(jù)集。盡管任務很簡單（例如，「誰喜歡蘋果？」），但即便是 MTEB 基準上最先進的嵌入模型也很難解決這個問題，而對于嵌入維度較小的模型來說則是不可能的。

論文一作、約翰霍普金斯大學博士生 Orion Weller 表示，在當前的信息檢索領域，大家希望嵌入模型能夠同時承擔指令理解和推理等一切能力。遺憾的是，單向量嵌入模型在理論和實證上都做不到，它們存在根本性限制。通過開源的簡單評測任務，他們證實了即便是 SOTA 模型也表現(xiàn)糟糕。

總的來說，這篇工作的貢獻可以總結(jié)為以下三點：

為嵌入模型的根本性局限提供了理論基礎；
通過自由的嵌入優(yōu)化進行最佳情況下的經(jīng)驗性分析，證明了該理論適用于任何數(shù)據(jù)集實例；
構(gòu)建了一個名為 LIMIT 的簡單、真實的自然語言實例，即使是最先進的嵌入模型也無法解決。

這不僅揭示了 RAG 系統(tǒng)在應用上的硬性約束，也讓人重新思考 Scaling Laws 在 AI 發(fā)展中的邊界。嵌入的局限，也許正是「加大規(guī)?！共⒎侨f能解法的一個縮影。

向量嵌入的表征能力

研究者首先證明了通信復雜性理論中的已知結(jié)果在向量嵌入設定下的含義。

理論上限。對于二進制矩陣，逐行排序和逐行閾值化是等價的表征能力概念。

到目前為止，研究者描述的這些概念與矩陣的符號秩密切相關。在本文的其余部分，他們將利用符號秩來建立主要的界限。

將所有這些結(jié)合起來就得出了所需的不等式鏈。

研究者表示，在向量嵌入模型的背景下，這為準確捕獲一組檢索目標所需向量的維度提供了上下界，無論是逐行排序、逐行閾值，還是全局閾值。

具體來說，給定某個二進制相關矩陣 A ∈ {0,1}^m×n，至少需要 rank_±(2A ? 1_m×n) ? 1 個維度來精確捕獲 A 中的關系，并且最多需要 rank_±(2A ? 1_m×n) 個維度就能實現(xiàn)。

在實際中，這意味著：

對于任意固定的維度 d，都會存在某個二進制相關矩陣無法通過 d 維嵌入來捕獲，這是因為存在符號秩任意高的矩陣。換句話說，那些 qrel 矩陣具有更高符號秩的檢索任務更難被嵌入模型精確捕獲，需要更高的嵌入維度。
如果能夠在 d 維中以逐行保持順序的方式嵌入某個給定的矩陣 A ∈ {0,1}^m×n，那么這就意味著 2A ? 1_m×n 的符號秩有一個上界。這尤其表明了一種實用機制，可以通過對自由嵌入表示進行梯度下降優(yōu)化來確定矩陣符號秩的上界。

實證聯(lián)系

最佳情況優(yōu)化

在上文中，研究者已經(jīng)基于 qrel 矩陣的符號秩及其嵌入維度 d 建立了嵌入模型的理論局限，現(xiàn)在希望在實證層面上也展示這一點。

為了展示可能的最強優(yōu)化情況，研究者設計了實驗，使得向量本身可以通過梯度下降直接優(yōu)化。他們稱這種方式為「自由嵌入」優(yōu)化，嵌入是自由可優(yōu)化的，不受自然語言的限制，而自然語言會對任何現(xiàn)實的嵌入模型施加約束。因此，這可以展示任意嵌入模型是否有可能解決該問題：如果自由嵌入優(yōu)化無法解決該問題，那么真實的檢索模型也無法做到。

值得注意的是，研究者是通過直接在目標 qrel 矩陣（測試集）上優(yōu)化嵌入來實現(xiàn)的。這種方式不會泛化到新的數(shù)據(jù)集，但其目的是展示可能出現(xiàn)的最高性能。

關于實驗設置，研究者創(chuàng)建一個隨機文檔矩陣（大小為 n）和一個隨機查詢矩陣，其中包含 top-k 集合（所有組合，即大小為），兩者均為單位向量。然后直接使用 Adam 優(yōu)化器來優(yōu)化約束條件。每一次梯度更新都對所有正確的三元組進行完整遍歷（即整個數(shù)據(jù)集作為 batch-size），并使用 InfoNCE 損失函數(shù)，其他所有文檔作為批內(nèi)負樣本（即整個數(shù)據(jù)集在一個 batch 中）。

由于幾乎所有嵌入模型都使用歸一化向量，研究者也同樣采用這種方式（在更新后進行歸一化）。當損失在 1000 次迭代中沒有改進時，就提前停止。他們逐漸增加文檔數(shù)量（因此查詢的組合數(shù)也隨之增加），直到優(yōu)化器無法再解決該問題（即無法達到 100% 的準確率）。研究者將這一點稱為「臨界 n 點」。

由于文檔數(shù)較大時組合數(shù)量呈現(xiàn)組合爆炸（例如 5 萬個文檔、top-k=100 時會產(chǎn)生 7.7e+311 種組合，這相當于自由嵌入實驗中維度為 d 的查詢向量數(shù)量），因此研究者專注于 n、k 和 d 的相對較小規(guī)模。研究者設定 k=2，并在每個 d 值下逐次增加 n，直到模型無法解決問題。此外對數(shù)據(jù)擬合了一條多項式回歸曲線，以便能夠建模并向外推算結(jié)果。

結(jié)果如下圖 2 所示，該曲線符合三次多項式擬合，其公式為 y = ?10.5322 + 4.0309d + 0.0520d2 + 0.0037d3 （r2=0.999）。將該曲線外推得到的臨界 n 值（對應嵌入維度）分別為：500k（512）、170 萬（768）、400 萬（1024）、1.07 億（3072）、2.5 億（4096）。

需要注意，這只是最佳情況：真實的嵌入模型無法直接優(yōu)化查詢和文檔向量以匹配測試集的 qrel 矩陣，并且還受到「自然語言建?！沟纫蛩氐募s束。然而，這些數(shù)值已經(jīng)表明，對于網(wǎng)頁級別的搜索，即便是在理想測試集優(yōu)化下，最大的嵌入維度也不足以建模所有組合。

實證聯(lián)系

真實世界數(shù)據(jù)集

接下來，研究者將（1）該理論與現(xiàn)有數(shù)據(jù)集建立聯(lián)系；（2）為現(xiàn)有 SOTA 模型構(gòu)建一個極其簡單卻又極度困難的檢索任務。

與以往工作形成對比的是，研究者希望構(gòu)建的數(shù)據(jù)集，可以用于評估少量文檔情況下所有 top-k 集合的組合。不同于使用 QUEST、BrowseComp 等復雜的查詢操作符（這些操作本身就因 qrel 矩陣之外的原因而很難），他們選擇了非常簡單的查詢和文檔，以突出表示所有 top-k 集合本身的難度。

LIMIT 數(shù)據(jù)集

研究者選用 5 萬個文檔，以構(gòu)建一個既有難度又相對規(guī)模較小的語料庫；同時使用 1000 個查詢，以在保證統(tǒng)計顯著性的前提下仍能快速完成評估。

對于每個查詢，研究者選擇關聯(lián)兩個相關文檔（即 k=2），這樣做既為了簡化實例化過程，也為了與之前的工作保持一致。接下來是選擇一個 qrel 矩陣來實例化這些屬性，并為查詢分配隨機的自然語言屬性，將這些屬性添加到各自的相關文檔中（參見圖 1）。

研究者測試了所有文檔組合的相關性（對于三個文檔，每個查詢包含兩個相關文檔的所有組合），并通過一個簡單的映射進行實例化。

研究者評估了當前 SOTA 嵌入模型，包括 GritLM、Qwen 3 Embeddings、Promptriever、Gemini Embeddings、Snowflake 的 Arctic Embed Large v2.0 以及 E5-Mistral Instruct，并展示了在完整嵌入維度下的結(jié)果以及在截斷嵌入維度（通常用于 matryoshka learning，即 MRL）下的結(jié)果。

下圖 3 展示了在完整 LIMIT 上的結(jié)果，而下圖 4 展示了在小規(guī)模（包含 46 個文檔）版本上的結(jié)果。令人驚訝的是，即便任務本身很簡單，模型依然表現(xiàn)極差。在完整設置中，模型甚至難以達到 20% 的 recall@100，而在 46 個文檔的版本中，即使是 recall@20，模型也無法解決該任務。

存在領域遷移嗎？

雖然本文的查詢看起來與標準的網(wǎng)頁搜索查詢相似，但研究者懷疑是否存在某種領域遷移從而導致性能低下。如果真是這樣，那么在相似示例的訓練集上進行訓練預計能夠顯著提升性能。另一方面，如果任務本身就很難，那么在訓練集上訓練幾乎無濟于事，而在測試集上訓練則會讓模型過擬合到特定 token。

下圖 5 顯示，在訓練集上訓練的模型無法解決該問題，雖然 recall@10 從最開始的接近零有了輕微提升，最高達到了 2.8。但在域內(nèi)訓練時并未出現(xiàn)明顯的性能提升，表明性能較弱并不是由領域遷移造成的。

Qrel 模式的影響

研究者從以下四種不同的 qrel 模式來實例化 LIMIT 數(shù)據(jù)集：

從所有組合中隨機采樣；
基于循環(huán)的設置，其中下一個查詢與前一個查詢中的一個文檔以及后續(xù)下一個文檔相關；
不相交模式，每個查詢與兩個新的文檔相關；
在查詢集中能容納的最大文檔數(shù)上，最大化連接數(shù)（即組合數(shù) n choose k）的模式（稠密模式，標準設置）。

從下圖 6 可以看到，除了稠密模式之外，其他模式的性能相對接近。不過，當轉(zhuǎn)向稠密模式時，所有模型的分數(shù)都顯著下降：GritLM 的 recall@100 絕對值下降了 50，而 E5-Mistral 的降幅更加驚人，幾乎降低了 10 倍（從 40.4 降到了 4.8）。

更多技術細節(jié)和實驗結(jié)果請參考原論文。

責任編輯：張燕妮來源：機器之心

DeepMind 模型 AI

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<ruby id="pogpm"></ruby>

<em id="pogpm"></em>

<dfn id="pogpm"><strong id="pogpm"><label id="pogpm"></label></strong></dfn>