偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepMind爆火論文:向量嵌入模型存在數(shù)學上限,Scaling laws放緩實錘?

人工智能 新聞
DeepMind 的最新研究為這個爭論提供了新的證據(jù)。他們將幾何代數(shù)與通信復雜度理論結(jié)合,證明了向量嵌入的能力存在一個數(shù)學下界:對于任意給定的嵌入維度 d,當文檔數(shù)量超過某個臨界點時,總會存在一些相關文檔組合是無論如何都無法通過查詢同時召回的。

這幾天,一篇關于向量嵌入(Vector Embeddings)局限性的論文在 AlphaXiv 上爆火,熱度飆升到了近 9000。

要理解這篇論文的重要性,我們先簡單回顧一下什么是向量嵌入。

向量嵌入就像把文字、圖片或聲音這些復雜的東西,轉(zhuǎn)化成一個多維空間里的「坐標點」。比如,把「蘋果」這個詞變成一串幾百維的數(shù)字,這些數(shù)字捕捉了它的語義(它可以指水果,也可以指公司)。在這個空間里,相似的概念彼此靠近,不相似的則遠離。借助這種機制,計算機能夠快速搜索或比較海量數(shù)據(jù),而無需逐字逐句地比對。

圖源:veaviate

多年以來,嵌入主要用于「檢索」任務,例如搜索引擎中的相似文檔查找,或推薦系統(tǒng)中的個性化推薦。隨著大模型技術的發(fā)展,嵌入的應用開始拓展到推理、指令遵循、編程等更復雜的任務。這些新興需求,推動著嵌入技術朝著能處理任何查詢、任何相關性定義的方向演進。

然而,先前的研究已經(jīng)指出了向量嵌入的理論局限性。它的本質(zhì),是把一個高維度、復雜的概念(比如「愛」,可能包含親情、愛情、友情、奉獻、占有等無數(shù)面向)強行壓縮成一串固定長度的向量。這個過程不可避免地丟失信息,就像三維蘋果被拍成二維照片 —— 無論照片多清晰,你都無法從中還原出它的重量、氣味等屬性。

過去幾年,業(yè)界普遍認為這種理論困難可以通過更好的訓練數(shù)據(jù)和更大的模型來克服。這就是過去幾年以 OpenAI 為代表的公司所遵循的「大力出奇跡」(Scaling Laws)的哲學。

從 GPT-2 到 GPT-4,再到 GPT-5,模型參數(shù)量和數(shù)據(jù)量指數(shù)級增長,能力也確實發(fā)生了質(zhì)的飛躍。這讓很多人相信,這條路能一直走下去。

然而,當前 AI 圈的一個熱點爭論就是:我們是不是快要撞上「Scaling Laws」的天花板了?

DeepMind 的最新研究為這個爭論提供了新的證據(jù)。他們將幾何代數(shù)與通信復雜度理論結(jié)合,證明了向量嵌入的能力存在一個數(shù)學下界:對于任意給定的嵌入維度 d,當文檔數(shù)量超過某個臨界點時,總會存在一些相關文檔組合是無論如何都無法通過查詢同時召回的。

這意味著,嵌入模型存在一個不可逾越的限制,無法單純依靠「更大的模型」來突破。

  • 論文標題:On the Theoretical Limitations of Embedding-Based Retrieval
  • arXiv 地址:https://arxiv.org/pdf/2508.21038

這一理論瓶頸在現(xiàn)實中最直接的體現(xiàn),就是檢索增強生成(RAG)。RAG 的工作機制是:先用向量嵌入從知識庫中檢索相關信息,再交給大模型生成答案。但 DeepMind 的證明表明,當知識庫規(guī)模足夠大、一個問題需要多份文檔共同回答時,即使采用最先進的嵌入模型,也可能因為維度不足而無法完整召回關鍵信息。這會導致大模型在生成時受到錯誤或不完整上下文的干擾。

為了證明這一理論限制對任何模型或訓練數(shù)據(jù)都成立,研究者采用了一種「最佳情況」設定,即向量本身是使用測試數(shù)據(jù)直接進行優(yōu)化的。實驗發(fā)現(xiàn),對于每個嵌入維度 d 都存在一個臨界點,一旦文檔數(shù)量超過該點,嵌入維度就不足以編碼所有的組合。他們還證明了這種臨界關系可以通過一個多項式函數(shù)進行經(jīng)驗性建模。

更進一步,研究者基于這些理論局限性構(gòu)建了一個名為 LIMIT 的簡單數(shù)據(jù)集。盡管任務很簡單(例如,「誰喜歡蘋果?」),但即便是 MTEB 基準上最先進的嵌入模型也很難解決這個問題,而對于嵌入維度較小的模型來說則是不可能的。

論文一作、約翰霍普金斯大學博士生 Orion Weller 表示,在當前的信息檢索領域,大家希望嵌入模型能夠同時承擔指令理解和推理等一切能力。遺憾的是,單向量嵌入模型在理論和實證上都做不到,它們存在根本性限制。通過開源的簡單評測任務,他們證實了即便是 SOTA 模型也表現(xiàn)糟糕。

總的來說,這篇工作的貢獻可以總結(jié)為以下三點:

  • 為嵌入模型的根本性局限提供了理論基礎;
  • 通過自由的嵌入優(yōu)化進行最佳情況下的經(jīng)驗性分析,證明了該理論適用于任何數(shù)據(jù)集實例;
  • 構(gòu)建了一個名為 LIMIT 的簡單、真實的自然語言實例,即使是最先進的嵌入模型也無法解決。

這不僅揭示了 RAG 系統(tǒng)在應用上的硬性約束,也讓人重新思考 Scaling Laws 在 AI 發(fā)展中的邊界。嵌入的局限,也許正是「加大規(guī)?!共⒎侨f能解法的一個縮影。

向量嵌入的表征能力

研究者首先證明了通信復雜性理論中的已知結(jié)果在向量嵌入設定下的含義。

理論上限。對于二進制矩陣,逐行排序和逐行閾值化是等價的表征能力概念。

到目前為止,研究者描述的這些概念與矩陣的符號秩密切相關。在本文的其余部分,他們將利用符號秩來建立主要的界限。

將所有這些結(jié)合起來就得出了所需的不等式鏈。

研究者表示,在向量嵌入模型的背景下,這為準確捕獲一組檢索目標所需向量的維度提供了上下界,無論是逐行排序、逐行閾值,還是全局閾值。

具體來說,給定某個二進制相關矩陣 A ∈ {0,1}^m×n,至少需要 rank_±(2A ? 1_m×n) ? 1 個維度來精確捕獲 A 中的關系,并且最多需要 rank_±(2A ? 1_m×n) 個維度就能實現(xiàn)。

在實際中,這意味著:

  • 對于任意固定的維度 d,都會存在某個二進制相關矩陣無法通過 d 維嵌入來捕獲,這是因為存在符號秩任意高的矩陣。換句話說,那些 qrel 矩陣具有更高符號秩的檢索任務更難被嵌入模型精確捕獲,需要更高的嵌入維度。
  • 如果能夠在 d 維中以逐行保持順序的方式嵌入某個給定的矩陣 A ∈ {0,1}^m×n,那么這就意味著 2A ? 1_m×n 的符號秩有一個上界。這尤其表明了一種實用機制,可以通過對自由嵌入表示進行梯度下降優(yōu)化來確定矩陣符號秩的上界。

實證聯(lián)系

最佳情況優(yōu)化

在上文中,研究者已經(jīng)基于 qrel 矩陣的符號秩及其嵌入維度 d 建立了嵌入模型的理論局限,現(xiàn)在希望在實證層面上也展示這一點。

為了展示可能的最強優(yōu)化情況,研究者設計了實驗,使得向量本身可以通過梯度下降直接優(yōu)化。他們稱這種方式為「自由嵌入」優(yōu)化,嵌入是自由可優(yōu)化的,不受自然語言的限制,而自然語言會對任何現(xiàn)實的嵌入模型施加約束。因此,這可以展示任意嵌入模型是否有可能解決該問題:如果自由嵌入優(yōu)化無法解決該問題,那么真實的檢索模型也無法做到。

值得注意的是,研究者是通過直接在目標 qrel 矩陣(測試集)上優(yōu)化嵌入來實現(xiàn)的。這種方式不會泛化到新的數(shù)據(jù)集,但其目的是展示可能出現(xiàn)的最高性能。

關于實驗設置,研究者創(chuàng)建一個隨機文檔矩陣(大小為 n)和一個隨機查詢矩陣,其中包含 top-k 集合(所有組合,即大小為),兩者均為單位向量。然后直接使用 Adam 優(yōu)化器來優(yōu)化約束條件。每一次梯度更新都對所有正確的三元組進行完整遍歷(即整個數(shù)據(jù)集作為 batch-size),并使用 InfoNCE 損失函數(shù),其他所有文檔作為批內(nèi)負樣本(即整個數(shù)據(jù)集在一個 batch 中)。

由于幾乎所有嵌入模型都使用歸一化向量,研究者也同樣采用這種方式(在更新后進行歸一化)。當損失在 1000 次迭代中沒有改進時,就提前停止。他們逐漸增加文檔數(shù)量(因此查詢的組合數(shù)也隨之增加),直到優(yōu)化器無法再解決該問題(即無法達到 100% 的準確率)。研究者將這一點稱為「臨界 n 點」。

由于文檔數(shù)較大時組合數(shù)量呈現(xiàn)組合爆炸(例如 5 萬個文檔、top-k=100 時會產(chǎn)生 7.7e+311 種組合,這相當于自由嵌入實驗中維度為 d 的查詢向量數(shù)量),因此研究者專注于 n、k 和 d 的相對較小規(guī)模。研究者設定 k=2,并在每個 d 值下逐次增加 n,直到模型無法解決問題。此外對數(shù)據(jù)擬合了一條多項式回歸曲線,以便能夠建模并向外推算結(jié)果。

結(jié)果如下圖 2 所示,該曲線符合三次多項式擬合,其公式為 y = ?10.5322 + 4.0309d + 0.0520d2 + 0.0037d3 (r2=0.999)。將該曲線外推得到的臨界 n 值(對應嵌入維度)分別為:500k(512)、170 萬(768)、400 萬(1024)、1.07 億(3072)、2.5 億(4096)。

需要注意,這只是最佳情況:真實的嵌入模型無法直接優(yōu)化查詢和文檔向量以匹配測試集的 qrel 矩陣,并且還受到「自然語言建?!沟纫蛩氐募s束。然而,這些數(shù)值已經(jīng)表明,對于網(wǎng)頁級別的搜索,即便是在理想測試集優(yōu)化下,最大的嵌入維度也不足以建模所有組合。

實證聯(lián)系

真實世界數(shù)據(jù)集

接下來,研究者將(1)該理論與現(xiàn)有數(shù)據(jù)集建立聯(lián)系;(2)為現(xiàn)有 SOTA 模型構(gòu)建一個極其簡單卻又極度困難的檢索任務。

與以往工作形成對比的是,研究者希望構(gòu)建的數(shù)據(jù)集,可以用于評估少量文檔情況下所有 top-k 集合的組合。不同于使用 QUEST、BrowseComp 等復雜的查詢操作符(這些操作本身就因 qrel 矩陣之外的原因而很難),他們選擇了非常簡單的查詢和文檔,以突出表示所有 top-k 集合本身的難度。

LIMIT 數(shù)據(jù)集

研究者選用 5 萬個文檔,以構(gòu)建一個既有難度又相對規(guī)模較小的語料庫;同時使用 1000 個查詢,以在保證統(tǒng)計顯著性的前提下仍能快速完成評估。

對于每個查詢,研究者選擇關聯(lián)兩個相關文檔(即 k=2),這樣做既為了簡化實例化過程,也為了與之前的工作保持一致。接下來是選擇一個 qrel 矩陣來實例化這些屬性,并為查詢分配隨機的自然語言屬性,將這些屬性添加到各自的相關文檔中(參見圖 1)。

研究者測試了所有文檔組合的相關性(對于三個文檔,每個查詢包含兩個相關文檔的所有組合),并通過一個簡單的映射進行實例化。

研究者評估了當前 SOTA 嵌入模型,包括 GritLM、Qwen 3 Embeddings、Promptriever、Gemini Embeddings、Snowflake 的 Arctic Embed Large v2.0 以及 E5-Mistral Instruct,并展示了在完整嵌入維度下的結(jié)果以及在截斷嵌入維度(通常用于 matryoshka learning,即 MRL)下的結(jié)果。

下圖 3 展示了在完整 LIMIT 上的結(jié)果,而下圖 4 展示了在小規(guī)模(包含 46 個文檔)版本上的結(jié)果。令人驚訝的是,即便任務本身很簡單,模型依然表現(xiàn)極差。在完整設置中,模型甚至難以達到 20% 的 recall@100,而在 46 個文檔的版本中,即使是 recall@20,模型也無法解決該任務。

存在領域遷移嗎?

雖然本文的查詢看起來與標準的網(wǎng)頁搜索查詢相似,但研究者懷疑是否存在某種領域遷移從而導致性能低下。如果真是這樣,那么在相似示例的訓練集上進行訓練預計能夠顯著提升性能。另一方面,如果任務本身就很難,那么在訓練集上訓練幾乎無濟于事,而在測試集上訓練則會讓模型過擬合到特定 token。

下圖 5 顯示,在訓練集上訓練的模型無法解決該問題,雖然 recall@10 從最開始的接近零有了輕微提升,最高達到了 2.8。但在域內(nèi)訓練時并未出現(xiàn)明顯的性能提升,表明性能較弱并不是由領域遷移造成的。

Qrel 模式的影響

研究者從以下四種不同的 qrel 模式來實例化 LIMIT 數(shù)據(jù)集:

  • 從所有組合中隨機采樣;
  • 基于循環(huán)的設置,其中下一個查詢與前一個查詢中的一個文檔以及后續(xù)下一個文檔相關;
  • 不相交模式,每個查詢與兩個新的文檔相關;
  • 在查詢集中能容納的最大文檔數(shù)上,最大化連接數(shù)(即組合數(shù) n choose k)的模式(稠密模式,標準設置)。

從下圖 6 可以看到,除了稠密模式之外,其他模式的性能相對接近。不過,當轉(zhuǎn)向稠密模式時,所有模型的分數(shù)都顯著下降:GritLM 的 recall@100 絕對值下降了 50,而 E5-Mistral 的降幅更加驚人,幾乎降低了 10 倍(從 40.4 降到了 4.8)。

更多技術細節(jié)和實驗結(jié)果請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-05-14 18:50:35

Chrome漏洞瀏覽器

2024-11-13 13:50:00

AI模型

2022-09-13 14:54:08

模型AI

2025-03-14 11:18:19

2025-09-10 09:14:00

AI硅谷996

2025-07-30 04:15:00

2023-01-16 09:32:03

DeepMindAI

2024-02-29 12:56:00

AI訓練

2023-03-02 11:44:08

AI技術

2023-07-21 12:57:40

ChatGPT能力檢測

2025-02-27 12:42:54

2023-06-19 10:09:01

數(shù)學AI

2024-04-07 13:21:23

谷歌小模型技術

2025-01-17 09:20:00

2023-12-06 10:42:14

亞馬遜AI工具

2025-02-21 13:20:00

2023-02-14 09:28:35

2024-05-08 09:37:36

AI論文

2023-04-03 09:56:22

模型系統(tǒng)

2021-01-12 12:02:10

黑客攻擊SolarWinds
點贊
收藏

51CTO技術棧公眾號