偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

1萬(wàn)tokens是檢驗(yàn)長(zhǎng)文本的新基準(zhǔn),超過(guò)后18款大模型集體失智

人工智能 新聞
這是Chroma團(tuán)隊(duì)的最新研究結(jié)論,他們用升級(jí)版“大海撈針”(NIAH)測(cè)試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內(nèi)的18個(gè)開(kāi)源和閉源的主流大模型。

上下文擴(kuò)展至1萬(wàn)tokens,LLM集體“失智”!

且“智商”不是均勻下降,而是在一些節(jié)點(diǎn)突然斷崖式下跌。

比如Claude Sonnet 4,就是在1000tokens后準(zhǔn)確率一路下滑,從90%降到60%。

或者是下降后放緩再下降,比如GPT-4.1和Gemini 2.5 Flash。

最終,當(dāng)上下文長(zhǎng)度來(lái)到1萬(wàn)tokens,大家都只剩50%準(zhǔn)確率。

圖片

這也就意味著,大模型在讀同一本書(shū)第10頁(yè)和第100頁(yè)時(shí)的“智商”可能不一樣。

并且不同大模型在“讀這本書(shū)”時(shí)突然降智的頁(yè)數(shù)也不同。

GPT-4.1可能讀到第10頁(yè)就“失智”了,Claude興許能堅(jiān)持到第100頁(yè)。

這是Chroma團(tuán)隊(duì)的最新研究結(jié)論,他們用升級(jí)版“大海撈針”(NIAH)測(cè)試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內(nèi)的18個(gè)開(kāi)源和閉源的主流大模型。

結(jié)果顯示,隨著輸入長(zhǎng)度的增加,模型的性能越來(lái)越差

實(shí)驗(yàn)還首次系統(tǒng)性地揭示了輸入長(zhǎng)度對(duì)模型性能并非均勻影響,不同模型性能可能在某一tokens長(zhǎng)度上準(zhǔn)確率發(fā)生驟降。

這項(xiàng)工作得到了網(wǎng)友的肯定:

以往人們或許會(huì)遇到當(dāng)輸入長(zhǎng)度增加時(shí)大模型會(huì)出現(xiàn)性能不佳的情況,但并沒(méi)有人深入探究過(guò)這個(gè)問(wèn)題。

圖片

目前代碼已開(kāi)源,感興趣的朋友可復(fù)現(xiàn)~

1萬(wàn)tokens是個(gè)坎兒

Gemini 1.5 Pro在2024年首次引入了1M上下文窗口,隨后GPT-4.1也加入到了1M上下文隊(duì)伍中。

更長(zhǎng)的上下文意味著LLM每次調(diào)用可以處理更多信息,似乎能生成更合理的輸出。

確實(shí),這些模型在“大海撈針”(NIAH)這些基準(zhǔn)測(cè)試中表現(xiàn)良好。但實(shí)際上,現(xiàn)有基準(zhǔn)測(cè)試有一個(gè)局限性是在于它們傾向于把輸入長(zhǎng)度與任務(wù)難度混為一談。

NIAH本質(zhì)上是一個(gè)簡(jiǎn)單的檢索任務(wù),它是將一個(gè)已知事實(shí)(“針”)放置在一大段不相關(guān)文本(“干草堆”)中,然后要求模型檢索它。

圖片

這種方法主要評(píng)估大模型直接的詞匯匹配能力,無(wú)法代表更靈活、面向語(yǔ)義的任務(wù)。

其他更復(fù)雜的任務(wù),例如包含非詞匯匹配的NoLiMa和測(cè)試文本片段缺失識(shí)別的AbsenceBench,已經(jīng)揭示了模型性能在輸入長(zhǎng)度增加時(shí)出現(xiàn)的顯著下降,但沒(méi)有進(jìn)行更深入地探討。

為了解決經(jīng)典N(xiāo)IAH的局限性,并更好地探究僅輸入長(zhǎng)度對(duì)模型性能的影響,研究人員擴(kuò)展了標(biāo)準(zhǔn)的NIAH任務(wù)。

研究人員基于保持任務(wù)復(fù)雜度不變,只改變輸入長(zhǎng)度核心原則,設(shè)計(jì)了四項(xiàng)對(duì)照實(shí)驗(yàn)。

先說(shuō)結(jié)論,四項(xiàng)對(duì)照實(shí)驗(yàn)(針-問(wèn)題相似度、干擾信息、針-干草堆相似度、干草堆結(jié)構(gòu)實(shí)驗(yàn))共同證明了LLMs的性能會(huì)隨輸入長(zhǎng)度增加而顯著且非均勻地下降,且這種衰減受輸入內(nèi)容的語(yǔ)義特征、結(jié)構(gòu)等因素影響。

具體表現(xiàn)為:

  1. 輸入長(zhǎng)度是性能衰減的核心變量,無(wú)論任務(wù)簡(jiǎn)單與否,模型處理長(zhǎng)文本的可靠性都會(huì)下降;
  2. 語(yǔ)義關(guān)聯(lián)性(如針-問(wèn)題相似度低、針與干草堆語(yǔ)義融合)會(huì)加劇衰減;
  3. 干擾信息和文本結(jié)構(gòu)(如邏輯連貫的干草堆)會(huì)進(jìn)一步削弱模型在長(zhǎng)上下文任務(wù)中的表現(xiàn);
  4. 不同模型對(duì)這些因素的敏感程度存在差異,但整體均無(wú)法維持穩(wěn)定性能。

第一項(xiàng)是針-問(wèn)題相似度實(shí)驗(yàn):驗(yàn)證“針”與“問(wèn)題”的語(yǔ)義相似度是否會(huì)影響模型在長(zhǎng)上下文任務(wù)中的表現(xiàn),尤其是輸入長(zhǎng)度增加時(shí),低相似度是否會(huì)加劇性能衰減。

實(shí)驗(yàn)選取了保羅?格雷厄姆散文(PG essay)和arXiv論文作為背景數(shù)據(jù)(干草堆),針對(duì)其核心主題設(shè)計(jì)問(wèn)題,并為每個(gè)問(wèn)題生成8個(gè)與主題匹配且未出現(xiàn)在干草堆中的 “針”,通過(guò)5種嵌入模型計(jì)算“針-問(wèn)題”余弦相似度,分為高、低相似度兩組。

實(shí)驗(yàn)控制任務(wù)復(fù)雜度和干草堆內(nèi)容,僅調(diào)整輸入長(zhǎng)度(102到10?tokens)和相似度,以模型回答準(zhǔn)確率為指標(biāo)(由GPT-4.1評(píng)估,與人類(lèi)判斷一致性超過(guò)99%)。

圖片

結(jié)果顯示,所有模型性能均隨輸入長(zhǎng)度增加而下降,到1萬(wàn)token左右下降最明顯,且低相似度組衰減更顯著——

高相似度組在10?tokens 時(shí)準(zhǔn)確率約60%-80%,低相似度組降至40%-60%,高性能模型雖在短輸入時(shí)表現(xiàn)更好,長(zhǎng)輸入下仍難避免衰減。

這表明,“針-問(wèn)題”語(yǔ)義相似度是關(guān)鍵影響因素,相似度越低,長(zhǎng)輸入下模型性能衰減越劇烈,揭示了現(xiàn)有模型處理模糊信息的局限性。

第二項(xiàng)是干擾信息實(shí)驗(yàn):探究當(dāng)輸入長(zhǎng)度變化時(shí),與目標(biāo)信息(針)相關(guān)但不匹配的干擾內(nèi)容對(duì)LLMs性能的影響,尤其是干擾項(xiàng)數(shù)量和個(gè)體差異是否會(huì)加劇性能衰減。

研究團(tuán)隊(duì)從保羅?格雷厄姆散文和arXiv論文兩類(lèi)干草堆中,選取與問(wèn)題語(yǔ)義相似度較高的“針”,并手動(dòng)設(shè)計(jì)4個(gè)干擾項(xiàng)。

實(shí)驗(yàn)設(shè)置了三種條件:基線(xiàn)(僅含“針”,無(wú)干擾項(xiàng))、單一干擾項(xiàng)(“針”+1條隨機(jī)位置的干擾項(xiàng))、多重干擾項(xiàng)(“針”+4條隨機(jī)分布的干擾項(xiàng))。

圖片

通過(guò)控制任務(wù)復(fù)雜度(僅需檢索“針”并回答問(wèn)題),僅調(diào)整輸入長(zhǎng)度(從102到10?tokens)和干擾項(xiàng)數(shù)量,以模型回答的準(zhǔn)確率為指標(biāo)。

圖片

結(jié)果顯示,即使單一干擾項(xiàng)也會(huì)導(dǎo)致模型性能低于基線(xiàn),而加入4條干擾項(xiàng)會(huì)進(jìn)一步加劇性能衰減。

輸入長(zhǎng)度為10?tokens時(shí),多重干擾項(xiàng)條件下模型準(zhǔn)確率比基線(xiàn)低30%-50%。

圖片

此外,模型對(duì)干擾項(xiàng)的響應(yīng)存在差異:Claude系列傾向于在不確定時(shí)棄權(quán)(明確表示無(wú)法回答),幻覺(jué)率較低;GPT系列則更可能生成自信但錯(cuò)誤的答案,受干擾影響更明顯;Gemini和Qwen模型的表現(xiàn)波動(dòng)較大,易受干擾項(xiàng)數(shù)量和輸入長(zhǎng)度的雙重影響。

第三項(xiàng)是針-干草堆相似度實(shí)驗(yàn):探究目標(biāo)信息(針)與背景文本(干草堆)的語(yǔ)義相似度對(duì) LLMs長(zhǎng)上下文任務(wù)性能的影響。

圖片

實(shí)驗(yàn)選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對(duì)其核心主題設(shè)計(jì)問(wèn)題及8個(gè)匹配主題的“針”(確保未出現(xiàn)在干草堆中),通過(guò)5種嵌入模型計(jì)算“針-干草堆” 余弦相似度并取平均值以保證穩(wěn)健性。

實(shí)驗(yàn)控制任務(wù)復(fù)雜度,僅調(diào)整輸入長(zhǎng)度(102到 10?tokens)和相似度,以模型回答準(zhǔn)確率為指標(biāo)。

圖片

結(jié)果顯示,針-干草堆相似度對(duì)模型性能的影響不統(tǒng)一,不同模型敏感度存在差異,但整體上隨著輸入長(zhǎng)度增加,各相似度條件下的模型性能普遍下降。

第四項(xiàng)是干草堆結(jié)構(gòu)實(shí)驗(yàn):探究背景文本(干草堆)的結(jié)構(gòu)模式對(duì)LLMs長(zhǎng)上下文任務(wù)性能的影響。

圖片

實(shí)驗(yàn)選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對(duì)其核心主題設(shè)計(jì)問(wèn)題及8個(gè)匹配主題的“針”(確保未出現(xiàn)在干草堆中),設(shè)置連貫結(jié)構(gòu)(文本按原邏輯順序呈現(xiàn))和打亂結(jié)構(gòu)(文本順序隨機(jī)打亂)兩種條件。

實(shí)驗(yàn)控制任務(wù)復(fù)雜度,僅調(diào)整輸入長(zhǎng)度(102 到 10? tokens)和干草堆結(jié)構(gòu)。

圖片

結(jié)果顯示,多數(shù)模型在連貫結(jié)構(gòu)中隨輸入長(zhǎng)度增加性能下降更顯著,而打亂結(jié)構(gòu)下性能下降較緩和——

輸入長(zhǎng)度10?tokens 時(shí),連貫結(jié)構(gòu)中部分模型準(zhǔn)確率降至30%-40%,打亂結(jié)構(gòu)則維持在50%-60%。

這表明干草堆結(jié)構(gòu)是關(guān)鍵影響因素,現(xiàn)有模型處理復(fù)雜邏輯結(jié)構(gòu)的長(zhǎng)文本時(shí)挑戰(zhàn)更大。

團(tuán)隊(duì)還設(shè)計(jì)了重復(fù)單詞實(shí)驗(yàn),說(shuō)明即使是最基礎(chǔ)的文本復(fù)現(xiàn)任務(wù),LLMs 在長(zhǎng)上下文下的穩(wěn)定性也存在嚴(yán)重缺陷,且輸入與輸出長(zhǎng)度的同步增長(zhǎng)會(huì)加劇這一問(wèn)題。

圖片

這些實(shí)驗(yàn)結(jié)果共同證明,盡管大型語(yǔ)言模型的上下文窗口不斷增長(zhǎng),但其性能并非均勻一致

基于LLMs在長(zhǎng)文本任務(wù)上的缺陷,也有人給出了應(yīng)對(duì)策略:給出明確、清晰的指令,并且在收集到足夠的信息后保存上下文,添加一個(gè)檢查點(diǎn)。

圖片圖片

Chroma——開(kāi)源的AI應(yīng)用數(shù)據(jù)庫(kù)

Chroma致力于開(kāi)發(fā)開(kāi)源軟件,由Jeff Huber(左)和Anton Troynikov(右)共同創(chuàng)立。

圖片

公司公開(kāi)發(fā)布的同名數(shù)據(jù)庫(kù)Chroma是一個(gè)開(kāi)源的AI應(yīng)用數(shù)據(jù)庫(kù),旨在通過(guò)將知識(shí)和技能整合為大語(yǔ)言模型可調(diào)用的模塊,簡(jiǎn)化LLM應(yīng)用的構(gòu)建過(guò)程。

圖片

團(tuán)隊(duì)活躍于LLMs長(zhǎng)上下文處理、檢索增強(qiáng)生成(RAG)等領(lǐng)域的研究,以解決大模型在實(shí)際應(yīng)用中對(duì)長(zhǎng)文本信息的記憶、提取和利用效率問(wèn)題。

目前,Chroma計(jì)劃推出免費(fèi)的技術(shù)預(yù)覽,并表示:

我們100%專(zhuān)注于構(gòu)建有價(jià)值的開(kāi)源軟件。

代碼地址:https://github.com/chroma-core/context-rot

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-07-16 13:20:59

2025-06-10 09:10:00

2023-09-25 10:04:37

模型AI

2012-04-29 16:25:35

App

2024-08-14 14:06:01

2025-06-27 09:26:50

2025-02-19 13:50:00

明星編程軟件

2024-08-07 14:40:00

AI數(shù)據(jù)

2024-05-21 11:35:48

阿里云通義千問(wèn)

2024-05-13 09:09:01

2025-05-23 08:47:00

2025-05-30 09:10:00

模型論文AI

2024-04-03 13:32:24

2023-06-09 07:29:03

模型文本document

2023-11-01 13:06:52

2023-07-05 14:53:49

模型黑馬項(xiàng)目Github

2025-01-16 08:40:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)