偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓GPT-4.1「頭皮發(fā)麻的考試」!OpenAI給大模型上強度,AI能贏嗎?

人工智能
當AI模型擁有千萬級Token的超長記憶力時,如何檢驗它們的真正實力?OpenAI給出了新答案:MRCR基準測試。這不再是簡單的「大海撈針」,而是要求模型在海量文本中,區(qū)分并找到多個一模一樣的「針」中的特定一個,難度堪稱「AI 界的奧運會」。MRCR不僅有助于揭示當前AI的能力邊界,也將促使下一代更強大、更可靠模型的誕生。

雕塑在大理石塊中已經(jīng)完成,甚至在我開始工作之前就已經(jīng)存在。

它就在那里,我只需要鑿去多余的材料。

——米開朗基羅

當被問及是如何創(chuàng)作出如此美麗的雕塑時,米開朗基羅說「雕塑已經(jīng)存在,我只是需要鑿去多余的材料」。

當21世紀的一個AI模型去理解一個非常長的上下文時,冥冥之中與15世紀的雕塑家發(fā)生了共鳴。

一個「超長的上下文」就像米開朗基羅手里的大理石,AI必須鑿去無關信息以揭示其中的本質(zhì)。

4月15日,OpenAI發(fā)布GPT4.1時,更多的人關注模型的能力以及各系列「奇怪的」命名規(guī)則。

圖片圖片

如果再加上OpenAI最近發(fā)布的o3和o4-mini,以后操縱一個AI聊天界面估計不亞于開宇宙飛船。

除了新模型,OpenAI還公布了一個叫做MRCR的評測標準數(shù)據(jù)集,如果說以前檢測模型上下文能力的測試叫做「大海撈針」的話。

新的MRCR標準就是針對AI模型上下文能力的「奧運會」級別測評。

在信息海洋中「大海撈針」

「大海撈針」是翻譯過來的,原文叫做The Needle In a Haystack,最早還得追溯到GPT-4那個「年代」(感嘆下,AI發(fā)展的如此快,上一個里程碑時刻都要用年代來感知了,其實也就是2023年的事情)

最早是Greg Kamradt為了測試GPT-4的上下文能力提出的。

圖片圖片

「The needle in a haystack」就是指將特定的、想要檢索的信息(needle)嵌入到超長且復雜的文本(haystack)中。

AI能否從這塊大理石(haystack)中鑿出美麗的雕像?

圖片圖片

Greg Kamradt評估了GPT-4的能力。當輸入tokens大于100k,這些信息「針」被嵌入在文檔的百分之十至百分之五十之間時,GPT-4的大海撈針的能力開始顯著下降。

但在GPT4.1中,這個能力得到了「巨大」的提升,有多大?

圖片圖片

上圖是OpenAI發(fā)布GPT4.1時同時公布的信息,展示了 GPT-4.1在上下文窗口中不同位置檢索一小段隱藏信息(「針」)的能力。

橫軸是Input tokens從10K一直到1M,縱軸是「針」的位置。

測試結(jié)果全部藍色,全部成功!

GPT-4.1能夠在所有位置和所有上下文長度下一致且準確地檢索到針,上下文長度一直到100萬個tokens。

什么意思呢?就是說GPT4.1能夠有效地提取與手頭任務相關的任何細節(jié),無論這些細節(jié)在輸入中的位置如何。

看來現(xiàn)在的大模型處理2年前的「大海撈針」已經(jīng)毫無壓力了。

并且PGT4.1的上下文窗口來到了「史詩級」的10M,1000萬tokens!是上述測試時的10倍。

用OpenAI的話,這個長度的上下文可以塞得下8個完整的React代碼庫。

圖片圖片

那么,模型真的可以處理這么長的上下文嗎?

2年前的「大海撈針」標準還能有效測試如今的大模型嗎?

終極「躲貓貓」游戲,OpenAI MRCR登場!

標準的「大海撈針」測試雖然有用,但對于如今的大模型可能有點太「溫柔」了。

如果想要找的不止一根針呢?如果這些針長得一模一樣呢?如果要求找的不是特定的一根針,而是特定順序的幾根呢?

歡迎來到OpenAI MRCR的世界——一場為頂級AI大模型設計的終極「躲貓貓」游戲!

OpenAI MRCR增加了任務難度,MRCR(Multi-round co-reference resolution,多輪共指消解)是一個用于評估大語言模型區(qū)分隱藏在長上下文中的多個目標能力的數(shù)據(jù)集。

MRCR數(shù)據(jù)集把「大海撈針」的難度提升到了一個全新的境界,來看一下OpenAI提供的例子。

圖片圖片

任務是給定了一段用戶和模型之間的長對話,比如先寫一首關于「tapirs」的詩,再寫一首關于「rocks」的詩,然后再寫一首關于「tapirs」的詩,以此類推。。。來增加這個上下文的難度。

最后的要求是:將「aYooSG8CQg」加到第二首關于「tapirs」的詩前面。

這個測試非常具有挑戰(zhàn)性,因為:

  • 刺激項(針:也就是aYooSG8CQg)與干擾項(haystack:也就是長對話上下文)來自相同的分布。
  • 所有AI助手的回答都是由gpt4o生成的,因此刺激項很容易與干擾項混淆。
  • 模型必須區(qū)分刺激項之間的順序:比如模型能分別出關于tapirs的詩是第幾首。
  • 刺激項數(shù)量越多,任務就越困難。
  • 上下文越長,任務的難度也越大。

這個測試不僅對于GPT4.1,而且對于其他推理模型也相當困難。

MRCR不僅僅是測試模型能不能「找到」信息,更是考驗它在極端干擾下,能否精確地、魯棒地、有區(qū)別地定位到目標信息。

這就像在極其嘈雜的環(huán)境中,讓你準確聽出并復述某個特定人的特定一句話。

OpenAI也給出了在不同難度下(不同的針數(shù)),模型的準確性隨著上下文的增大,迅速的降低。

比如2個針的情況下,在GPT4.1、GPT4.1-mini以及GPT4.1 nano的準確性同步降低。

圖片圖片

在4針和8針的情況下,當上下文足夠大的時候,GPT4.1 mini的準確性甚至稍微超過了GPT4.1。

圖片圖片

在這個「嚴苛」的測試中,也許并不是模型越大越好。

圖片圖片

AI 的「考試」永無止境

從GPT3.5的簡單的問答到DeepSeek-R1、OpenAI-o1的復雜的推理,從基礎的語言理解到極限的「大海撈針」再到更嚴格的MRCR,AI 大模型的基準測試就像一場永無止境的「考試」。

像OenAI-MRCR這樣的創(chuàng)新性基準,不斷地為這些聰明的AI模型設置新的、更難的挑戰(zhàn)。

這些測試基準本身不是目的,它們的真正價值在于:

  • 揭示能力邊界: 讓我們更清楚地認識到當前 AI 的能力極限在哪里。
  • 驅(qū)動技術進步: 激勵研究者們開發(fā)出更強大、更可靠、更能應對真實世界復雜性的 AI 模型。
  • 促進審慎應用: 了解模型的強項和弱點,有助于我們更負責任、更有效地使用這項強大的技術。

GPT4.1已經(jīng)可以從10M上下文中找到關鍵的信息,未來AI大模型的能力上限在哪里呢?

AI的未來充滿了無限可能,而這些嚴苛的基準測試,正是照亮前行道路,指引AI模型穩(wěn)步向前的「燈塔」。

參考資料:

https://huggingface.co/datasets/openai/mrcr

https://openai.com/index/gpt-4-1/

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-06-11 08:17:00

2025-06-03 08:12:00

模型框架訓練

2025-05-15 11:54:11

GPT-4.1PlusAPI

2025-06-26 15:16:42

AI獎勵模型GPT-4.1

2025-07-01 04:45:00

馬斯克腦機接口

2025-04-24 08:29:59

OpenAIGPT-4.1人工智能

2025-04-14 09:00:00

模型AI數(shù)據(jù)

2025-04-15 08:51:05

2023-04-12 08:01:10

系統(tǒng)性能系統(tǒng)指標

2025-04-16 09:30:16

2025-04-15 07:41:18

2019-09-26 09:40:47

互聯(lián)網(wǎng)數(shù)據(jù)技術

2023-05-30 09:40:34

模型訓練

2023-11-07 07:28:58

ChatGPTGPT-4

2011-11-30 09:26:25

項目管理

2023-11-07 11:11:33

OpenAIGPT-4AI大模型

2025-05-15 09:16:00

2019-11-06 13:57:05

AI 數(shù)據(jù)人工智能

2024-07-19 09:26:12

2022-06-21 14:08:25

AIGitHub模仿人類
點贊
收藏

51CTO技術棧公眾號