AI智能體是否能預(yù)測(cè)未來(lái)?字節(jié)跳動(dòng)seed發(fā)布FutureX動(dòng)態(tài)評(píng)測(cè)基準(zhǔn)
你有沒(méi)有想過(guò),AI 不僅能記住過(guò)去的一切,還能預(yù)見(jiàn)未知的未來(lái)?
想象一下,讓 AI 預(yù)測(cè)下周的股價(jià)、下個(gè)月的票房冠軍、甚至下屆世界杯的贏家……這聽(tīng)起來(lái)像科幻片,但如今,它已經(jīng)成為現(xiàn)實(shí)中一場(chǎng)「極限挑戰(zhàn)」。
最近,一場(chǎng)專門(mén)考驗(yàn) AI「預(yù)言」能力的考試——FutureX 動(dòng)態(tài)評(píng)測(cè)基準(zhǔn)正式發(fā)布。它由字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)聯(lián)合斯坦福大學(xué) Jose Blanchet 教授團(tuán)隊(duì)、復(fù)旦大學(xué)邱錫鵬教授團(tuán)隊(duì)、普林斯頓大學(xué)王夢(mèng)迪教授團(tuán)隊(duì)共同打造,讓 Grok-4、GPT、Gemini 等模型齊聚預(yù)測(cè)未來(lái)的考場(chǎng)。

- 論文標(biāo)題:FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction
- 項(xiàng)目主頁(yè):https://futurex-ai.github.io/
- 技術(shù)報(bào)告:https://huggingface.co/papers/2508.11987
- 數(shù)據(jù):https://huggingface.co/datasets/futurex-ai/Futurex-Online
發(fā)布后 Elon Musk 轉(zhuǎn)發(fā),并評(píng)價(jià)該任務(wù)為「智能的真正度量」,推特瀏覽量過(guò)千萬(wàn)。

不考「記憶」考「遠(yuǎn)見(jiàn)」,F(xiàn)utureX 是什么?
過(guò)去的 AI 評(píng)測(cè),總被詬病像「開(kāi)卷默寫(xiě)」。題目是固定的,答案是已知的,提前「背好書(shū)」,就能輕松拿高分。這更像一場(chǎng)記憶力競(jìng)賽,而不是真正的智力考驗(yàn)。
FutureX 則改變了這一邏輯——它讓 AI 預(yù)測(cè)的是尚未發(fā)生的未來(lái),完全避免了數(shù)據(jù)污染/泄漏的可能,可以真實(shí)反映 AI 智能體的規(guī)劃、搜索、復(fù)雜推理決策等能力。
每周,系統(tǒng)會(huì)自動(dòng)從全球 195 多個(gè)高質(zhì)量信息源中,篩選出 500 個(gè)新的預(yù)測(cè)任務(wù),涵蓋經(jīng)濟(jì)、科技、體育等各個(gè)領(lǐng)域。從預(yù)測(cè)一部新電影的首周票房,到判斷一場(chǎng)關(guān)鍵體育賽事的勝者,所有題目在 AI 作答時(shí)都沒(méi)有「標(biāo)準(zhǔn)答案」。

未來(lái)預(yù)測(cè)有多難?FutureX 的四層「進(jìn)階試煉」
預(yù)測(cè)未來(lái)從來(lái)不是簡(jiǎn)單的猜測(cè),而是對(duì)信息搜集、趨勢(shì)分析、風(fēng)險(xiǎn)判斷等綜合能力的終極考驗(yàn)。FutureX 將任務(wù)劃分為四個(gè)難度層級(jí),如同為 AI 智能體設(shè)置的「段位考核」:

這些任務(wù)并非憑空設(shè)計(jì),而是基于 195 個(gè)精選自 2000 多個(gè)網(wǎng)站的高質(zhì)量信息源,覆蓋經(jīng)濟(jì)、科技、體育等多個(gè)領(lǐng)域,完全對(duì)接真實(shí)世界的復(fù)雜場(chǎng)景。

自動(dòng)化評(píng)測(cè)體系,F(xiàn)utureX 是怎么構(gòu)建的?
為了實(shí)現(xiàn)對(duì)未來(lái)事件的動(dòng)態(tài)評(píng)估,F(xiàn)utureX 構(gòu)建了一套完全閉環(huán)的自動(dòng)化系統(tǒng):
- 每天自動(dòng)抓取值得預(yù)測(cè)的未來(lái)事件;
- 在事件發(fā)生之前調(diào)度 23 個(gè)主流 LLM/ 智能體進(jìn)行預(yù)測(cè);
- 在事件發(fā)生之后抓取事件結(jié)果進(jìn)行評(píng)分。

最新排行榜:誰(shuí)在預(yù)測(cè)未來(lái)的賽道上領(lǐng)跑?
那么,在這場(chǎng)史無(wú)前例的「未來(lái)考試」中,誰(shuí)拔得頭籌?(數(shù)據(jù)統(tǒng)計(jì)自 7 月 20 日至 8 月 14 日)

核心發(fā)現(xiàn):
- Grok-4 暫時(shí)領(lǐng)跑,GPT 和 Gemini 緊隨其后。 在所有模型中,Grok-4 的綜合表現(xiàn)最為突出,拔得頭籌。緊隨其后的是 GPT-4o-mini 和 Gemini-2.5-flash Deep Research。字節(jié)跳動(dòng)Seed系列模型也展現(xiàn)了不俗的實(shí)力。
- AI 智能體距離人類專家仍有差距。 表現(xiàn)最好的 Grok-4 在 L4(高波動(dòng)開(kāi)放任務(wù))上的準(zhǔn)確率只有不到 20%,大部分 agents 的準(zhǔn)確率只有不到 10%,仍明顯落后于人類預(yù)測(cè)。
- 預(yù)測(cè)未來(lái)是推理和搜索的結(jié)合。 在簡(jiǎn)單選擇題上,不依賴工具的基礎(chǔ) LLM 表現(xiàn)驚人,比如 DouBao-Seed1.6-Thinking 甚至超過(guò)部分帶搜索功能的智能體;但到了復(fù)雜任務(wù),能實(shí)時(shí)調(diào)用工具的智能體優(yōu)勢(shì)立刻顯現(xiàn),說(shuō)明「聯(lián)網(wǎng)搜索」是 AI 應(yīng)對(duì)復(fù)雜預(yù)測(cè)的必備技能。

AI 的「神預(yù)言」vs「馬后炮」:差距有多大?
為了搞清楚「預(yù)測(cè)」到底比「搜索」難多少,研究團(tuán)隊(duì)做了一個(gè)對(duì)比實(shí)驗(yàn):
- 事前預(yù)測(cè)(神預(yù)言模式): 在事件發(fā)生前,預(yù)測(cè)結(jié)果。
- 事后搜索(馬后炮模式): 在事件發(fā)生后,去網(wǎng)上查找并回答結(jié)果。
結(jié)果發(fā)現(xiàn):Grok-4 在開(kāi)啟「馬后炮模式」時(shí),憑借強(qiáng)大的搜索能力,準(zhǔn)確率可以輕松達(dá)到很高的水平。然而,一旦切換到「神預(yù)言模式」,準(zhǔn)確率便斷崖式下跌。

這個(gè)對(duì)比一針見(jiàn)血地指出:搜索信息只是 AI 的基本功,真正的難點(diǎn)在于如何在信息不完整、充滿不確定性的情況下,進(jìn)行高質(zhì)量的推理和判斷。這才是「預(yù)測(cè)」的精髓,也是 AI 最需要突破的瓶頸。
解密未來(lái)預(yù)測(cè):AI 需要練好哪些「內(nèi)功」?
為什么預(yù)測(cè)未來(lái)如此之難?研究發(fā)現(xiàn),三大核心能力至關(guān)重要:
- 工具調(diào)用質(zhì)量: 能否精準(zhǔn)、高效地使用搜索等工具。
- 搜索來(lái)源可靠性: 能否從海量信息中辨別真?zhèn)?,找到關(guān)鍵信源。
- 推理規(guī)劃全面性: 能否像人類專家一樣,構(gòu)建全面、嚴(yán)謹(jǐn)?shù)倪壿嬫湕l。
簡(jiǎn)單來(lái)說(shuō),強(qiáng)大的搜索力和思考力缺一不可。這正是 FutureX 希望推動(dòng) AI 發(fā)展的核心方向。
未來(lái)已來(lái):推動(dòng) AI 從「已知」走向「未知」
FutureX 的探索僅僅是一個(gè)開(kāi)始。我們的研究揭示了當(dāng)前 AI 智能體在邁向真正實(shí)用的道路上,必須克服的核心挑戰(zhàn):如何在信息爆炸、充滿不確定性的真實(shí)世界中,像人類專家一樣進(jìn)行思考、推理和決策。
我們堅(jiān)信,F(xiàn)utureX 有潛力成為推動(dòng) LLM 智能體發(fā)展的關(guān)鍵引擎。通過(guò)提供一個(gè)公平、動(dòng)態(tài)且極具挑戰(zhàn)性的評(píng)估平臺(tái),我們希望能激勵(lì)學(xué)術(shù)界和工業(yè)界的研究者們,共同開(kāi)發(fā)出能夠在高風(fēng)險(xiǎn)、高復(fù)雜度真實(shí)場(chǎng)景中,比肩甚至超越人類頂尖分析師的下一代 AI 智能體。






























