偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI能否「圣地巡禮」?多模態(tài)大模型全新評估基準(zhǔn)VIR-Bench來了

人工智能 新聞
VIR-Bench 不僅是一個(gè)新的評測基準(zhǔn),更是為未來諸多應(yīng)用打開了一扇窗口。通過在旅行視頻中重建行程順序,它逼迫模型同時(shí)理解 “地理位置 + 時(shí)間順序”,這與機(jī)器人如何理解世界、規(guī)劃路徑,以及自動(dòng)駕駛系統(tǒng)如何在動(dòng)態(tài)環(huán)境中進(jìn)行決策高度契合。

大家或許都有過這樣的體驗(yàn):

看完一部喜歡的動(dòng)漫,總會(huì)心血來潮地想去 “圣地巡禮”;刷到別人剪輯精美的旅行 vlog,也會(huì)忍不住收藏起來,想著哪天親自走一遍同樣的路線。旅行與影像的結(jié)合,總是能勾起人們的探索欲望。那么,如果 AI 能自動(dòng)看懂這些旅行視頻,幫你解析出 “去了哪些地方”“順序是怎樣的”,甚至還能一鍵生成屬于你的旅行計(jì)劃,會(huì)不會(huì)很有趣?這不僅僅是阿宅的想象,更是多模態(tài)大模型在真實(shí)世界應(yīng)用中的一個(gè)重要場景。

正是在這樣的啟發(fā)下,來自日本早稻田大學(xué),CyberAgent 和奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)的團(tuán)隊(duì)提出了一個(gè)全新的多模態(tài)大模型評估基準(zhǔn) VIR-Bench ,旨在評測 AI 是否真的能理解旅行視頻中的地理位置與時(shí)間順序,從而支撐更復(fù)雜、更實(shí)用的應(yīng)用。用一句話來概括,這項(xiàng)研究就是在追問:“我從哪里來?我要到哪里去?”

  • 論文地址:https://www.arxiv.org/abs/2509.19002
  • GitHub:https://github.com/nlp-waseda/VIR-Bench

VIR-Bench 是什么?任務(wù)設(shè)計(jì)與數(shù)據(jù)集構(gòu)建

任務(wù)目標(biāo):行程還原(Itinerary Reconstruction)

在 VIR-Bench 中,給定一個(gè)旅行 vlog(在日本拍攝),模型要輸出訪問順序圖(visiting order graph),也就是 “我去了哪些地點(diǎn)、按什么順序、地點(diǎn)之間有哪些包含關(guān)系” 的結(jié)構(gòu)化表示。

更具體地,這個(gè)訪問順序圖是一個(gè)有向圖,其中:

  • 節(jié)點(diǎn)表示被訪問的地點(diǎn),按層次分為 Prefecture,City,和 POI(Point of Interest)三層級。
  • 包含邊(Inclusion edge) 表示層次上的 “大地理單元包含小地理單元” 關(guān)系(例如某 POI 在某個(gè) City 里,某個(gè) City 在某個(gè) Prefecture 里)。
  • 轉(zhuǎn)移邊(Transition edge) 表示時(shí)間順序上的移動(dòng):從一個(gè)節(jié)點(diǎn)移動(dòng)到下一個(gè)節(jié)點(diǎn)(同層級)表示旅行順序。

這意味著模型不僅要識(shí)別出 “我去過的地點(diǎn)”,還要判斷這些地點(diǎn)之間的時(shí)間順序,地理空間關(guān)系,進(jìn)而構(gòu)建出整個(gè)旅行路徑的結(jié)構(gòu)。此外,由于旅行視頻往往是自拍視角 / 行進(jìn)視角 / 風(fēng)光視角等交錯(cuò)出現(xiàn),模型需要在多樣視角、非連續(xù)畫面中 “拼圖式” 理解,這進(jìn)一步提升了任務(wù)難度。

為便于模型訓(xùn)練與評測,作者將這一復(fù)雜任務(wù)拆解為兩個(gè)子任務(wù):

1. 節(jié)點(diǎn)預(yù)測:給定視頻,模型列出所有被訪問的 Prefecture、City、POI。

2. 邊緣預(yù)測:給定視頻 + 節(jié)點(diǎn)集合(節(jié)點(diǎn)標(biāo)簽順序被打亂),模型要判斷哪些節(jié)點(diǎn)之間存在包含邊,哪些節(jié)點(diǎn)之間存在轉(zhuǎn)移邊。即預(yù)測邊的集合。

通過這種分解方式,我們可以分別評估模型的地理識(shí)別能力與時(shí)序推理能力,以及它們在實(shí)際組合時(shí)的協(xié)同性。

數(shù)據(jù)集構(gòu)建:200 個(gè)旅行視頻 + 訪問順序圖

為了支撐上述任務(wù),作者構(gòu)建了一個(gè)規(guī)模適中的專用數(shù)據(jù)集:

  • 視頻數(shù)量:200 個(gè)旅行 vlog(都在日本拍攝) 。
  • 地點(diǎn)覆蓋:共標(biāo)注出 3,689 個(gè) POI,分布在日本 43 個(gè)都道府縣(幾乎覆蓋全日本) 。
  • 標(biāo)注方式:每個(gè)視頻由人工注釋者識(shí)別每個(gè) POI 的起止時(shí)間、Google Maps 鏈接,并通過雙人校驗(yàn)后自動(dòng)構(gòu)建最終的訪問順序圖。 

作者在論文中還附上了詳細(xì)注釋指南、數(shù)據(jù)分布統(tǒng)計(jì)等信息(可見 Appendix 部分)。

實(shí)驗(yàn)結(jié)果與洞察:當(dāng)前模型面臨的挑戰(zhàn)

在實(shí)驗(yàn)中,作者發(fā)現(xiàn)開源模型整體上仍然落后于商用模型,尤其是在 POI 節(jié)點(diǎn)識(shí)別 和 轉(zhuǎn)移邊預(yù)測 這兩個(gè)子任務(wù)上差距尤為明顯。進(jìn)一步的分析顯示,轉(zhuǎn)移邊預(yù)測幾乎是所有模型的 “最難關(guān)”:不少模型要么直接誤解了任務(wù)要求,要么忽視了層級結(jié)構(gòu)的約束(只有同層級節(jié)點(diǎn)之間可以有轉(zhuǎn)移邊),結(jié)果往往接近隨機(jī)水平。

另一方面,模型規(guī)模的擴(kuò)展對性能提升具有顯著作用,尤其體現(xiàn)在邊緣預(yù)測上;而是否具備地理相關(guān)的預(yù)訓(xùn)練,則成為 POI 節(jié)點(diǎn)預(yù)測精度差異的關(guān)鍵因素。值得注意的是,思維鏈推理(Chain-of-Thought) 的效果在不同子任務(wù)中差別很大:在節(jié)點(diǎn)預(yù)測中提升有限,但在邊緣預(yù)測中卻能帶來顯著的改善。如果再進(jìn)一步結(jié)合音頻信息(例如 Gemini-2.5-Pro 的多模態(tài)輸入),效果提升尤為突出。

Ablation 實(shí)驗(yàn)也為我們揭示了模型性能提升的幾個(gè)關(guān)鍵方向:增加輸入幀數(shù)可以讓模型捕捉更完整的旅行線索,更長的推理過程能幫助模型逐步還原旅行順序,而音頻的利用則能提供額外的語義提示。三者結(jié)合,共同推動(dòng)了模型在復(fù)雜時(shí)空理解任務(wù)上的進(jìn)步。

然而,即便有這些改進(jìn),整體性能仍遠(yuǎn)未達(dá)到可用水平。即使是當(dāng)前得分最高的 Gemini-2.5-Pro,在預(yù)測結(jié)果中依然存在大量錯(cuò)誤,這進(jìn)一步凸顯了多模態(tài)大模型在長程地理與時(shí)間理解上的巨大挑戰(zhàn)。

表1: 節(jié)點(diǎn)預(yù)測的評估結(jié)果

表2: 邊緣預(yù)測的評估結(jié)果

總而言之,VIR-Bench 不僅是一個(gè)新的評測基準(zhǔn),更是為未來諸多應(yīng)用打開了一扇窗口。通過在旅行視頻中重建行程順序,它逼迫模型同時(shí)理解 “地理位置 + 時(shí)間順序”,這與機(jī)器人如何理解世界、規(guī)劃路徑,以及自動(dòng)駕駛系統(tǒng)如何在動(dòng)態(tài)環(huán)境中進(jìn)行決策高度契合。

這一研究讓我們看清:當(dāng)前的大模型在長程推理和時(shí)空理解上仍有明顯不足,但也指明了進(jìn)化的方向 —— 更強(qiáng)的地理空間感知、更可靠的時(shí)間推理,以及多模態(tài)信息的深度融合。當(dāng)這些能力逐漸成熟,AI 將不再只是 “看視頻”,而是真正具備 “在世界中行動(dòng)” 的潛力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-05-21 08:47:00

2025-06-16 14:39:56

模型開源框架

2023-11-05 15:09:35

模型AI

2025-01-08 08:21:16

2024-03-25 12:40:19

訓(xùn)練模型

2025-04-28 14:04:03

Gemini模型AI

2024-06-17 18:06:17

2023-08-03 10:59:49

人工智能

2025-07-10 08:52:00

2025-07-04 16:50:07

工具AI模型

2025-09-16 09:35:52

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-11-15 15:38:00

模型測評

2024-07-15 07:52:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-05-31 14:11:37

?大模型多模態(tài)AI

2024-12-09 08:15:43

2024-10-30 15:00:00

AI視頻模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號