偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首個地球科學智能體Earth-Agent來了,解鎖地球觀測數(shù)據(jù)分析新范式

人工智能 新聞
Earth-Agent 為地球觀測數(shù)據(jù)分析提供了一個新的學習范式:不再像 MLLM 將全部能力編碼到大模型預訓練的參數(shù)中,而是將能力外化為一個結(jié)構(gòu)化的、可隨時調(diào)用的工具庫,讓大模型扮演一個了解 「何時調(diào)度和決策」 的大腦。

本文的第一作者馮沛林和呂主濤是上海人工智能實驗室的實習生,他們的研究聚焦于大語言模型,尤其關(guān)注多模態(tài)大語言模型的推理和智能體。通訊作者李唯嘉為中山大學遙感學院副教授。論文的其他合作者來自上海人工智能實驗室和中山大學。

當強大的多模態(tài)大語言模型應用于地球科學研究時,它面臨著無法忽視的 「阿克琉斯之踵」:

  • 只能處理 RGB 圖像,面對光譜數(shù)據(jù)束手無策。
  • 只能做少量的圖片,無法勝任大規(guī)模遙感數(shù)據(jù)語料分析。
  • 只能做簡單問答,缺乏處理復雜、多步驟科學問題的能力。
  • 囿于模型預訓練所得的靜態(tài)知識,無法調(diào)用成熟的專業(yè)工具與科學模型體系。

而今,這些 「致命傷」 終于迎來了它們的解藥。想象一下,有一個能真正理解并執(zhí)行復雜地球科學任務的 「AI 科學家」。它能夠理解你的研究意圖,像人類專家一樣自主規(guī)劃分析流程;可以處理原始光譜數(shù)據(jù)、遙感影像和地球產(chǎn)品,進行專業(yè)的指數(shù)計算和參數(shù)反演;能在多步驟推理中調(diào)用最合適的工具,完成從數(shù)據(jù)預處理到時空分析的全流程工作。

這一切不再是想象,由上海人工智能實驗室與中山大學聯(lián)合研發(fā)的 Earth-Agent,正在將這一愿景轉(zhuǎn)化為現(xiàn)實。

  • 論文題目:Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
  • 論文鏈接:https://arxiv.org/abs/2509.23141
  • 代碼地址:https://github.com/opendatalab/Earth-Agent
  • 項目主頁:https://opendatalab.github.io/Earth-Agent/

靈感來源:模擬人類的專業(yè)能力掌握邏輯-知識轉(zhuǎn)化為工具庫

想象一名地球科學領(lǐng)域的學生如何成為一個成熟的研究者?他需要在數(shù)年的學習中,從專業(yè)課程中汲取海量知識,將每一個理論和算法內(nèi)化為自己心中的 「工具」。而后在面對真實的數(shù)據(jù)分析場景時從儲備的 「工具庫」 中精準挑選并串聯(lián)起 「指標計算」、「參數(shù)反演」、「統(tǒng)計分析」 等一系列工具鏈路,最終形成解決復雜問題的完整工作流。

我們能否借助 AI 智能體(Agent)復現(xiàn)這一 「知識工具化」 與 「流程自動化」 的專家能力?

基于上述靈感,研究者構(gòu)建了 Earth-Agent 的核心框架,其關(guān)鍵在于兩個層面的構(gòu)建:

  1. 領(lǐng)域知識工具封裝化:研究者將地球科學領(lǐng)域長期積累的專業(yè)知識逐一封裝為標準化、可執(zhí)行的函數(shù)或?qū)S媚P筒俗⑵涿鞔_的功能定義、輸入輸出規(guī)范以及典型的適用場景,從而構(gòu)建成一個結(jié)構(gòu)化的工具體系。借助模型上下文協(xié)議(MCP)橋接語言模型和工具庫。在本工作中,該工具庫共集成了 104 個專用工具。
  2. 基于 LLM 的智能規(guī)劃與調(diào)度:研究者利用大語言模型(LLM)強大的上下文理解與推理能力,使其充當智能體的 「大腦」。在 Reasoning + Acting (ReAct) 機制在面對用戶查詢時,Agent 通過理解當前需求能夠從預構(gòu)建的工具庫中動態(tài)地選擇最合適的工具,從而自主完成從數(shù)據(jù)預處理到復雜時空分析的全鏈路科學工作流。

基準評估:多步推理+雙層次評估協(xié)議

Earth-Bench 包含 248 個專家標注的任務,涵蓋 13,729 張圖像,分布于三大模態(tài):

  • RGB 圖像:用于場景分類、目標檢測、變化檢測等感知任務;
  • 原始光譜數(shù)據(jù):用于植被監(jiān)測、溫度反演、干旱評估等定量分析;
  • 地球產(chǎn)品數(shù)據(jù):用于城市擴張、水體變化、氣象趨勢等時空分析。

與以往側(cè)重于對單張或少量遙感影像進行描述(Captioning)、分類(Classification)或簡單問答(VQA) 的基準不同的是,Earth-Bench 的核心在于評估智能體執(zhí)行完整地球科學分析工作流的能力。

舉一個例子:「利用 2022 年紐約市 Landsat 8 熱成像和反射率數(shù)據(jù),采用單通道方法基于 NDVI 和熱波段 10 估算 LST,然后計算夏季和秋季的平均 LST,并確定平均差以評估這兩個時期之間的季節(jié)性溫度差值。A. 8.65K B. 10.89K C.12.42K D.14.75K?!箍梢钥吹?,Earth-Bench 的題目不再局限于對于原始地球觀測數(shù)據(jù)進行簡單的一步即可完成的描述、分類、計數(shù)任務,而是強調(diào)利用地球科學的知識進行嚴格的指標計算和時空分析。

Earth-Bench 只有 248 個題目,但是需要處理 13729 張 image 圖像,平均每個題目需要處理 55 張影像,平均每個問題需要 5.4 步才能完成。這意味著智能體必須具備批量數(shù)據(jù)處理、時序分析和跨文件信息整合的能力,這直接對應了真實地球科學研究中處理大規(guī)模觀測數(shù)據(jù)的核心需求。

另一方面,以往的 Agent 基準測試陷入了 「唯結(jié)果論」 的陷阱,側(cè)重于最終結(jié)果的準確性而忽視了對于 Agent 推理軌跡的評估。

研究者認為 「怎么得出這個結(jié)論」 的過程和結(jié)論本身同樣重要,因此邀請了一支由遙感專業(yè)研究生組成的專家小組針對 Earth-Bench 的每一個問題都進行逐步的解答求得最終結(jié)果。他們把每一步調(diào)用了什么工具、輸入了什么參數(shù)、得到了什么中間結(jié)果,都完整地記錄了下來。 這就形成了一條條標準的 「專家推理軌跡」。接著將專家推理軌跡納入到了 step-by-step 評估,并將最終的答案和效率納入到了結(jié)果的 end-to-end 評估。

Earth-Agent 的能力評估和實驗分析

實驗一:比較不同的 LLM Backbone

通過對 GPT、Gemini、Kimik2、DeepSeek、Qwen 等主流模型的測試,評測結(jié)果揭示了進行工具調(diào)用(Tool Calling)預訓練的語言模型表現(xiàn)大幅領(lǐng)先于沒有進行工具調(diào)用預訓練的模型。閉源模型最終準確率更高,但 DeepSeek-V3.1 和 Kimik2 在推理過程中工具使用的準確率上超越 GPT-5。

研究者還對比了 Query 中不進行步驟提示的 Auto Planning(AP)和在 Query 中加入步驟提示的 Instruct Following (IF) 的實驗結(jié)果,可以發(fā)現(xiàn) IF 可以提升工具的感知準確率,但是往往會使得智能體在中間過程中引入無關(guān)的工具,使得效率下降并引起級聯(lián)誤差,導致最終的準確率不一定上升。

實驗二:與通用的 Agent 架構(gòu)的對比

實驗三:與 MLLM 方法的對比

研究者還將 Earth-Agent 和通用的 Agent 架構(gòu)以及 MLLM 方法進行了橫向?qū)Ρ龋梢园l(fā)現(xiàn) Earth-Agent 在各個 Spectrum、Products、RGB 三個模態(tài)的效果領(lǐng)先于通用的 Agent 架構(gòu),并且在經(jīng)典的遙感分類、檢測、分割任務中相比于 MLLM 都取得了領(lǐng)先的性能,這驗證了 Earth-Agent 在地球觀測任務的巨大應用前景。

消融實驗

為了驗證 Earth-Agent 的能力提升來自于 LLM 對于工具的調(diào)用而非其他的因素,研究者對 Earth-Agent 進行了系統(tǒng)的消融實驗,劃分為 A 組:不使用工具;B 組:使用工具。結(jié)果表明,在 LLM 無法使用工具的情況下,不同的 LLM 準確率都在 37%(圖中藍色虛線)。

而允許 LLM 調(diào)用工具后,不同的 LLM 對于地球科學問題的回答準確性提升出現(xiàn)了明顯的差異。GPT5 的回答準確率提升到了 65%;Gemini-2.5、DeepSeek-V3.1、Kimik2、Qwen3-max 的回答準確率提升到 50%,GPT-4o 的回答準確率僅提升到 45%。

地球科學智能體的未來路線

Earth-Agent 為地球觀測數(shù)據(jù)分析提供了一個新的學習范式:不再像 MLLM 將全部能力編碼到大模型預訓練的參數(shù)中,而是將能力外化為一個結(jié)構(gòu)化的、可隨時調(diào)用的工具庫,讓大模型扮演一個了解 「何時調(diào)度和決策」 的大腦。這種范式更接近我們?nèi)祟惖膶W習和工作方式:我們并非把所有知識都記在腦子里,而是學會在需要時,精準地選擇并使用合適的工具。Earth-Agent 未來還有廣闊的發(fā)展前景:

  • 從基石到生態(tài):Earth-Agent 只納入了 104 個專業(yè)的地球科學工具 / 專家模型,這僅僅是一個起點。Earth-Agent 采用了 MCP 框架,可以非常方便地加入新的工具。研究者相信在開放社區(qū)的共同努力下,Earth-Agent 將成長為一個不斷進化、日益強大的地球科學智能體。
  • 從評估到訓練:本篇工作驗證了智能體路線在地球科學分析任務中的巨大潛力,而沒有對 LLM 進行專門的訓練或微調(diào)。研究者在附錄中對于現(xiàn)階段的 LLM 進行了詳細的錯誤分析,發(fā)現(xiàn)智能體在與真實操作系統(tǒng)交互時,表現(xiàn)出嚴重的 「工具幻覺」 和 「文件幻覺」,它們會調(diào)用不存在的工具或試圖處理根本不存在的文件。這為將來的訓練路線提供指導。
  • 從語言到視覺:當前 LLM 對于工具的選擇依賴于模型的上下文和工具的描述,它局限在文本語義的 prompt 提示工程,隨著 MLLM 的成熟,研究者預見下一個突破點:讓具備視覺能力的模型作為智能體的核心,建立在視覺語義的工具感知可能成為突破地球觀測數(shù)據(jù)分析的關(guān)鍵。
責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2012-11-01 12:59:04

浪潮清華計算地球科學

2015-05-05 15:42:02

2015-09-16 15:06:44

2022-03-03 16:20:53

達摩院AI衛(wèi)星遙感

2014-05-21 09:38:40

2024-04-24 10:33:50

人工智能地球日

2012-10-31 20:31:23

2014-05-26 23:41:26

2013-01-15 09:26:50

清華大學浪潮集團計算地球科學

2021-12-05 22:32:13

人工智能機器人技術(shù)

2025-08-05 04:00:00

數(shù)據(jù)分析師大數(shù)據(jù)AI

2017-11-06 11:15:51

智能機器人工智能機器學習

2022-11-14 10:36:55

數(shù)據(jù)科學數(shù)據(jù)分析

2025-08-01 09:09:00

2023-09-25 12:17:36

AI模型

2020-09-18 15:10:25

阿里達摩院數(shù)據(jù)

2025-06-26 09:01:14

2015-09-24 13:08:16

地球數(shù)值模擬裝置

2022-12-09 10:38:10

數(shù)據(jù)架構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號