偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案 原創(chuàng)

發(fā)布于 2025-8-28 11:56
瀏覽
0收藏

在當下的高能物理研究領域,前沿大科學裝置無刻不在生產(chǎn)著海量數(shù)據(jù)。當前所未有的數(shù)據(jù)洪流遠超傳統(tǒng)分析方法的處理極限,人工智能技術,尤其是機器學習和深度神經(jīng)網(wǎng)絡,迅速成為貫穿高能物理研究鏈條的核心工具。 AI 算法不僅能高效處理巨量原始數(shù)據(jù),從數(shù)據(jù)中挖掘出隱含的、非線性的復雜模式與關聯(lián),同時還在加速器運行優(yōu)化、探測器性能模擬、實驗觸發(fā)系統(tǒng)設計以及理論模型探索等方面展現(xiàn)出應用優(yōu)勢。人工智能方法的持續(xù)創(chuàng)新與深度整合,已成為推動高能物理未來發(fā)展的潛在動力。

在 2025 CCF 全國高性能計算學術大會上,高能物理研究所計算中心 AI4S 負責人張正德研究員在「AI-Ready 科學數(shù)據(jù)技術」專題論壇中,以「基于大模型的數(shù)據(jù)加工智能體進展與實踐」為題,從目前大裝置科學數(shù)據(jù)狀態(tài)出發(fā),系統(tǒng)闡述了針對數(shù)據(jù)的高效、高質量 AI-Ready 化構建方案,以及智能體和多智能體框架在數(shù)據(jù)標注和供給的應用。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

HyperAI 超神經(jīng)在不違原意的前提下,對張正德老師的演講分享進行了整理匯總,以下為演講實錄。

AI-Ready 數(shù)據(jù)與科學數(shù)據(jù)現(xiàn)狀

在 AI4S 算法開源的背景下,數(shù)據(jù)已成為最關鍵的核心問題。 AI4S 要求數(shù)據(jù)具備統(tǒng)一規(guī)范以實現(xiàn)高效分析,雖然來自大科學裝置的數(shù)據(jù)普遍具有統(tǒng)一的格式與存儲架構,但實際來看,大部分科學數(shù)據(jù)并不是 AI-Ready 的。

高能物理領域產(chǎn)生的大規(guī)模數(shù)據(jù),不僅對數(shù)據(jù)的采集、處理、加工與融合技術提出了要求,同時也為發(fā)展 AI 方法提供了重要資源。今天報告中提到的數(shù)據(jù)類型,不僅包括實驗數(shù)據(jù),還涵蓋模擬數(shù)據(jù)、裝置運行數(shù)據(jù)、語料數(shù)據(jù)。

AI-Ready 數(shù)據(jù)集的通用定義,是能夠被高效、安全可復現(xiàn)的用于訓練、評估和部署機器學習和人工智能的數(shù)據(jù)集合。高質量 AI-Ready 數(shù)據(jù)具備 10 個特征:

任務適配。與目標場景、任務強相關,需具備覆蓋面和代表性;

高質量與一致性。準確、完整、一致,去重,噪聲可控;

符合本體與標注要求,具有高質量標簽、層次、本體映射關系,標注有審計;

工程可用。機器可讀,如具備標準格式、合理分片/分桶、可流式、可并行;

可評估且可復用。嚴格劃分訓練、測試、驗證數(shù)據(jù),基準集具有明確、合理的評價指標;

元數(shù)據(jù)和豐富性。涵蓋元數(shù)據(jù)的采集方式、時間、設備系統(tǒng)、上下文、版本等信息;

數(shù)據(jù)偏差控制。如采樣偏差、標簽偏差、歷史偏差;

可獲取。穩(wěn)定訪問接口,文檔與示例;

合理合規(guī)。許可和使用權、隱私保護、最好 PII;

安全可靠。加密(傳輸/靜態(tài))、最小權限、秘鑰管理等。

在實際研究中,數(shù)據(jù)不僅用于訓練模型,還必須能夠支持模型評估,因此數(shù)據(jù)集需建立相應的評估指標,例如準確率、召回率和 F1 分數(shù)等。然而,這類指標在一些任務(如分類)中可通用,卻難以有效適用于回歸等問題,這對 AI-Ready 數(shù)據(jù)集的質量提出了更高要求和挑戰(zhàn)。

目前,一個合格的 AI-Ready 數(shù)據(jù)集除包含本體數(shù)據(jù)與標注數(shù)據(jù)之外,還應提供元數(shù)據(jù),其中包括對 AI 任務的描述等信息。更重要的是,AI-Ready 數(shù)據(jù)集需與有價值的 AI 任務直接關聯(lián)。以光源為例,其 AI 應用應能夠有效支持成像、譜學、衍散射等具體科學任務。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

光源 AI 應用與 AI-Ready 數(shù)據(jù)集任務支持示意圖

接下來我用 2 個例子來說明什么樣的數(shù)據(jù)集是 AI-Ready 的數(shù)據(jù)集。例如納米纖維取向預測 AI 數(shù)據(jù)集,它有明確的 AI 任務,即在輸入廣角衍射譜后直接預測納米纖維的取向參數(shù)。構建這樣一個數(shù)據(jù)集,需要模擬數(shù)據(jù)和實驗數(shù)據(jù)共同作用。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

納米纖維取向預測 AI 訓練數(shù)據(jù)集結構 [1]

又比如,疊層成像快速重建 AI 數(shù)據(jù)集能夠完成輸入衍射圖樣,預測相位和振幅,計算得到重建圖像的 AI 任務,完成重建圖像過程中涉及到的大量計算。該架構中包含 2 個分支,分別預測相位和振幅,其真值通過科學計算迭代算法和高投影數(shù)計算得到。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

疊層成像快速重建 AI 數(shù)據(jù)集及其計算流程圖 [2]

將智能體技術用于數(shù)據(jù)加工

智能體(Agent)的定義與人工智能的最初定義非常接近,指能夠依據(jù)其知識、程序、環(huán)境與輸入信息,代表用戶自主做出決策或執(zhí)行動作的軟件或系統(tǒng)。

雖然智能體與自動化技術有相似之處,但后者通常依賴固定流程運作,而智能體與傳統(tǒng)自動化不同,尤其適合處理確定性規(guī)則無法有效覆蓋的工作流程,能夠處理傳統(tǒng)基于規(guī)則的計算方法難以勝任的任務。智能體并非適用于所有場景,其有效性高度依賴于具體任務環(huán)境,需充分考慮決策和處理的復雜性,因此,構建智能體需重新思考系統(tǒng)應如何應對復雜決策過程。

智能體的大腦是大模型,所以智能體與大模型的關系實際上是包含關系。智能體與大模型的不同在于,其包含了感知層、執(zhí)行層、記憶層和處理中樞等架構,能夠學會領域專業(yè)知識、科學分析工具、感知數(shù)據(jù)和元數(shù)據(jù)、編寫代碼和執(zhí)行程序、任務規(guī)劃以及角色分配和協(xié)同等。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

智能體架構

同時,單智能體和多智能體的應用場景也有所不同。一般來說,單智能體搭載單個工具,當搭載的工具數(shù)量增加時,選擇工具的時候準確率就會下降,此時可以通過多智能體以避免混淆。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

Open Dr.Sai 智能體和多智能體框架和應用 [3]

基于標注工具的 AI-Ready 數(shù)據(jù)標注精度高但人工參與度高,基于智能體的 AI-Ready 數(shù)據(jù)標注則自動化程度高,效率高,同時可提供數(shù)據(jù)信息理解和輔助,適合學科交叉領域研究,但是初始精度可能相對較低,需要通過持續(xù)學習和反饋機制不斷改進標注精度。目前,很多基于標注工具的標注已經(jīng)逐漸向「搭載智能體模塊+人機交互+智能輔助+審核系統(tǒng)+數(shù)據(jù)庫」的模式過渡。

應用于光源場景的數(shù)據(jù)智能體

我們團隊做的數(shù)據(jù)智能體主要應用于光源(HEPS)/中子源(CSNS)場景,支持數(shù)據(jù)的加工和供給。智能體的上游是 Domas 數(shù)據(jù)管理系統(tǒng)(Data Management System),Domas 的上游是大數(shù)據(jù)裝置的采集系統(tǒng),采集系統(tǒng)上游是探測器本身。

有關數(shù)據(jù)智能體的更多信息:

??https://github.com/hepaihub/drsai??

HepAI 平臺鏈接:

??https://ai.ihep.ac.cn??

該智能體工作流程分為 5 步:

* 接入 Domas,獲得包括實驗數(shù)據(jù)、元數(shù)據(jù)在內(nèi)的數(shù)據(jù)信息;

* 基于所獲數(shù)據(jù)更新知識庫;

* 智能體根據(jù)具體任務進一步感知數(shù)據(jù),通過數(shù)據(jù)格式轉換和執(zhí)行命令完成數(shù)據(jù)交互;

* 調用多種科學計算工具對數(shù)據(jù)進行加工處理;

* 將數(shù)據(jù)輸入執(zhí)行器推動任務執(zhí)行,并將輸出結果反向輸入 Domas 。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

智能體架構演示

目前,該智能體已經(jīng)可以用于構建跨裝置的 X 射線衍射和中子粉末衍射實驗和模擬的 AI 數(shù)據(jù)集、構建對分布函數(shù)(PDF)的實驗-仿真融合數(shù)據(jù)集。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

跨裝置 X 射線和中子粉末衍射實驗和模擬人工智能數(shù)據(jù)集

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

對分布函數(shù)(PDF)的構建實驗-仿真融合數(shù)據(jù)集

AI 驅動的科學發(fā)現(xiàn)系統(tǒng)

之所以把智能體技術用于數(shù)據(jù)處理方面,是因為 AI4S 已經(jīng)逐漸成為發(fā)展趨勢。 AI 有助于高能物理的研究發(fā)現(xiàn),但是對數(shù)據(jù)有要求,因此我們采用了「AI4Data」到「Data4AI」的策略,利用 AI 將原始數(shù)據(jù)轉化為 AI-Ready 的形式,以促進成果研發(fā),構建 AI 驅動的科學發(fā)現(xiàn)系統(tǒng)。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

「AI4Data」與「Data4AI」示意圖

關于張正德研究員及其團隊

張正德博士是中國科學院高能物理研究所特聘青年研究員,畢業(yè)于中國科學院上海應用物理研究所,粒子物理與原子核物理理學博士,主要研究方向為面向科學發(fā)現(xiàn)的 AI 算法、大模型及智能體,涵蓋深度學習算法、面向科學數(shù)據(jù)的大模型、人工智能平臺和軟件系統(tǒng)等,主要目標為推動 AI 在粒子物理、粒子天體物理、同步輻射、中子科學和加速器領域的應用。

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)

目前,張正德研究員已在 GitHub 上發(fā)布了 6 個具有代表性的開源項目,發(fā)展了 CDNet 、 FINet 、 MWNet 等神經(jīng)網(wǎng)絡,研發(fā)了高能·溪悟大語言模型和「賽博士」科研智能體,并規(guī)劃和建設了高能物理人工智能平臺 HepAI[4],同時主持了多項重要科研項目,包括「從 0 到 1 項目-AI 大模型驅動高能物理科學發(fā)現(xiàn)的研究」和「基于人工智能的高能物理大數(shù)據(jù)技術研究與示范」等。

參考文獻:

??[1] Fast extraction of three-dimensional nanofiber orientation from WAXD patterns using machine learning. IUCrJ, 10, 3 (2023). https://doi.org/10.1107/S205225252300204X ??

??[2] AI-enabled high-resolution scanning coherent diffraction imaging. Appl. Phys. Lett. 117, 044103 (2020). https://doi.org/10.1063/5.0013065??

??[3] hepai-group. (n.d.). Open drsai [Computer software]. GitHub. https://github.com/hepaihub/drsai??

??[4] hepai-group. (n.d.). HepAI Platform. https://ai.ihep.ac.cn??

一鍵獲取 2023—2024 年 AI4S 領域高質量論文及深度解讀文章 ??

提升科學數(shù)據(jù)可用性,中科院張正德團隊提出基于智能體的 AI-Ready 數(shù)據(jù)加工和供給方案-AI.x社區(qū)


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦