航空發(fā)動機用上大模型:解決復雜時序問題,性能超越ChatGPT-4o實現SOTA|上交創(chuàng)智復旦
時序數據分析在工業(yè)監(jiān)控、醫(yī)療診斷等領域至關重要。
比如航空發(fā)動機監(jiān)控這個復雜工業(yè)場景中,工程師需分析海量多通道傳感器數據,以判斷設備狀態(tài)并制定維護決策。
然而,現有研究多聚焦于分類、預測等單一任務,與實際工業(yè)場景中專家通過自然語言進行復雜交互和決策的需求存在顯著差異。
上海交通大學航空航天學院李元祥教授團隊、上海創(chuàng)智學院、復旦大學數據科學學院團隊以航空發(fā)動機運維為背景,提出高效、可遷移的時序-語言橋接架構——ITFormer,將專家診斷過程抽象為”理解、感知、推理、決策”四個認知層次,并首次系統(tǒng)性地定義為“時序問答”任務范式。
團隊基于NASA航空發(fā)動機數據,構建了包含11萬余問答對的EngineMT-QA數據集。該數據集的任務設計緊密貼合專家的認知流程,為評估模型在真實工業(yè)場景下的推理能力提供了首個標準化基準。
結果顯示,ITFormer以模塊化設計實現了時序數據與大語言模型的高效融合,僅需訓練不足1%的額外參數,便可在通用時序問答數據集上表現出優(yōu)越的性能和良好的遷移能力,展現了卓越的“即插即用”特性。它可無縫適配PatchTST、Informer、Crossformer等多種時序編碼器,以及Qwen、LLaMA、GLM等不同規(guī)模和架構的大語言模型。
此外,在使用EngineMT-QA進行預訓練后,ITFormer的性能得到進一步的巨大提升,在全部五項任務上均達到SOTA水平,其中“因果分析”準確率高達0.83。
用戶可以進行追問式探索,“昨天哪個設備的能耗最高?” “為什么它的能耗這么高?” “和上周同期相比情況如何?”。這種交互式的分析流程,讓數據探索過程更符合人類的思維習慣,從而真正實現了數據分析的大眾化。
航空發(fā)動機能用大模型了
技術難點
高維數據的語義提取:單個時序樣本可包含數萬個數值(如32通道×600時間步),如何從中提取出有效的語義特征是首要難題。
抽象語義的對齊建模:時序信號的模式變化(如緩慢上升、突然波動)與物理系統(tǒng)的狀態(tài)轉換(如設備老化、突發(fā)故障)之間的對應關系高度抽象,難以直接建模。
多尺度時間依賴的處理:時序數據中的關鍵信息可能分布在不同的時間尺度上,模型必須具備處理多尺度依賴的能力。
ITFormer架構與關鍵模塊
ITFormer的設計思想是作為一個輕量級的”橋梁”,在凍結預訓練時序編碼器和大型語言模型(LLM)的前提下,實現兩者的高效對齊與融合。
時間令牌位置編碼(TPE)為精確表征多維時序數據的結構,TPE在三個層次上進行位置編碼:時間步(Temporal Steps)、通道(Channels)和時序片段(Segments),確保模型能區(qū)分不同時間點、不同傳感器以及不同數據段的語義信息。
可學習指令令牌(LIT)為了讓模型理解具體的任務指令,LIT在文本查詢前添加了一組可學習的令牌。這些令牌通過自注意力機制,能夠從自然語言查詢中自動捕獲并濃縮任務相關的語義信息,從而指導后續(xù)的跨模態(tài)融合。
指令時間注意力(ITA)作為ITFormer的核心創(chuàng)新,ITA通過一個高效的兩階段過程實現跨模態(tài)對齊:
- 通道指令融合(Channel Instruct Fusing):根據LIT提供的任務指令,動態(tài)地對每個時間步上的多通道特征進行加權聚合,篩選出與任務最相關的傳感器信息。
- 時間指令注意力(Time Instruct Attention):在上一步的基礎上,再次根據任務指令,在時間維度上進行注意力加權,聚合最關鍵的時間片段信息。這一設計顯著提升了計算效率,同時保證了對齊的精確性。
時間令牌即語言(TAL)該策略將ITA融合后的時序特征向量直接視為語言令牌,并替換掉文本查詢中預設的占位符。這使得時序信息能以一種與語言模型兼容的方式,無縫嵌入到LLM的輸入序列中,從而實現端到端的建模。
EngineMT-QA數據集設計
EngineMT-QA基于真實的工業(yè)應用場景設計,其任務層次反映了專家處理時序數據的認知過程。
數據規(guī)模:包含超過11萬對高質量問答數據,源于NASA N-CMAPSS標準數據集。數據維度:覆蓋32個傳感器通道,每個樣本包含600個時間步。質量保證:所有數據均經過領域專家的交叉審核,確保技術準確性。
適配主流LLMs,性能實現SOTA
EngineMT-QA數據集上的性能對比
在EngineMT-QA數據集上,ITFormer的性能全面超越了包括主流多模態(tài)API,如ChatGPT-4o、Gemini,以及專用時序-文本模型Time-LLM、AutoTime在內的所有基線。尤其在需要深度分析的“推理”和“決策”任務上,F1分數和BLEU得分的顯著領先,證明了ITFormer對復雜時序-語言關系具備強大的建模能力。
ITFormer模塊有效性驗證:消融實驗
消融實驗結果量化了ITFormer各核心組件的貢獻。實驗表明:TPE(時間令牌位置編碼) 對模型性能的提升最為關鍵,是模型理解多維時序結構的基礎。同時,ITA(指令時間注意力) 與TPE的結合能夠產生顯著的協同效應。最終,包含全部組件的完整架構性能最佳,驗證了ITFormer系統(tǒng)性設計的有效性。
架構通用性:適配不同時序編碼器與語言模型
ITFormer展現了卓越的“即插即用”特性。實驗證明,它可無縫適配PatchTST、Informer、Crossformer等多種時序編碼器,以及Qwen、LLaMA、GLM等不同規(guī)模和架構的大語言模型。此外,隨著底層語言模型規(guī)模的提升,整體任務性能也隨之穩(wěn)步提高,表現出良好的可擴展性。
跨域泛化與數據集價值
為驗證模型與數據集的通用價值,研究團隊在公開基準TimeSeriesExam上進行了測試。
結果顯示:1.ITFormer方法的有效性:即便不經過預訓練,ITFormer直接在TimeSeriesExam上訓練,其性能已在多個任務上優(yōu)于通用基線,證明了其架構設計的先進性。 2.EngineMT-QA數據集的價值:在使用EngineMT-QA進行預訓練后,ITFormer的性能得到進一步的巨大提升,在全部五項任務上均達到SOTA水平,其中“因果分析”準確率高達0.83。
這充分說明,EngineMT-QA作為一個時序文本對數據集,能夠為模型提供關于時序-文本關系的本質性知識,從而顯著提升其在其他任務上的泛化能力。
推理效率驗證
效率測試表明,ITA機制相較于傳統(tǒng)的跨模態(tài)注意力(cross-attention),在處理多通道、長序列數據時推理速度優(yōu)勢明顯。同時,LIT模塊也能有效降低長文本輸入帶來的計算開銷。這些結果證明,ITFormer的架構設計兼顧了高性能與高效率,為大規(guī)模實時應用提供了可能。
ITFormer及EngineMT-QA為時序AI社區(qū)提供了新的研究范式和寶貴資源,在工程和科學領域均具有廣闊的應用前景。
時序QA論文合集:https://github.com/Pandalin98/Awesome-Time-Series-QA-Papers
項目主頁:https://pandalin98.github.io/itformer_site/
論文鏈接:http://arxiv.org/abs/2506.20093