偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)跳動&清華大學(xué)開源多模態(tài)時序大模型ChatTS,可實(shí)現(xiàn)時序數(shù)據(jù)對話與推理

人工智能 新聞
我們提出了 ChatTS,一種原生支持多變量時序問答與推理的多模態(tài) LLM。

該工作由字節(jié)跳動 ByteBrain 團(tuán)隊 × 清華大學(xué)合作完成。第一作者為清華大學(xué)三年級博士生謝哲,主要研究方向為時序多模態(tài) LLM、異常檢測和根因定位。第二作者和第三作者分別為李則言和何曉,均來自字節(jié)跳動。通訊作者分別為字節(jié)跳動研究科學(xué)家張鐵贏和清華大學(xué)計算機(jī)系副教授裴丹。

近年來,多模態(tài)大語言模型(MLLM)發(fā)展迅速,并在圖像、視頻、音頻等領(lǐng)域取得了突破性成果。然而,相較于這些研究較為成熟的模態(tài),時間序列這一類型的數(shù)據(jù)與大模型結(jié)合的系統(tǒng)研究卻較為匱乏。

盡管已經(jīng)有 TimeLLM 等工作嘗試將 LLM 應(yīng)用于時序任務(wù),但這些研究大多局限于預(yù)測類任務(wù),無法滿足更復(fù)雜的理解與推理需求。隨著 LLM 在 AIOps、金融等需要處理時序數(shù)據(jù)的應(yīng)用場景中應(yīng)用愈發(fā)廣泛,時序問答、推理的能力已成為多模態(tài)智能系統(tǒng)的一項基礎(chǔ)能力需求。

為此,我們提出了 ChatTS,一種原生支持多變量時序問答與推理的多模態(tài) LLM。ChatTS 引來了 HuggingFace 產(chǎn)品負(fù)責(zé)人 Victor Mustar,以及 SparkNLP 項目負(fù)責(zé)人 Maziyar Panahi 等人的轉(zhuǎn)發(fā)和點(diǎn)贊:

圖片

圖片

ChatTS 論文已經(jīng)成功入選數(shù)據(jù)庫頂級會議 VLDB 2025。

圖片


  • 論文標(biāo)題:ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning
  • 論文 arXiv 鏈接:https://arxiv.org/pdf/2412.03104
  • ChatTS 代碼和數(shù)據(jù)集:https://github.com/NetmanAIOps/ChatTS
  • 模型參數(shù):https://huggingface.co/bytedance-research/ChatTS-14B

什么是時序問答任務(wù)

圖片

傳統(tǒng)的時間序列分析方法多基于統(tǒng)計模型或 AI 模型,而這些方法通常需要大量任務(wù)特定的訓(xùn)練、特定的數(shù)據(jù)預(yù)處理和結(jié)構(gòu)化的輸入輸出,缺乏通用性和可解釋性。而 LLM 的強(qiáng)語言建模能力和泛化推理能力,為「用自然語言理解時間序列」提供了可能。

然而,目前主流的 LLM 并不能直接處理原始的時間序列數(shù)組數(shù)據(jù),現(xiàn)有工作要么將時間序列轉(zhuǎn)成文本、圖像輸入,要么依賴 agent 工具進(jìn)行間接分析,但都存在不同程度的限制。

因此,我們思考,是否可以構(gòu)建一種「時間序列原生」的多模態(tài) LLM,使其像處理圖像一樣,能夠原生地理解時間序列的形狀、波動與語義含義,并進(jìn)行進(jìn)一步的問答和推理?

構(gòu)建時間序列多模態(tài)大模型面臨諸多挑戰(zhàn)

  • 數(shù)據(jù)稀缺。與圖文、語音等領(lǐng)域不同,時間序列+文本的對齊數(shù)據(jù)非常有限。
  • 時間序列具有高度結(jié)構(gòu)性。時序包含豐富的趨勢、周期、局部波動、噪聲等形態(tài)特征。
  • 時間序列輸入往往是多變量、不同長度的。變量之間的關(guān)系極具分析價值,但也加大了理解難度。
  • 現(xiàn)有的評估基準(zhǔn)未覆蓋時間序列多模態(tài)建模任務(wù),這也為訓(xùn)練和評估增加了難度。

現(xiàn)有方法

我們將現(xiàn)有嘗試將 LLM 應(yīng)用于時間序列的方式歸為三類:文本化方法、圖像化方法與 agent 方法。

圖片


  • 文本化(Text-Based)方法最為直接,即將時間序列值編碼成長文本輸入 LLM。其可能存在顯著的上下文長度限制,且無法處理多變量場景。
  • 圖像化(Vision-Based)方法借助可視化圖像輸入視覺大模型,但面臨圖像細(xì)節(jié)丟失的問題。
  • Agent 方法(Agent-Based)利用 LLM 調(diào)用工具獲取特征,但該方式嚴(yán)重依賴工具準(zhǔn)確性、推理鏈條極長且容易出現(xiàn)幻覺。

ChatTS: 基于合成數(shù)據(jù)訓(xùn)練的時序多模態(tài) LLM

面對時間序列與語言對齊數(shù)據(jù)的極度匱乏問題,我們從根本上摒棄了依賴真實(shí)數(shù)據(jù)標(biāo)注的路徑,而是選擇「純合成驅(qū)動」的方式,設(shè)計出一個端到端的數(shù)據(jù)生成、模型訓(xùn)練框架。

1.屬性驅(qū)動(Attribute-Based)的時間序列生成

圖片

我們定義了一套詳細(xì)的時間序列屬性體系,這些屬性具有明確的語義與參數(shù),構(gòu)成了「屬性池」。每個時間序列由若干屬性組合生成,并對應(yīng)一段高質(zhì)量自然語言描述。這種組合方式不僅確保了生成時間序列的多樣性與真實(shí)性,還能精確對應(yīng)語言文本的細(xì)節(jié)表達(dá),避免了傳統(tǒng)「圖文描述不符」的問題。

2.Time Series Evol-Instruct

僅有靜態(tài)屬性描述還不夠,我們還需訓(xùn)練模型掌握復(fù)雜的提問、比較與推理能力。我們提出 TSEvol,該方法以一組基礎(chǔ) Q&A 為種子,依托已有 attribute pools,不斷演化出多種新問題形式,優(yōu)化復(fù)雜推理場景下的模型能力。

3.原生多模態(tài)模型設(shè)計

圖片

模型結(jié)構(gòu)方面,我們基于 Qwen2.5-14B-Instruct,設(shè)計了一個時間序列原生感知的輸入結(jié)構(gòu)。時間序列被切分為小 patch,并用輕量級 MLP 編碼,嵌入到原始文本上下文中。

圖片

與之配套,我們設(shè)計了「數(shù)值保值歸一化機(jī)制」。考慮到原始數(shù)值在實(shí)際業(yè)務(wù)中非常重要(如最大 CPU 使用率),我們在對序列進(jìn)行 0-1 歸一化時,同時將歸一化參數(shù)以文本形式保留進(jìn) prompt,使模型既能學(xué)習(xí)序列形態(tài),又不丟失絕對數(shù)值的意義。

ChatTS 案例展示

圖片

我們做了幾個基于真實(shí)時間序列的 Case Studies??梢园l(fā)現(xiàn),ChatTS 不僅能對多變量時序的形態(tài)進(jìn)行分析,還能輸出時序中波動區(qū)間的位置與幅度。ChatTS 還能夠?qū)]有見過的時序波動模式進(jìn)行識別,并基于自己的理解給它「起名字」。

此外,ChatTS 的使用場景非常靈活,無需精確的 prompt 輸入也能準(zhǔn)確響應(yīng)。例如,我們讓它分析時序中的所有「事件」,ChatTS 準(zhǔn)確地 get 到了我們的意思,并自動提取出時序中的所有的異常波動。此外,ChatTS 還能實(shí)際應(yīng)用結(jié)合,例如結(jié)合專家知識,對故障去進(jìn)行初步的診斷和分析。

評估體系

圖片

我們一共收集了 3 個數(shù)據(jù)集用于評估,包含了 real-world 與合成的時序數(shù)據(jù),評測集覆蓋了對齊任務(wù)與推理任務(wù)兩大類,共 12 子類的問題類型,以全面評估對比模型性能。

1.對齊任務(wù)評估:全方位精準(zhǔn)識別時間序列屬性

圖片

我們將 ChatTS 模型與基于 Text、Vision 和 Agent 的模型進(jìn)行對比。結(jié)果顯示,ChatTS 在所有指標(biāo)上均大幅超越 GPT-4o 及其他基線方法,分類任務(wù) F1 提升 46%–75%,數(shù)值任務(wù)相對準(zhǔn)確率提升超過 80%。

在多變量任務(wù)上,ChatTS 優(yōu)勢更為顯著:ChatTS 能一次性感知多個變量間的變化趨勢與關(guān)系,且 token 成本極低,顯示出極強(qiáng)的實(shí)用性與高效性。

2.推理任務(wù)評估:從歸納到因果,全面提升時序理解深度

圖片

推理任務(wù)包括四類:歸納、演繹、因果、比較。實(shí)驗結(jié)果顯示,ChatTS 在所有推理任務(wù)上均優(yōu)于基線,平均提升 25.8%。

思考與展望

ChatTS 展示了一個全新的范式:通過可控合成數(shù)據(jù),訓(xùn)練具備真實(shí)理解能力的多模態(tài)大模型。我們從零出發(fā),僅使用合成數(shù)據(jù)訓(xùn)練出了一個在真實(shí)任務(wù)中表現(xiàn)優(yōu)異的模型,這說明「數(shù)據(jù)生成 + 模態(tài)對齊」的范式具備高度潛力。

當(dāng)前,ChatTS 聚焦在時序分析的理解與推理任務(wù),未來我們可以拓展其能力至更高階任務(wù)(例如因果推理、根因分析),甚至結(jié)合外部知識庫、專家規(guī)則,實(shí)現(xiàn)更強(qiáng)的決策支持能力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2017-11-20 11:37:19

時序數(shù)據(jù)數(shù)據(jù)存儲HBase

2025-01-06 09:30:00

2024-10-11 17:22:44

2024-04-11 07:10:59

大語言模型AI人工智能

2024-12-13 14:30:00

AI模型數(shù)據(jù)

2022-07-06 15:41:55

數(shù)據(jù)庫

2021-09-26 10:08:33

TSDB時序數(shù)據(jù)庫壓縮解壓

2021-07-08 15:39:50

機(jī)器學(xué)習(xí)人工智能計算

2024-07-19 10:39:38

2022-07-11 10:45:12

數(shù)據(jù)庫分析

2023-08-14 07:20:10

2022-09-23 07:44:48

時序數(shù)據(jù)庫物聯(lián)網(wǎng)

2023-12-28 17:31:44

PixelLM性能模型

2023-05-19 13:01:10

ChatGPT模型

2022-07-11 11:12:32

數(shù)據(jù)分析

2024-01-02 10:20:42

清華大學(xué)人工智能

2023-09-02 12:49:01

2019-05-30 08:31:39

數(shù)據(jù)庫QTSDB分布式

2023-08-22 14:18:49

2021-03-08 10:18:55

數(shù)據(jù)庫數(shù)據(jù)Prometheus
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號