偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對(duì)話任意復(fù)雜表格

發(fā)布于 2025-9-16 07:32
瀏覽
0收藏

一、半結(jié)構(gòu)化的痛點(diǎn)

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對(duì)話任意復(fù)雜表格-AI.x社區(qū)

在真實(shí)業(yè)務(wù)中,80% 以上的“表格”并非標(biāo)準(zhǔn)的關(guān)系型二維表,而是帶有合并單元格、層級(jí)標(biāo)題、嵌套子表、行列交叉說明的半結(jié)構(gòu)化表格。 布局五花八門、結(jié)構(gòu)復(fù)雜多變,讓自動(dòng)化數(shù)據(jù)處理變得異常困難。 典型場(chǎng)景包括:

  • 醫(yī)院 EMR 里的檢驗(yàn)報(bào)告單
  • 券商 PDF 年報(bào)里的財(cái)務(wù)報(bào)表
  • Excel 里的項(xiàng)目進(jìn)度橫道圖
  • 電商后臺(tái)的訂單匯總表

這些表格無法用固定 schema 建模,卻承載了高價(jià)值知識(shí)。過去,只能依賴業(yè)務(wù)專家“肉眼”檢索,耗時(shí)且易錯(cuò)。

二、已有的技術(shù)路線回顧

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對(duì)話任意復(fù)雜表格-AI.x社區(qū)

技術(shù)路線

代表工作

主要瓶頸

NL2SQL

OpenSearch-SQL、PETSQL

必須先轉(zhuǎn)成結(jié)構(gòu)化表,合并單元格被打碎,行列語義丟失

NL2Code

ReAcTable、TAT-LLM

依賴 Pandas 的行列索引,無法表達(dá)“跨子表”關(guān)系

多模態(tài) VLM

TableLLaVA、mPLUG-DocOwl

表格轉(zhuǎn)圖片→100+ 行就超出視覺窗口;文字密集時(shí)OCR 噪音大

直接 LLM 提示

GPT-4o、DeepSeek-V3

線性化 HTML/JSON 后“迷失在中間”,對(duì)層級(jí)標(biāo)題、合并單元格** hallucination 嚴(yán)重**

結(jié)論:在“布局理解”與“內(nèi)容檢索”兩個(gè)核心環(huán)節(jié),現(xiàn)有方法均出現(xiàn)結(jié)構(gòu)性信息損耗,導(dǎo)致問答精度卡在 60% 左右。

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對(duì)話任意復(fù)雜表格-AI.x社區(qū)

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對(duì)話任意復(fù)雜表格-AI.x社區(qū)

三、ST-Raptor方案

ST-Raptor試圖解決半結(jié)構(gòu)化表格以下三個(gè)痛點(diǎn):

  1. 如何在不破壞布局的前提下,讓大模型“看懂”復(fù)雜表格?
  2. 如何讓模型像業(yè)務(wù)人員一樣,先定位標(biāo)題、再交叉比對(duì)、最后匯總答案?
  3. 如何在多跳推理鏈條中自動(dòng)校驗(yàn),避免一步錯(cuò)步步錯(cuò)?

3.1 ST-Raptor 的核心創(chuàng)新有六點(diǎn):

  1. HO-Tree 表達(dá):首次提出“層級(jí)-正交”雙樹結(jié)構(gòu),把任意半結(jié)構(gòu)化表格無損壓縮成一棵樹,節(jié)點(diǎn)=單元格,邊=層級(jí)/并列關(guān)系。
  2. 原子操作集:設(shè)計(jì) 9 種樹原語(取父節(jié)點(diǎn)、取子樹、條件過濾、數(shù)值計(jì)算…),把“表格問答”形式化為“樹遍歷腳本”
  3. 問題分解+對(duì)齊:LLM 先將復(fù)雜問句拆成單跳子問句,再通過嵌入相似度把操作參數(shù)對(duì)齊到樹節(jié)點(diǎn),解決“指代漂移”。
  4. 雙向驗(yàn)證
  • 正向——每步執(zhí)行后檢查返回節(jié)點(diǎn)是否為空、是否偏離問題語義;
  • 反向——用最終答案反生成多套等價(jià)問句,若原始問句與反生成問句的腳本差異大則打低置信度。
  1. 基準(zhǔn) SSTQA:采集 102 張真實(shí)業(yè)務(wù)表、764 問,** nesting 深度、合并單元格密度、問題類型**均超出現(xiàn)有數(shù)據(jù)集一個(gè)量級(jí)。
  2. 效果:在 SSTQA 上比 GPT-4o 絕對(duì)提升 10.23%,在 Hard 表上領(lǐng)先 20%+;消融實(shí)驗(yàn)表明** HO-Tree 結(jié)構(gòu)建模單點(diǎn)貢獻(xiàn) 15.15%**。

3.2 ST-Raptor架構(gòu)

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對(duì)話任意復(fù)雜表格-AI.x社區(qū)

ST-Raptor 框架共 4 個(gè)模塊,流水線如圖 3 所示。下文按“建樹→問句解析→腳本執(zhí)行→答案驗(yàn)證”四段展開。

3.3 HO-Tree:一張表就是一片“森林”

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對(duì)話任意復(fù)雜表格-AI.x社區(qū)

3.3.1 形式化定義

對(duì)任意半結(jié)構(gòu)化表 T,將其拆成元數(shù)據(jù)樹 MTree數(shù)據(jù)樹 BTree,再建立“葉-層”指針,形成 HO-Tree:

  • MTree 節(jié)點(diǎn) = 表頭、子表標(biāo)題、合并格;
  • BTree 節(jié)點(diǎn) = 純內(nèi)容單元格;
  • 邊語義 = 層級(jí)包含或正交并列;
  • 指針:MTree 的葉節(jié)點(diǎn) → BTree 的對(duì)應(yīng)層,實(shí)現(xiàn)“標(biāo)題列”到“數(shù)據(jù)列”的硬鏈接。

:圖 4 右下角“TD Tech”表,可遞歸解析為L(zhǎng)4(Header-Orthogonal-Subtables) → L3(Orthogonal-Subtables) → [L2(Header-Multiple-Values)]最終得到 3 層嵌套 HO-Tree。

3.3.2 建樹算法(Algorithm 1)

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對(duì)話任意復(fù)雜表格-AI.x社區(qū)

輸入:Excel/PDF/HTML 原始表輸出:HO-Tree 森林

步驟 0:VLM 截圖識(shí)別

  • headless 瀏覽器渲染 → 高清圖 → InterVL2-26B 提示詞:“請(qǐng)給出這張表如果存成 JSON 可能出現(xiàn)的所有 key” → 拿到候選標(biāo)題集合 C。

步驟 1:Embedding 對(duì)齊

  • 用 Multilingual-E5 對(duì)所有單元格做 embedding,與 C 做余弦相似度,≥閾值 τ=0.82者標(biāo)記為標(biāo)題格。

步驟 2:表格分區(qū)(TablePart)

  • 原則 P1:若合并格跨整行/列 → 頂級(jí)標(biāo)題,下方或右側(cè)劃為子表;
  • 原則 P2:若同時(shí)出現(xiàn)頂對(duì)齊與左對(duì)齊標(biāo)題,格多者建 MTree,另一方入 BTree;
  • 原則 P3:檢測(cè)到正交子表 → 遞歸切片。

步驟 3:DFS 組裝

  • 對(duì)每片子表,按 L1-L4 類型執(zhí)行 ConsTree:– L1、L2 → 單層樹;– L3、L4 → 節(jié)點(diǎn) value 字段再掛一棵子 HO-Tree,實(shí)現(xiàn)無限級(jí)嵌套

復(fù)雜度:最壞掃描全表 2 次,**O(N·M)**,N、M 為行列數(shù);嵌入比對(duì)可 GPU 批量化,102 張表平均 2.3 s 完成森林構(gòu)建。

3.4 原子操作集:9 個(gè)“樹 API”搞定 95% 查詢

作者從 2 萬張真實(shí)問句中歸納出 9 種高頻操作,分為 4 類:

類別

操作

說明

示例

數(shù)據(jù)檢索

CHL(V)

取 V 的所有子節(jié)點(diǎn)

CHL(“Employee Info”)→[Mark, Jone, Ray…]


FAT(V)

取父節(jié)點(diǎn)

FAT(“Mark”)→“Research 1”


EXT(V1,V2)

交叉檢索

EXT(“Level”,“A+”)→[Mark, Jone]

數(shù)據(jù)操作

Cond(D,func)

過濾

Cond(EXT(…), λx: x>30)


Math(D,func)

聚合

Math(CHL(“Age”), max)


Cmp(D1,D2,func)

比較

Cmp(EXT(2022), EXT(2023), >)

對(duì)齊

Align(P,HO-Tree)

把自然語言 P 對(duì)齊到節(jié)點(diǎn)

Align(“highest paid”→“Salary”

推理

Rea(Q,D)

LLM 總結(jié)/判斷

Rea(“是否盈利”, D)→“是”

腳本示例:“部門 A 與 C 中評(píng)級(jí)高于 A 的員工共幾人?”→ 分解為

  1. SQ1: Count(Cond(EXT(Department, A), Level>A))
  2. SQ2: Count(Cond(EXT(Department, C), Level>A))
  3. SQ3: Math([SQ1, SQ2], sum)

3.5 問題分解與操作-表對(duì)齊

上交&清華開源ST-Raptor:無需SQL、無需OCR,直接對(duì)話任意復(fù)雜表格-AI.x社區(qū)

3.5.1 分解策略

  • 采用 few-shot 提示:動(dòng)態(tài)檢索與當(dāng)前問句最相似的 3 個(gè)示例(embedding 相似度),連同 HO-Tree 的元信息一起喂給 DeepSeek-V3。
  • 要求模型輸出“子問句 + 依賴關(guān)系圖”,保證下游可并行可串行。

3.5.2 對(duì)齊策略

  • 對(duì)操作中的每個(gè)參數(shù) p,用 E5 編碼后與 HO-Tree 所有節(jié)點(diǎn)做最近鄰搜索,Top1 置信度<0.75 時(shí)觸發(fā)人工模板兜底。
  • 連續(xù)值列額外用規(guī)則正則提取范圍,解決“大于 30 歲”這類閾值描述。

3.6 雙向驗(yàn)證:讓模型“自檢”

3.6.1 正向驗(yàn)證(Forward)

  • 每步執(zhí)行完檢查:

返回節(jié)點(diǎn)非空;

節(jié)點(diǎn)類型與問題期望一致(數(shù)值/文本/日期);

行號(hào)/列號(hào)未越界。

  • 任一失敗 → 重生成操作,最多重試 3 次,仍失敗則返回“無法回答”。

3.6.2 反向驗(yàn)證(Backward)

  • 用最終答案 A 反生成 5 個(gè)等價(jià)問句(few-shot 提示)。
  • 對(duì)這 5 個(gè)問句再走一遍完整 pipeline,得到 5 個(gè)腳本。
  • 用最長(zhǎng)公共子序列(LCS)計(jì)算與原始腳本的相似度,平均相似度<0.6 時(shí)置信度=0,系統(tǒng)輸出“可疑答案”標(biāo)記。

四、可落地的工業(yè)實(shí)踐建議

  • 數(shù)據(jù)入口:直接解析 Excel/PDF,無需人工整理成數(shù)據(jù)庫;
  • 質(zhì)檢場(chǎng)景:把 HO-Tree 腳本固化成規(guī)則,每晚批量跑,異常答案自動(dòng)告警;
  • 交互分析:在前端嵌入“子問句+中間表”展開,業(yè)務(wù)人員可點(diǎn)選修正,形成人機(jī)協(xié)同閉環(huán);

五、個(gè)人總結(jié):為什么值得一讀

ST-Raptor 給出了一個(gè)“把視覺布局壓縮成可計(jì)算結(jié)構(gòu)”的完整范式:

  • HO-Tree讓“合并單元格”第一次擁有了無損的代數(shù)表達(dá);
  • 原子操作把表格問答從“黑盒提示”變成白盒腳本,可調(diào)試、可驗(yàn)證;
  • 雙向自檢機(jī)制對(duì)幻覺“零容忍”,讓大模型在嚴(yán)肅場(chǎng)景落地成為可能

如果你正在做文檔智能、財(cái)務(wù)審核、醫(yī)療質(zhì)控、報(bào)表自動(dòng)化等方向,這篇論文提供了從模型到 benchmark 再到工程細(xì)節(jié)值得細(xì)細(xì)品味。

??https://arxiv.org/pdf/2508.18190??

??https://github.com/weAIDB/ST-Raptor??

本文轉(zhuǎn)載自??CourseAI??,作者:CourseAI

標(biāo)簽
已于2025-9-16 09:28:24修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦