編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
在過去幾年,Text-to-SQL 被視為“讓普通人和數據庫對話”的關鍵技術。它的理想狀態(tài)是:用戶輸入一句話,系統(tǒng)就能自動生成正確的SQL查詢語句,從而訪問數據庫中想要的信息。
然而現實并不理想。傳統(tǒng)方法要么依賴大量人工標注數據,要么在面對「寬表」(列很多的數據庫表)時性能急劇下降。而即使是最新的大語言模型(LLMs),也常常只是“一次性”生成完整SQL,缺乏逐步推理的過程,出錯率高、解釋性差。
近日,北京大學與作業(yè)幫團隊在國際頂會CIKM2025上提出了一種“Interactive-T2S”框架,正是針對這些痛點提出的全新解決方案。它讓大模型不再“閉門造車”,而是主動與數據庫多輪交互、邊查邊想、邊生成SQL。

話不多說,這就帶大家學習一下。
本論文由北京大學與作業(yè)幫教育科技(北京)有限公司聯合研發(fā),核心團隊長期深耕自然語言處理與數據庫交互領域,聚焦大語言模型(LLMs)在結構化數據查詢中的落地痛點。對比傳統(tǒng)工作中將大型語言模型(LLM)看作一個一次性生成完整SQL代碼的翻譯器,本文將其塑造成一個能夠與數據庫進行多輪、迭代式交互的智能代理(Agent)。這個代理通過一系列“思考-行動-觀察”的循環(huán),逐步分解問題、搜集信息、構建并最終執(zhí)行SQL查詢,從而有效解決了現有方法在處理復雜、寬表(列數非常多)數據庫時的低效率和資源限制問題。
論文核心信息——
論文標題:
Interactive-T2S: Multi-Turn Interactions for Text-to-SQL with Large Language Models
作者團隊:
Guanming Xiong(北京大學), Junwei Bao*(作業(yè)幫), Hongfei Jiang(作業(yè)幫), Yang Song(作業(yè)幫), Wen Zhao(北京大學)(* 為通訊作者)
所屬單位:
Peking University; Zuoyebang Education Technology (Beijing), Co., Ltd.
論文鏈接:
https://arxiv.org/abs/2408.11062v1
CIKM 論文主頁:
https://arxiv.org/pdf/2408.11062(注:arxiv版本)
一、Text-to-SQL 技術的核心價值與現實挑戰(zhàn)
Text-to-SQL 技術作為自然語言與數據庫交互的 “橋梁”,能將普通用戶的自然語言問題(如 “列出參與足球活動的男性教授姓名”)自動轉化為可執(zhí)行的 SQL 查詢,無需用戶掌握專業(yè) SQL 語法。這一技術在大數據時代極具實用價值:在企業(yè)辦公場景中,市場人員可直接查詢銷售數據表獲取區(qū)域業(yè)績;在智能教育領域,學生能通過自然語言提問調取題庫知識點關聯數據;在政務服務中,市民可快速查詢社保、公積金等公開信息。
然而,現有基于LLMs 的 Text-to-SQL 方法仍面臨三大關鍵挑戰(zhàn),制約其大規(guī)模落地:
(1)寬表處理效率低下:傳統(tǒng)方法需將表中所有列信息輸入LLM 進行 schema 鏈接,當表中列數過多(即 “寬表”)時,會占用大量 LLM 上下文窗口資源,導致查詢延遲升高、成本增加,且難以定位實時更新的單元格值。
(2)低資源場景適配性差:多數方法依賴大量標注的“自然語言 - SQL” 配對數據選擇示例(Exemplars),但低資源場景下標注數據稀缺,且用戶查詢往往與訓練數據分布不一致,導致模型泛化能力驟降。
(3)交互過程缺乏可解釋性:現有交互式方法要么直接生成完整SQL、跳過中間推理步驟,要么工具設計冗余(如將基礎 SQL 功能拆分為多個專用工具),既無法追溯 SQL 生成邏輯,也難以高效適配不同數據庫場景。
二、Interactive-T2S 框架:以多輪交互與工具鏈破解核心痛點
針對上述挑戰(zhàn),研究團隊提出Interactive-T2S 框架,將 LLM 視為 “智能查詢代理”,數據庫視為 “數據環(huán)境”,通過 “思考-行動-觀察” 的多輪交互邏輯,結合 4 個通用工具實現 SQL 的分步生成與驗證,同時僅需 2 個標注示例即可實現少樣本學習。
1. 四大核心工具:精準定位信息,降低 LLM 推理負擔
框架將SQL 生成拆解為 “找列找值 - 表關聯 - 執(zhí)行驗證” 三步,對應設計 4 個工具,避免 LLM 直接處理海量冗余信息:
(1)SearchColumn(語義找列):根據自然語言問題的語義(如 “男性教授”“姓名”),對數據庫列名、描述進行向量化處理,按相似度排序返回相關列,并附帶列的統(tǒng)計特征(文本列返回示例值、數值列返回最值)。例如查詢 “教授姓名” 時,可精準定位到Faculty.Fname(名)與Faculty.Lname(姓),而非無關的Student表列。
(2)SearchValue(模糊找值):基于 BM25 算法在數據庫中搜索目標單元格值(如 “足球活動”),支持指定表 / 列縮小范圍,解決實時更新數據的定位問題。例如輸入 “Soccer activity”,可返回Activity表name列中的“Soccer” 值,無需依賴靜態(tài)標注數據。
(3)FindShortestPath(表關聯找路徑):將數據庫 schema 視為 “無向圖”(列為節(jié)點,外鍵約束為邊),計算兩列間最短關聯路徑, decouple 表關聯邏輯與 LLM 語義推理。例如需關聯 “教授表” 與 “活動表” 時,自動返回Faculty.FacID ? Faculty_Participates_in.FacID ? Faculty_Participates_in.actid ? Activity.actid的路徑,避免LLM 因多表關聯復雜而出錯。
(4)ExecuteSQL(實時執(zhí)行驗證):支持直接執(zhí)行生成的 SQL 并返回結果,為 LLM 提供反饋以修正錯誤。例如執(zhí)行 “查詢足球活動男性教授” 的 SQL 后,若結果為空,LLM 可回溯調整列篩選條件。
2. 多輪交互邏輯:分步可解釋,少樣本易學習
Interactive-T2S 遵循 “問題拆解→信息定位→表關聯→SQL 執(zhí)行” 的統(tǒng)一交互流程,每一步均需 LLM 輸出 “思考過程 + 工具行動”,確保生成邏輯可追溯:
問題拆解與信息定位:LLM 先將自然語言問題拆分為 “需找的列”“需找的值”(如 “足球活動” 對應值、“男性教授” 對應列),調用 SearchValue 與 SearchColumn 獲取精準信息;
表關聯路徑計算:區(qū)分SQL 中 “需選擇的列”(如教授姓名)與 “需過濾的列”(如活動名稱),調用 FindShortestPath 確定表間關聯方式;
SQL 生成與執(zhí)行:基于前兩步結果構建 SQL,調用 ExecuteSQL 執(zhí)行并驗證結果,若符合預期則標記 “Done” 結束交互。
同時,框架僅需提供2 個含完整交互過程的標注示例(如 “查詢參與足球活動的師生姓名”“查詢某大學數據庫領域高被引作者”),即可通過上下文學習引導 LLM 完成新任務,大幅降低對標注數據的依賴。
三、實驗驗證:多數據集突破SOTA,效率與效果雙優(yōu)
研究團隊在Spider(通用 Text-to-SQL 基準)、BIRD(復雜數據庫基準)及其變體數據集(如含領域知識的 Spider-DK、去噪后的 BIRD-FinC)上開展實驗,重點驗證 “無先驗知識”(不依賴額外外部信息)場景下的性能,結果如下:
1. 復雜數據集性能領先
在BIRD-Dev(無先知知識)數據集上,Interactive-T2S 的執(zhí)行準確率(EX)達 54.56%,較當前最優(yōu)方法 ExSL(51.69%)提升 2.87 個百分點;在金融領域去噪數據集 BIRD-FinC 上,其 EX 值(49.06%)顯著高于 Zero-shot(31.13%)與 DIN-SQL(47.17%),證明對復雜、噪聲數據的適配能力。
2. 寬表處理效率倍增
以DIN-SQL 為對比基準,Interactive-T2S 在 Spider-Dev 與 BIRD-Dev 上的 prompt token 消耗僅為前者的 36%(4.6k vs 12.8k)與 22%(4.7k vs 21.6k)。這一效率提升源于框架 “動態(tài)獲取必要信息” 的設計 —— 無需輸入全表列信息,僅通過工具調取關鍵列與值,完美適配寬表場景。
3. 少樣本泛化能力突出
在僅使用2 個示例的固定少樣本設置下,Interactive-T2S 在 Spider-Syn(同義詞干擾)、Spider-Realistic(隱式列名)等變體數據集上的 EX 值分別達 78.7%、80.7%,與依賴 6-7 個示例的 TA-SQL、SL+CC+RS 性能接近,且在跨領域場景(如 Spider-DK)中泛化能力更優(yōu),避免因數據分布差異導致的性能驟降。
4. 多表關聯場景優(yōu)勢顯著
消融實驗顯示,移除FindShortestPath 工具后,在需 4 個及以上表關聯的場景中,Spider-150 與 BIRD-150 子集的 EX 值分別下降 22 個、12 個百分點。這表明該工具能有效降低 LLM 的多表關聯推理負擔,即使面對數據庫 schema 設計復雜的場景,也能穩(wěn)定生成正確關聯邏輯。
四、應用價值與未來方向
Interactive-T2S 的創(chuàng)新設計使其在多個領域具備落地潛力:
智能教育:適配教育數據庫中“知識點 - 題庫 - 學生答題記錄” 的多表關聯場景,教師可通過自然語言查詢 “某知識點錯題率 Top3 的班級”,無需編寫復雜 SQL;
企業(yè)數據分析:處理含數百列的業(yè)務寬表(如銷售數據表),市場人員可快速查詢“某季度某區(qū)域客單價變化”,降低對數據分析師的依賴;
政務公開查詢:簡化政務數據查詢流程,市民通過“查詢某區(qū) 2024 年社保參保人數” 等自然語言提問,即可獲取精準結果。
未來,團隊將進一步優(yōu)化工具的計算效率(如加速FindShortestPath 的圖搜索速度),并探索框架在多模態(tài)數據(如結合文本與表格數據的查詢)中的擴展能力,推動 Text-to-SQL 技術向更復雜的真實場景滲透。



































