偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ul id="8omz6"><big id="8omz6"></big></ul>

<em id="8omz6"><samp id="8omz6"><small id="8omz6"></small></samp></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估

AIGC前沿技術追蹤

發(fā)布于 2025-5-23 06:49

瀏覽

0收藏

1.引言

1.1 研究背景與意義

在當今數(shù)字化時代，數(shù)據(jù)的高效處理和利用至關重要。Text-to-SQL 作為自然語言處理和數(shù)據(jù)庫領域的關鍵技術，旨在實現(xiàn)自然語言問題到 SQL 查詢的自動轉(zhuǎn)換，從而打破非專業(yè)用戶與數(shù)據(jù)庫系統(tǒng)之間的障礙，提高數(shù)據(jù)處理效率，拓展智能數(shù)據(jù)庫服務、自動數(shù)據(jù)分析和數(shù)據(jù)庫問答等應用范圍。隨著人工智能技術的不斷發(fā)展，特別是大型語言模型（LLMs）的出現(xiàn)，為 Text-to-SQ 任務帶來了新的機遇和挑戰(zhàn)。

1.2 現(xiàn)有研究的不足

盡管 Text-to-SQ 研究取得了一定進展，但仍存在諸多問題。以往研究主要集中在提取問題到 SQL 的模式并通過訓練編解碼器模型進行泛化，而對于基于 LLM 的Text-to-SQ 解決方案，核心的提示工程問題缺乏系統(tǒng)研究。具體表現(xiàn)為：在問題表示方面，現(xiàn)有研究雖有多種方式，但缺乏對不同表示及其與 LLMs 配合效果的系統(tǒng)分析；在示例選擇和組織上，策略多樣但最優(yōu)選擇不明確；此外，開源 LLMs 在 Text-to-SQ 中的潛力未得到充分挖掘，且提示效率問題也亟待解決。

2.預備知識

2.1 Text-to-SQL 的發(fā)展脈絡

Text-to-SQL 的研究歷程涵蓋了多個階段和方法。早期研究采用預定義規(guī)則或查詢枚舉的方式，之后將其視為序列到序列任務，利用編碼器 - 解碼器架構訓練機器學習模型。隨著深度學習技術的飛速發(fā)展，諸如注意力機制、圖表示、語法解析等眾多技術被應用于 Text-to-SQ 任務，其中 BERT 是具有代表性的模型之一。近年來，隨著 LLMs 的興起，Text-to-SQ 研究進入新的階段。LLMs 通過在大規(guī)模文本語料上預訓練，能夠執(zhí)行多種自然語言任務，其在 Text-to-SQ 中的應用核心在于找到最優(yōu)提示，即提示工程。本文提出的 DAIL-SQL 從問題表示、上下文學習、監(jiān)督微調(diào)三個方面來實現(xiàn) T2SQL。

2.2 關鍵概念定義

2.2.1 問題表示

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

在零樣本場景下的 Text-to-SQL 中，問題表示的目標是在給定數(shù)據(jù)庫 D 上，對于自然語言目標問題 q，最大化 LLM M 生成正確 SQL ??? 的可能性。這需要綜合考慮數(shù)據(jù)庫模式等有用信息，以及可能的指令語句、規(guī)則暗示和外鍵信息等，通過函數(shù)??(?,?) 來實現(xiàn)。

2.2.2 上下文學習

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

在少樣本場景下，上下文學習是 LLMs 從輸入提示中的示例學習的過程。它包括示例選擇和示例組織兩個關鍵環(huán)節(jié)，目標是在目標問題 q 和數(shù)據(jù)庫 D 上，最大化 LLM M 生成正確 SQL ??? 的可能性，同時考慮從給定的示例集合 Q 中選擇 k 個示例，并通過函數(shù)??(?,?,?) 進行表示。

2.2.3 監(jiān)督微調(diào)

監(jiān)督微調(diào)是使用額外的任務特定訓練數(shù)據(jù)來增強 LLMs，使其更適合特定下游任務的方法。對于 Text-to-SQ 任務，給定一個大型語言模型 M 和一組 Text-to-SQ 訓練數(shù)據(jù) T，目標是最小化經(jīng)驗損失，包括對給定 LLM 進行微調(diào)以及尋找最優(yōu)問題表示兩個子任務。

3.方法

3.1 問題表示方法探究

3.1.1 現(xiàn)有方法對比

基本提示（BS??）：以清單 1 中所示，一種簡單的表示方法，由表 schemas 組成、以 Q 為前綴的自然語言問題和以 A 為前綴 : SELECT 提示 LLM 生成 SQL。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

文本表示提示（TR??）：如清單 2 所示，用自然語言表示模式和問題，并在開頭添加指令，引導 LLMs。在零樣本場景下對 Spider - dev 的執(zhí)行準確率為 69.0%。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

OpenAI 演示提示（OD??）：如清單 2 所示，由指令、schema 和問題組成，所有信息用 #注釋，指令更具體，例如 “僅需完成的sqlite SQL查詢語句，無需提供說明?！?。它在不同 LLMs 上有不同表現(xiàn)，在某些情況下能取得較好的性能。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

代碼表示提示（CR??）：如清單 4 所示，以 SQL 語法呈現(xiàn) Text-to-SQ 任務，直接呈現(xiàn) CREAT TABLE 建表語句，并在注釋中給出自然語言問題。它能提供全面的數(shù)據(jù)庫創(chuàng)建信息，如列類型和主 / 外鍵，對 LLM CODE - DAVINCI - 002 的準確率較達到了 75.6% 。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

Alpaca SFT 提示（AS??）：如清單 5 所示，為監(jiān)督微調(diào)設計的提示，以 Markdown 格式提示 LLM 根據(jù)輸入上下文完成任務。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

3.1.2 實驗結果與分析

（1）通過在 zero-shot 零樣本場景下對 Spider-dev 數(shù)據(jù)集的實驗（圖 1），比較不同問題表示方法在不同 LLMs 上的性能。結果顯示，不同 LLMs 對問題表示方法有不同偏好。例如，OD??適合多種 LLMs，在 GPT-3.5-Turbo 上執(zhí)行準確率達到75.5%；而 AS??在 GPT-3.5-Turbo、TEXT-DAVINCI-003 和 Vicuna-33B 上表現(xiàn)較差。GPT-4 對簡單的 BS?? 有偏好，這表明強大的 LLM 可能會減輕表示設計的復雜性。綜合不同 LLMs 的平均性能，GPT-4 和 GPT-3.5-Turbo 在零樣本場景下能力較強。因此，對于零樣本場景，GPT-3.5-Turbo 和 OD?? 可能是較好的選擇；對于較弱的 LLMs，如 TEXT-DAVINCI- 003 和 Vicuna-33B，OD?? 和 CR?? 更優(yōu)。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

（2）消融研究進一步探討了外鍵（FK）和規(guī)則暗示（RI）對性能的影響。

外鍵暗示不同關系表之間的關系，在 Text-to-SQL 任務中可能有幫助。只有 CR?? 包含外鍵信息，通過在其他表示中添加外鍵信息并在 Spider-dev 上進行評估（圖 2），發(fā)現(xiàn)外鍵能顯著提高多數(shù) LLMs 的執(zhí)行準確率，但對某些組合有負面影響。例如，外鍵使 BS??的執(zhí)行準確率提高了 5.0%，但對 OD??和 AS??的性能有不利影響。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

受 OD?? 性能的啟發(fā)，研究規(guī)則暗示的影響。通過在不同表示中加入 “沒有解釋” 規(guī)則暗示并進行消融研究（圖 3），發(fā)現(xiàn)添加該規(guī)則能一致提高所有 LLMs 在精確集匹配和執(zhí)行準確率方面的性能，其中最顯著的改進分別超過 6% 和 3%。而對于 OD??，移除該規(guī)則會導致精確集匹配準確率下降 2.4% - 6.2%，執(zhí)行準確率下降 1.3% - 2.4%，表明該規(guī)則暗示的重要性。同時，對另一種規(guī)則暗示 “Let’s think step by step” 進行測試，發(fā)現(xiàn)其在 Text-to-SQ 任務中的性能高度不穩(wěn)定。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

3.2 上下文學習的關鍵要素

上述問題表示方法使 LLM 能夠直接通過 zero-shot 零樣本學習輸出所需的 SQL。但是 LLM 還可以通過上下文學習，在文本中輸入少量的示例，使其在文本到 SQL 方面表現(xiàn)的更好。因此，在本小節(jié)中，我們將討論上下文的關鍵學習，即示例選擇和示例組織。我們首先給出上下文學習的方案，以進一步進行討論。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

3.2.1 示例選擇

隨機選擇：隨機從可用候選示例中選取 k 個示例，是示例選擇的一種基線方法。

問題相似性選擇（QTS??）：選擇 k 個與目標問題最相似的示例，通過將示例問題和目標問題嵌入預訓練語言模型，應用距離度量方法選擇示例。

掩碼問題相似性選擇（MQS??）：針對跨域 Text-to-SQ，通過用掩碼標記替換表名、列名和值來消除特定領域信息的負面影響，然后計算嵌入相似度選擇示例。

查詢相似性選擇（QRS??）：不使用目標問題，而是旨在選擇 k 個與目標 SQL 查詢相似的示例。通過初步模型生成近似的 SQL 查詢，然后根據(jù)關鍵詞將示例查詢編碼為二進制離散語法向量，綜合考慮相似度和多樣性選擇示例。

指出在示例選擇時應綜合考慮問題和 SQL 查詢，因為根據(jù)上下文學習的本質(zhì)是從類比中學習，在 Text-to-SQ 任務中需要生成與給定問題匹配的查詢，所以 LLMs 應該學習從問題到 SQL 查詢的映射。

3.2.2 示例組織

全信息組織（FI??）：如清單 6 所示，組織示例的方式與目標問題相同，包含完整信息，包括指令、模式、問題和對應的 SQL 查詢，僅在結尾的 “SELECT” 處與目標問題有所不同，此處為對應的 SQL 查詢。這種方式保證了質(zhì)量，但可能在數(shù)量上受限。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

僅 SQL 組織（SO??）：如清單 7 所示，只包含所選示例的 SQL 查詢，并在提示中有前綴指令。這種方式旨在最大化示例數(shù)量，但丟失了問題與 SQL 查詢的映射信息，而該信息可能是有用的。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

提出一種新的示例組織策略 DAIL - SQL 的示例組織（DAIL??），它呈現(xiàn)問題和相應的 SQL 查詢，作為 FI??和 SO??的折衷，保留問題-SQL 映射，同時減少示例的標記長度，通過去除標記成本較高的數(shù)據(jù)庫模式來實現(xiàn)。

3.3 DAIL-SQL 的創(chuàng)新方法

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

示例選擇（DAIL??）：綜合考慮問題和查詢來選擇候選示例。首先在目標問題??和候選集 Q 中的示例問題????中掩碼特定領域的單詞，然后根據(jù)掩碼后的問題嵌入的歐幾里得距離對候選示例進行排序，同時計算預預測的 SQL 查詢??′與 Q 中的????的查詢相似性，最后根據(jù)問題相似性和查詢相似性大于預定義閾值??的標準選擇示例，使得所選的 k 個示例在問題和查詢方面都有良好的相似性。

示例組織（DAIL??）：呈現(xiàn)問題和相應的 SQL 查詢，保留問題 - SQL 映射，同時減少示例的標記長度。通過去除標記成本較高的數(shù)據(jù)庫模式來實現(xiàn)，既保證了質(zhì)量又考慮了數(shù)量。

3.4 監(jiān)督微調(diào)的應用與探索

為了提高大型語言模型在零樣本場景下的性能，現(xiàn)有的文本到 SQL 方法中流行的選擇是上下文學習，這在上述小節(jié)中進行了討論。作為一種替代但有前途的選擇，有監(jiān)督微調(diào)目前探索較少。與針對各種語言任務的有監(jiān)督微調(diào)類似，我們可以將其應用于文本到 SQL 領域，并提高大型語言模型在這個下游任務上的性能。為了進一步了解有監(jiān)督微調(diào)在文本到 SQL 中的作用，我們首先提供如下簡要公式。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

3.4.1 公式及原理

對于 Text-to-SQ 任務，給定一個大型語言模型 M 和一組 Text-to-SQ 訓練數(shù)據(jù)

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

，監(jiān)督微調(diào)的目標是最小化經(jīng)驗損失。其中，???? 和 ???? 分別是自然語言問題和其在數(shù)據(jù)庫????上的對應查詢，通過最小化損失函數(shù) L 來衡量生成查詢與真實查詢之間的差異。監(jiān)督微調(diào)包括兩個子任務：對給定 LLM 進行微調(diào)以及尋找最優(yōu)問題表示，這與問題表示部分相關聯(lián)。

3.4.2 數(shù)據(jù)準備和微調(diào)過程

從給定的 Text-to-SQ 數(shù)據(jù)集中生成提示 - 響應對進行微調(diào)。具體而言，給定數(shù)據(jù)集

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

，將目標問題和給定數(shù)據(jù)庫作為提示，將期望的查詢作為 LLM 的響應，即生成 T ={(???? = ??(????, ????), ???? = ????)}。根據(jù)計算資源情況，可以選擇全微調(diào)或參數(shù)高效微調(diào)。例如，在有足夠計算資源時可選擇全微調(diào)，否則可選擇參數(shù)高效微調(diào)。

3.4.3 開源 LLMs 的監(jiān)督微調(diào)研究

（1）選擇 LLaMA 及其對齊變體作為研究對象，包括 LLaMA - 7B、LLaMA - 13B、LLaMA - 33B、Falcon - 40B、Alpaca - 7B、GPT4ALL - 7B、Vicuna - 7B、Vicuna - 13B、Vicuna - 33B、LLaMA - 2 - CHAT - 7B、LLaMA - 2 - CHAT - 13B、LLaMA - 2 - CHAT - 70B 和 CodeLLaMA - 34B 等。

（2）在零樣本場景下，通過對不同開源 LLMs 在 Spider - dev 上的實驗（表 3），研究問題表示、模型規(guī)模和對齊對性能的影響。結果表明，CR??在不同開源 LLMs 上表現(xiàn)最佳，可能是因為其包含的全數(shù)據(jù)庫知識補償了開源 LLMs 的能力不足，或者刺激了 LLMs 的編碼能力。從模型規(guī)模來看，LLaMA 和 Vicuna 的模型規(guī)模與性能呈正相關，例如 LLaMA - 2 - CHAT - 70B 隨著參數(shù)增多性能提高。從對齊角度看，對齊后的 LLMs 在 Text-to-SQ 任務中表現(xiàn)更好，例如 Vicuna 在相同模型規(guī)模下比 LLaMA 執(zhí)行準確率高約 5%。Falcon - 40B 由于訓練數(shù)據(jù)集中缺乏專用代碼數(shù)據(jù)，表現(xiàn)較差。CodeLLaMA - 34B 通過精心收集的代碼數(shù)據(jù)在對齊階段表現(xiàn)出顯著的性能提升，盡管其參數(shù)只有 LLaMA - 2 - CHAT - 70B 的一半，但性能卻超過了后者，這凸顯了訓練語料在 LLMs 中的重要性。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

（3）在少樣本場景下，以 LLaMA - 33B 和 Vicuna - 33B 為例，使用 CR??和 DAIL Selection 進行實驗（圖 5）。結果表明，LLaMA - 33B 受益更多，在 5 - shot Full - Information Organization 示例下達到 36.4% 的精確集匹配準確率。不同組織策略在不同 k - shot 場景下表現(xiàn)不同，F(xiàn)ull - Information Organization 在多數(shù)情況下表現(xiàn)較好。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

（4）監(jiān)督微調(diào)后，在零樣本場景下，開源 LLMs 的性能得到顯著提升（圖 6）。不同表示方法和模型規(guī)模之間的差距在微調(diào)后變窄，可能是因為微調(diào)后 LLMs 學會了在沒有任務指令和外鍵的情況下回答新的 Text-to-SQ 問題。在少樣本場景下，對微調(diào)后的 LLaMA - 7B 和 13B 進行實驗（表 4）。結果表明，微調(diào)后的 LLMs 無法從示例中學習，添加上下文示例反而導致精確集匹配和執(zhí)行匹配準確率下降，這可能是因為 LLM 過度擬合零樣本提示，使得示例變得無用。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

4.實驗

4.1 實驗設置

4.1.1 數(shù)據(jù)集選擇

使用了兩個被廣泛認可的數(shù)據(jù)集：Spider 和 Spider - Realistic。Spider 是一個大規(guī)模的跨域 Text-to-SQ 數(shù)據(jù)集，包含 200 個數(shù)據(jù)庫的 8659 個訓練實例和 1034 個開發(fā)實例，每個實例由一個特定數(shù)據(jù)庫上的自然語言問題及其對應的 SQL 查詢組成。在本文中，使用開發(fā)集 Spider - dev 進行評估。Spider - Realistic 是 Spider 的一個更具挑戰(zhàn)性的變體，它從 Spider - deV 中選擇了 508 個示例，并手動修改了問題，同時保持 SQL 查詢不變。在少樣本場景中，使用 Spider 的訓練集作為示例候選集，用于在 Spider - dev 和 Spider - Realistic 上進行測試。

4.1.2 評估指標確定

采用精確集匹配準確率（EM）和執(zhí)行準確率（EX）作為評估指標。精確集匹配準確率衡量預測的 SQL 查詢與對應的真實 SQL 查詢之間匹配的 SQL 關鍵詞數(shù)量，執(zhí)行準確率則比較預測的 SQL 查詢在某些數(shù)據(jù)庫實例上的執(zhí)行輸出與真實 SQL 查詢的執(zhí)行輸出。這兩個指標能夠更準確地評估模型的性能，因為對于一個給定的問題可能存在多個有效的 SQL 查詢。

4.1.3 LLM 參數(shù)設置

為了確保公平比較，對所有方法使用相同的最大上下文長度，OpenAI LLM 為 4096，開源 LLM 為 2048。在評估過程中，預留 200 個標記用于響應生成。默認情況下，將溫度參數(shù)設置為 0，以消除隨機性的影響。在處理響應時，遵循現(xiàn)有工作，提取響應中的第一個 SQL 查詢并去除額外的輸出。

4.2 問題表示實驗結果

4.2.1 零樣本場景評估

通過在零樣本場景下對 Spider - dev 數(shù)據(jù)集的實驗（圖 1），比較了不同問題表示方法在不同 LLMs 上的性能。結果表明，不同 LLMs 對問題表示方法的偏好不同，OD??在大多數(shù) LLMs 上表現(xiàn)較好，而 AS??在部分 LLMs 上表現(xiàn)較差。通過消融研究（圖 2、圖 3），進一步探討了外鍵（FK）和規(guī)則暗示（RI）對性能的影響。外鍵在多數(shù)情況下能提高 LLMs 的執(zhí)行準確率，但對某些組合有負面影響；規(guī)則暗示 “沒有給出任何解釋” 能顯著提高所有 LLMs 的性能，而另一種規(guī)則暗示 “讓我們一步一步地思考?！?性能不穩(wěn)定。綜合來看，OD??與外鍵和 GPT - 3.5 - TURBO 的組合在零樣本場景下是最有效和經(jīng)濟的。

4.2.2 消融實驗總結

對外鍵和規(guī)則暗示的消融實驗結果表明，它們對 Text-to-SQ 任務的性能有重要影響。外鍵信息對不同的問題表示方法和 LLMs 組合有不同的影響，而規(guī)則暗示 “沒有給出任何解釋” 在提高性能方面表現(xiàn)出一致性。這些結果為進一步優(yōu)化問題表示方法提供了依據(jù)。

4.3 上下文學習實驗詳情

在少樣本場景下，我們使用 GPT-4、GPT-3.5-Turbo、TEXT-DAVINCI-003 和 Vicuna-33B 來檢驗不同的示例選擇和組織策略。

4.3.1 示例選擇實驗分析

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

在少樣本場景下，對不同示例選擇策略進行了實驗（表 2）。通過計算問題和查詢的 Jaccard 相似度，并與目標實例進行比較，結果表明 DAIL??策略在大多數(shù)情況下優(yōu)于其他策略。同時，問題和查詢相似度越高，執(zhí)行準確率越高，這進一步強調(diào)了在示例選擇中同時考慮問題和查詢的重要性。

4.3.2 示例組織實驗解讀

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

在少樣本場景下，對不同示例組織策略進行了實驗（圖 4）。結果表明，不同 LLMs 對不同示例組織策略有不同的偏好。例如，GPT-4 在 DAIL 組織下受益最大，其執(zhí)行準確率在 Spider-dev 上從 72.3% 提高到 83.5%，在 Spider-Realistic 上從 66.5% 使得該組織方式對其效果較好。對于 GPT-3.5-Turbo 和 TEXT-DAVINCI-003，添加示例可能會導致執(zhí)行準確率下降，這可能是由于它們的上下文學習能力有限。對于 Vicuna-33B 隨著示例數(shù)量的增加，其性能在 DAIL 組織下持續(xù)提高。綜合來看，DAIL 組織在某些情況下能夠取得較好的性能，并且對于具有較強上下文學習能力的 LLM，如 GPT-4 效果更為明顯。

4.4 監(jiān)督微調(diào)實驗成果

在這一部分中，我們研究文本到 SQL 的有監(jiān)督微調(diào)。由于對 OpenAI 大語言模型進行微調(diào)的成本高得難以承受，我們專注于開源大語言模型。鑒于很少有現(xiàn)有工作采用開源大語言模型且它們的性能尚不清楚這一事實，我們首先對開源大語言模型進行全面評估，采用各種問題表示、示例選擇和組織策略。之后，我們在文本到 SQL 中對開源大語言模型進行微調(diào)，并觀察它們在零樣本和少樣本場景下的性能提升。

4.4.1 開源 LLMs 實驗總結

在零樣本場景下，對不同開源 LLMs 進行了實驗（表 3），分析了問題表示、模型規(guī)模和對齊對性能的影響。結果表明，CR??在不同開源 LLMs 上表現(xiàn)最佳，模型規(guī)模和對齊對性能有積極影響。在少樣本場景下，以 LLaMA - 33B 和 Vicuna - 33B 為例進行實驗（圖 5），結果表明 LLaMA - 33B 受益更多，F(xiàn)ull - Information Organization 在不同 k - shot 場景下表現(xiàn)較好。在監(jiān)督微調(diào)方面，零樣本場景下監(jiān)督微調(diào)能顯著提升性能，不同表示方法和模型規(guī)模之間的差距在微調(diào)后變窄（圖 6）。少樣本場景下，微調(diào)后的 LLMs 無法從示例中學習（表 4）。

從實驗結果可以看出，開源 LLMs 在 Text-to-SQ 任務中具有一定的潛力，尤其是在監(jiān)督微調(diào)后，其性能在零樣本場景下有明顯提升，能夠與一些非開源的 LLMs 相媲美。然而，少樣本場景下的問題也不容忽視，這可能需要進一步研究如何更好地利用示例信息，或者探索更合適的微調(diào)方法來解決。

4.4.2 標記效率實驗探討

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區(qū)

強調(diào)了標記效率在 Text-to-SQ 任務中的重要性，并對不同表示方法和組織策略進行了標記效率的實驗（圖 7）。在零樣本場景下，外鍵相關的提示在提高執(zhí)行準確率的同時可能會消耗更多的標記。在少樣本場景下，F(xiàn)I??組織方式效率較低，DAIL??在準確性和效率方面優(yōu)于 SO??和 FI??。與其他先進的 Text-to-SQ 方法相比，DAIL - SQL 在準確性和效率上表現(xiàn)更優(yōu)。對于開源 LLMs，微調(diào)后的 LLMs 標記效率有所提高，但添加示例可能會降低效率。

標記效率的研究為實際應用提供了重要的參考。在實際使用 LLMs 進行 Text-to-SQ 任務時，需要考慮如何在保證性能的前提下，盡可能地減少標記的使用，以提高效率和降低成本。DAIL - SQL 在這方面表現(xiàn)出了優(yōu)勢，為未來的研究和應用提供了一個良好的方向。

5.討論

5.1 問題表示建議

推薦使用代碼表示提示（CR??）和 OpenAI 演示提示（OD??），因為它們在實驗中表現(xiàn)出較好的性能。同時，外鍵和規(guī)則暗示等信息對于問題表示也非常有幫助，可以進一步提高性能。在實際應用中，可以根據(jù)具體的 LLM 和任務需求，靈活選擇和組合這些方法，以達到最佳的效果。

5.2 示例選擇要點

強調(diào)在示例選擇中應同時考慮自然語言問題和 SQL 查詢的相似性，這是設計有效示例選擇策略的關鍵因素。通過實驗證明，同時考慮這兩個因素的 DAIL??策略在大多數(shù)情況下優(yōu)于其他策略。未來的研究可以進一步探索如何更準確地衡量和利用這種相似性，以提高示例選擇的質(zhì)量。

5.3 示例組織策略

根據(jù)所采用的 LLM 的能力來選擇示例組織策略。如果 LLM 足夠強大，如 GPT - 4，呈現(xiàn)問題和 SQL 查詢對是一種有效且高效的選擇；否則，呈現(xiàn)全信息示例可能更為合適。這一結論為不同能力的 LLMs 在處理 Text-to-SQ 任務時提供了一種實用的指導原則，有助于提高任務的處理效率和效果。

5.4 開源 LLM 的思考

指出擁有更多參數(shù)的 LLMs 對 Text-to-SQ 任務有益，但訓練語料在其中起著更為關鍵的作用。監(jiān)督微調(diào)對于開源 LLMs 在 Text-to-SQ 任務中具有必要性且有很大的潛力。未來的研究可以進一步探索如何更好地利用監(jiān)督微調(diào)技術，提高開源 LLMs 的性能，同時也需要關注訓練語料的質(zhì)量和多樣性，以充分發(fā)揮 LLMs 的潛力。

5.5 研究局限性分析

由于資源有限，只測試了兩種規(guī)則暗示，未來可以進一步探索更多規(guī)則暗示以提高性能。只使用了 Spider 訓練集對開源 LLMs 進行微調(diào)，額外的 Text-to-SQ 數(shù)據(jù)可能會進一步增強 LLMs。Spider 和 Spider - Realistic 中的數(shù)據(jù)庫可能不夠大，在面對大量表的 Text-to-SQ 任務時可能會出現(xiàn)新的挑戰(zhàn)。當前的評估指標優(yōu)先考慮正確性而非效率，未來可以進一步研究如何促使 LLM 生成高效的 SQL 查詢。

這些局限性為未來的研究指明了方向。研究人員可以在規(guī)則暗示、數(shù)據(jù)使用、數(shù)據(jù)庫規(guī)模和評估指標等方面進行進一步的探索和改進，以推動 Text-to-SQ 技術的不斷發(fā)展。

6.結論

6.1 研究總結

本文對基于 LLM 的 Text-to-SQ 任務進行了系統(tǒng)的研究。通過對現(xiàn)有提示工程方法的系統(tǒng)比較，提出了一種新的集成解決方案 DAIL - SQL，該方案在 Spider 排行榜上取得了 86.6% 的執(zhí)行準確率，刷新了紀錄。在問題表示方面，深入研究了不同的表示方法及其組成部分對性能的影響；在上下文學習方面，提出了 DAIL - SQL 的示例選擇和組織方法，強調(diào)了同時考慮問題和查詢的重要性；在監(jiān)督微調(diào)方面，展示了開源 LLMs 在 Text-to-SQ 任務中的潛力，同時也指出了微調(diào)后可能出現(xiàn)的問題，如在少樣本場景下無法從示例中學習。此外，還強調(diào)了標記效率在提示工程中的重要性，并通過實驗證明了 DAIL - SQL 在準確性和效率方面的優(yōu)勢。

6.2 未來研究方向

然而，本文也存在一些局限性，未來的研究可以進一步探索更多規(guī)則暗示、使用更多的 Text-to-SQ 數(shù)據(jù)、應對更大規(guī)模的數(shù)據(jù)庫以及優(yōu)化評估指標以提高 Text-to-SQ 任務的性能。這些方向?qū)⒂兄谶M一步完善 Text-to-SQ 技術，使其在實際應用中發(fā)揮更大的作用。

總之，本文為 Text-to-SQ 任務的進一步研究提供了全面的理論基礎和實踐指導，希望能夠激發(fā)更多的研究人員關注和參與到這一領域的研究中來，共同推動 Text-to-SQ 技術的不斷發(fā)展。

論文地址：https://arxiv.org/pdf/2308.15363

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

代碼地址：https://github.com/BeachWang/DAIL-SQL

原文鏈接：https://www.yuque.com/u21774036/qnmlr1/ilxxsoh26grbafe4

本文轉(zhuǎn)載自????AIGC前沿技術追蹤????，作者：AIGC前沿技術追蹤

標簽

贊

收藏

回復

舉報

回復

相關推薦

語言模型安全評估新標桿：SALAD-Bench全面安全評估新基準

kcoufee ? 6851瀏覽 ? 0回復
大模型與數(shù)據(jù)分析：探索Text-to-SQL

pangguiyu ? 1.2w瀏覽 ? 0回復
長文本殺不死RAG：SQL+向量驅(qū)動大模型和大數(shù)據(jù)新范式，MyScale AI數(shù)據(jù)庫正式開源

輕薄滴假象 ? 5004瀏覽 ? 0回復
CLUSTERLLM：將大型語言模型作為文本聚類的指南

AIRoobt ? 6613瀏覽 ? 0回復
使用“反事實任務”評估大型語言模型

lintoms ? 4577瀏覽 ? 0回復
基于Llama 3和LangChain，使用自然語言進行SQL查詢

小虎哦哦 ? 6473瀏覽 ? 0回復
從弱模型和強模型合成文本到SQL數(shù)據(jù)

sbf_2000 ? 5061瀏覽 ? 0回復
一篇大模型NL2SQL全棧技術最新綜述

PaperAgent ? 9410瀏覽 ? 0回復
大語言模型評估基準數(shù)據(jù)泄露問題分析報告

芝士AI吃魚 ? 4381瀏覽 ? 0回復
Text2SQL 新一代解決方案Tool-SQL，基于LLM和Agent智能體實現(xiàn)，效果提升顯著

AI博物院 ? 8579瀏覽 ? 0回復
DB-GPT-Hub:text2sql的微調(diào)框架及基準測試套件

大模型自然語言處理 ? 4382瀏覽 ? 0回復
阿里巴巴研究院推出 XiYan-SQL：用于Text-to-SQL的多生成器集成人工智能框架

Halo咯咯 ? 1.1w瀏覽 ? 0回復
低資源場景下Text2SQL方法

大模型自然語言處理 ? 3296瀏覽 ? 0回復
淺看大模型用于Text2SQL的綜述

大模型自然語言處理 ? 4959瀏覽 ? 0回復
使用 LlamaFactory 結合開源大語言模型實現(xiàn)文本分類：從數(shù)據(jù)集構建到 LoRA 微調(diào)與推理評估

AI悠閑區(qū) ? 9839瀏覽 ? 0回復
小模型借 FEATHER-SQL，在 NL2SQL 領域掀翻天

AIGC前沿技術追蹤 ? 3729瀏覽 ? 0回復
大語言模型增強的文本到 SQL 生成：綜述

AIGC前沿技術追蹤 ? 4011瀏覽 ? 0回復
NL2SQL新突破：SQL-R1用強化學習打破傳統(tǒng)局限

Halo咯咯 ? 4062瀏覽 ? 0回復
技術前沿：CHASE-SQL與XiYan-SQL，解鎖自然語言與數(shù)據(jù)庫對話的奧秘！

Halo咯咯 ? 4622瀏覽 ? 0回復

AIGC前沿技術追蹤

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

Xiaomi MiMo：為“推理而生” 2025-05-09 06:13:52發(fā)布
綜述：基于LLM的數(shù)據(jù)查詢與可視化 2025-04-25 06:03:41發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復

關于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復

上一篇： Xiaomi MiMo：為“推理而生”

社區(qū)精華內(nèi)容

目錄

<wbr id="oofkr"></wbr>

<button id="oofkr"></button>

<samp id="oofkr"></samp>

<cite id="oofkr"><source id="oofkr"></source></cite>

<tt id="oofkr"><em id="oofkr"></em></tt>