偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="voaet"></center>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”，讓語言模型不只是生成代碼！原創(chuàng) 精華

發(fā)布于 2025-6-4 09:02

瀏覽

0收藏

在人工智能的世界里，語言模型的智能程度越來越高，但如何讓它們真正理解并解釋自己的決策過程，依然是一個難題。今天，我們來聊聊一個非常有趣的話題：如何通過一種名為 GRPO（Guided Reward Policy Optimization，引導(dǎo)式獎勵策略優(yōu)化）的技術(shù)，將一個普通的 7B 參數(shù)語言模型（Qwen2.5-Coder-7B-Instruct）變成一個能夠進(jìn)行結(jié)構(gòu)化推理的 Text-to-SQL 模型。

為什么 GRPO 是 Text-to-SQL 的完美選擇？

如果你對 AI 領(lǐng)域有所關(guān)注，可能已經(jīng)聽說過 GRPO。這是 DeepSeek 提出的一種強(qiáng)化學(xué)習(xí)技術(shù)，主要用于訓(xùn)練推理模型。而 Text-to-SQL 任務(wù)，簡直就是為 GRPO 量身定制的！

推理的重要性：SQL 不僅僅是語法

SQL 是一種結(jié)構(gòu)化的邏輯語言，而不是簡單的語法組合。通過 GRPO，模型被鼓勵解釋為什么選擇某些表、連接或過濾條件，從而讓模型像人類分析師一樣“思考”，更貼近用戶的真實(shí)意圖。比如，當(dāng)你問“上個月活躍用戶是誰”時，模型不能簡單地返回 ??SELECT * FROM users??，而是要解釋清楚為什么這么寫。

捕捉“沉默的錯誤”

沒有推理的模型可能會犯一些很微妙的錯誤。比如，問題明明是“上個月活躍用戶”，結(jié)果模型返回了一個看似正確的 SQL，但其實(shí)并沒有考慮到時間范圍。GRPO 的雙重獎勵系統(tǒng)（推理 + SQL）可以早期發(fā)現(xiàn)這些不匹配的問題。

小模型也需要“扶手”

對于像 7B 這樣的小模型來說，復(fù)雜的邏輯是一個巨大的挑戰(zhàn)。GRPO 就像是給模型裝上了“扶手”，通過獎勵連貫的逐步推理，懲罰不合理的輸出，即使 SQL 看起來沒問題，也能確保模型的邏輯是合理的。

透明性建立信任

如果模型能寫出“我使用了‘購買’表，因?yàn)閱栴}問的是銷售情況”，那么調(diào)試和驗(yàn)證就會變得容易得多。GRPO 把這種清晰性直接融入了訓(xùn)練過程。

如何設(shè)計(jì)獎勵函數(shù)？

Text-to-SQL 推理的挑戰(zhàn)在于如何創(chuàng)建有效的獎勵函數(shù)，既能評估解釋的質(zhì)量，又能確保生成的 SQL 是準(zhǔn)確的。為此，我們設(shè)計(jì)了多部分獎勵函數(shù)，每部分都捕捉模型行為的一個關(guān)鍵方面。這些獎勵函數(shù)被用于通過 Unsloth 框架對 7B 模型進(jìn)行微調(diào)。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”，讓語言模型不只是生成代碼！-AI.x社區(qū)

獎勵函數(shù)詳解

格式獎勵（soft_format_reward_func）：權(quán)重 1.0。這個簡單的函數(shù)檢查輸出是否符合??<reasoning>...</reasoning><sql>...</sql>?? 的格式。如果匹配，返回完整的格式獎勵權(quán)重（默認(rèn) 1.0），否則為 0。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”，讓語言模型不只是生成代碼！-AI.x社區(qū)

復(fù)雜度獎勵（complexity_reward）：權(quán)重 0.6。這個獎勵確保生成的 SQL 的復(fù)雜度與標(biāo)準(zhǔn)答案（gold SQL）一致，避免過于簡單或過于復(fù)雜。如果沒有標(biāo)準(zhǔn)答案，復(fù)雜度在 [1.5, 8.0] 范圍內(nèi)得 0.4 倍權(quán)重，否則得 0.1 倍權(quán)重。如果有標(biāo)準(zhǔn)答案，則使用高斯相似性計(jì)算，基于復(fù)雜度比值的對數(shù)。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”，讓語言模型不只是生成代碼！-AI.x社區(qū)

推理質(zhì)量獎勵（reasoning_quality_reward）：權(quán)重 0.7。這個獎勵函數(shù)評估模型生成的推理部分的質(zhì)量，使用一系列啟發(fā)式規(guī)則來反映人類的分析性思維。獎勵由多個組件分?jǐn)?shù)組成，包括推理長度、SQL 術(shù)語使用、結(jié)構(gòu)清晰度、步驟指示和模式提及等。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”，讓語言模型不只是生成代碼！-AI.x社區(qū)

執(zhí)行查詢獎勵（execute_query_reward_func）：權(quán)重 1.2。這是最重要的獎勵，測試生成的 SQL 是否能夠?qū)嶋H運(yùn)行并產(chǎn)生正確的結(jié)果。對于 SELECT 語句，如果執(zhí)行成功得 0.3 倍權(quán)重，結(jié)果完全匹配得滿分。對于部分匹配，使用 Jaccard 相似性計(jì)算。對于 DML 語句（INSERT、UPDATE、DELETE），成功執(zhí)行得 0.5 倍權(quán)重，需要大小寫修正得 0.4 倍權(quán)重。

在 GRPO 訓(xùn)練中實(shí)現(xiàn)這些獎勵函數(shù)

以下是使用 Unsloth 設(shè)置這些獎勵函數(shù)的代碼示例：

from trl import GRPOConfig, GRPOTrainer

# 配置訓(xùn)練參數(shù)
training_args = GRPOConfig(
    use_vllm=True,
    learning_rate=5e-6,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=1,
    num_generatinotallow=8,
    max_prompt_length=256,
    max_completion_length=200,
    max_steps=250,
    output_dir="outputs",
    ...
)

trainer = GRPOTrainer(
    model=model,
    processing_class=tokenizer,
    reward_funcs=[
        soft_format_reward_func,
        execute_query_reward_func,
        reasoning_quality_reward,
        complexity_reward,
    ],
    args=training_args,
    train_dataset=dataset,
)

trainer.train()

系統(tǒng)提示應(yīng)該明確指示模型使用推理：

你是一個將自然語言問題轉(zhuǎn)換為 SQL 查詢的 AI 助手。
給定數(shù)據(jù)庫模式和一個問題，生成正確的 SQL 查詢。

請嚴(yán)格按照以下格式回答，包括 <reasoning> 和 <sql> 標(biāo)簽：
<reasoning>
逐步思考以理解數(shù)據(jù)庫模式和問題。
識別必要的表、列、連接和條件。
解釋構(gòu)建 SQL 查詢的邏輯。
</reasoning>
<sql>
-- 你的 SQL 查詢
</sql>

評估獎勵系統(tǒng)的有效性

為了評估這些多維度獎勵函數(shù)的效果，我們使用了 LLM-as-a-Judge 方法，讓 GPT-4o-mini 作為專家評委，對微調(diào)后的模型在 SQL 準(zhǔn)確性和推理質(zhì)量上進(jìn)行評估。

評估數(shù)據(jù)集包含 50 個隨機(jī)選擇的示例，評估維度包括四個關(guān)鍵方面，評分范圍為 1-5：

SQL 準(zhǔn)確性：生成的 SQL 是否準(zhǔn)確有效？
推理質(zhì)量：推理是否清晰、邏輯合理且引用了正確的模式？
格式遵循：是否遵循??<reasoning>...</reasoning><sql>...</sql>?? 的格式？
教育價值：是否有助于學(xué)習(xí) SQL 概念？

評估提示如下：

作為一名 SQL 專家，請?jiān)u估以下文本到 SQL 的轉(zhuǎn)換。每個維度的評分范圍為 1-5（1=差，5=優(yōu)秀）。

數(shù)據(jù)庫模式：
{sample['sql_context']}

問題：
{sample['sql_prompt']}

標(biāo)準(zhǔn) SQL（正確）：
{sample['sql']}

模型輸出：
{sample['model_output']}

請按照以下格式提供評分：
SQL_SCORE: [1-5] - SQL 是否有效并產(chǎn)生正確結(jié)果？
REASONING_SCORE: [1-5] - 推理是否清晰、邏輯合理且引用了正確的模式？
FORMAT_SCORE: [1-5] - 是否遵循 <reasoning>...</reasoning><sql>...</sql> 格式？
EDUCATIONAL_SCORE: [1-5] - 是否有助于學(xué)習(xí) SQL？
OVERALL_SCORE: [平均分]
EXPLANATION: [簡要說明優(yōu)缺點(diǎn)]
ERROR_TYPE: [none/syntax/logic/format/other]

評估結(jié)果

經(jīng)過微調(diào)的 Qwen2.5-Coder-7B-Instruct 模型在僅使用 300 個示例進(jìn)行訓(xùn)練、250 步訓(xùn)練后，取得了令人滿意的結(jié)果：

SQL 準(zhǔn)確性：44/50 的輸出得分在 4 或 5 分，表現(xiàn)出色。
推理質(zhì)量：48/50 的輸出得分在 4 或 5 分，推理清晰且邏輯合理。
格式遵循：49/50 的輸出得分達(dá)到 5 分，格式幾乎完美。
教育價值：模型輸出對學(xué)習(xí) SQL 概念有明顯幫助。

總體來看，88% 的輸出得分在 4.0 或以上，顯示出模型在結(jié)構(gòu)化推理和可解釋性方面的一致性和可靠性。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”，讓語言模型不只是生成代碼！-AI.x社區(qū)

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”，讓語言模型不只是生成代碼！-AI.x社區(qū)

結(jié)語

通過推理獎勵函數(shù)，模型在微調(diào)過程中表現(xiàn)出了可靠的性能和一致的結(jié)果。你可以探索完整的實(shí)現(xiàn)代碼，并親自嘗試。源代碼已經(jīng)開源，可以在 GitHub 上找到。

參考

??https://github.com/yai333/Text-to-SQL-GRPO-Fine-tuning-Pipeline/tree/main??

本文轉(zhuǎn)載自??Halo咯咯?? 作者：基咯咯

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-6-4 09:02:52修改

贊

收藏

回復(fù)

舉報

社區(qū)頭條

熱門內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

大模型與數(shù)據(jù)分析：探索Text-to-SQL

pangguiyu ? 9326瀏覽 ? 0回復(fù)
騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

輕薄滴假象 ? 3939瀏覽 ? 0回復(fù)
用神經(jīng)架構(gòu)搜索給LLM瘦身，模型變小，準(zhǔn)確度有時反而更高

輕薄滴假象 ? 2409瀏覽 ? 0回復(fù)
突破大語言模型的邏輯瓶頸：Logic-of-Thought方法讓LLM更懂"推理" | 用外部數(shù)據(jù)增強(qiáng)大語言模型：RAG全面解

sbf_2000 ? 4259瀏覽 ? 0回復(fù)
不只是更快：Ministral 3B和8B如何保障您的數(shù)據(jù)安全與隱私？

Halo咯咯 ? 2212瀏覽 ? 0回復(fù)
StaR ｜用少量推理數(shù)據(jù)讓模型學(xué)會通用推理能力，顯著提升模型復(fù)雜推理

arnoldzhw ? 3458瀏覽 ? 0回復(fù)
Text2SQL 新一代解決方案Tool-SQL，基于LLM和Agent智能體實(shí)現(xiàn)，效果提升顯著

AI博物院 ? 6130瀏覽 ? 0回復(fù)
阿里巴巴研究院推出 XiYan-SQL：用于Text-to-SQL的多生成器集成人工智能框架

Halo咯咯 ? 8128瀏覽 ? 0回復(fù)
低資源場景下Text2SQL方法

大模型自然語言處理 ? 2362瀏覽 ? 0回復(fù)
淺看大模型用于Text2SQL的綜述

大模型自然語言處理 ? 3601瀏覽 ? 0回復(fù)
多智能體微調(diào)：用多樣化推理鏈實(shí)現(xiàn)語言模型的自我提升

sbf_2000 ? 2815瀏覽 ? 0回復(fù)
從PPO到GRPO：算力減半的大模型推理能力訓(xùn)練革命

Baihai_IDP ? 4997瀏覽 ? 0回復(fù)
別再跟SQL死磕啦！WrenAI讓你用說話就能查數(shù)據(jù)

穿越時空111 ? 4722瀏覽 ? 0回復(fù)
基于 DeepSeek GRPO 的 1.5B Rust 代碼生成模型訓(xùn)練實(shí)戰(zhàn)

Baihai_IDP ? 1461瀏覽 ? 0回復(fù)
大語言模型增強(qiáng)的文本到 SQL 生成：綜述

AIGC前沿技術(shù)追蹤 ? 2309瀏覽 ? 0回復(fù)
給 Cursor 也裝上 Memory Bank，節(jié)省包月請求，提高代碼一致性

凝固的雨_1 ? 1382瀏覽 ? 0回復(fù)
最強(qiáng)編程模型Claude 4 發(fā)布！7小時編程封王，AI下一站：不只是工具

算家計(jì)算 ? 853瀏覽 ? 0回復(fù)
Graph-Reward-SQL: 字節(jié)跳動新框架讓Text-to-SQL訓(xùn)練效率提升10倍

大語言模型論文跟蹤 ? 1130瀏覽 ? 0回復(fù)
給大模型裝上"認(rèn)知工具"，數(shù)學(xué)推理能力直接起飛

sbf_2000 ? 375瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多模態(tài)大語言模型：從視覺故事到技術(shù)核心 2天前發(fā)布
SmolVLA來襲：用“小模型”解鎖高效機(jī)器人控制 2天前發(fā)布

熱門推薦

LLaMA 4深度解析：多模態(tài)、長文本與高效推理，AI模型的“全能戰(zhàn)士”誕生了！ 0回復(fù)

2025年必備的八種AI模型：別再把所有AI都叫LLM了！ 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

上一篇： CoT-RAG：用知識圖譜和智能檢索修復(fù)大語言模型推理的缺陷

下一篇： RAG系統(tǒng)中的“守門人”：重排器的奧秘與選擇

社區(qū)精華內(nèi)容

目錄

<nobr id="6gwom"></nobr><del id="6gwom"><b id="6gwom"></b></del><nobr id="6gwom"><listing id="6gwom"><cite id="6gwom"></cite></listing></nobr>

<nav id="6gwom"><strong id="6gwom"><dl id="6gwom"></dl></strong></nav><meter id="6gwom"><samp id="6gwom"></samp></meter><abbr id="6gwom"></abbr>

<tt id="6gwom"></tt>