偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

記憶牢籠還是概括之路?上海交通大學(xué)與加州大學(xué)圣地亞哥分校聯(lián)合團(tuán)隊(duì)破解大模型代碼生成謎題

發(fā)布于 2025-3-14 00:16
瀏覽
0收藏

在充滿挑戰(zhàn)與機(jī)遇的人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models, LLMs)已經(jīng)在多個(gè)場(chǎng)景中展現(xiàn)了驚人的潛力。從語(yǔ)言生成到機(jī)器翻譯,這些模型不斷突破界限。而在軟件開(kāi)發(fā)這一專業(yè)化領(lǐng)域,它們似乎成為了一種理想的助手——幫助程序員從自然語(yǔ)言描述中生成代碼,或通過(guò)提示優(yōu)化現(xiàn)有程序。然而,盡管模型的能力令人驚嘆,它們也面臨著不可忽視的問(wèn)題:是否能真正理解編程邏輯,還是僅僅在“記住”和“復(fù)述”?

來(lái)自上海交通大學(xué)與加州大學(xué)圣地亞哥分校聯(lián)合研究團(tuán)隊(duì)敏銳地捕捉到這一點(diǎn)。他們發(fā)現(xiàn),盡管LLMs在面對(duì)“原始問(wèn)題”時(shí)能夠生成正確答案,但在面對(duì)這些問(wèn)題的“變體”時(shí),表現(xiàn)往往顯著下降。這種現(xiàn)象被稱為“記憶化”(memorization)。問(wèn)題在于,這種記憶化現(xiàn)象可能意味著模型只是簡(jiǎn)單地記住了訓(xùn)練中見(jiàn)過(guò)的例子,而非真正掌握了解決問(wèn)題的能力。當(dāng)問(wèn)題稍作修改時(shí),例如換一種措辭表達(dá),或者稍微調(diào)整邏輯結(jié)構(gòu),模型的回答會(huì)暴露出缺乏泛化能力的短板。這個(gè)矛盾便是“記憶”與“概括”之間的對(duì)立。

3 月 5 日,他們發(fā)表的論文《《Memorize or Generalize? Evaluating LLM Code Generation with Evolved Questions》》直擊問(wèn)題核心——模型究竟是在復(fù)述訓(xùn)練數(shù)據(jù),還是掌握了真正的理解與推理?從語(yǔ)義層面,“記憶”指的是模型復(fù)現(xiàn)訓(xùn)練時(shí)遇到的具體例子,而“概括”則意味著能夠超越訓(xùn)練數(shù)據(jù)范圍,將已知知識(shí)應(yīng)用到新情況中。尤其在代碼生成領(lǐng)域,這兩種能力的平衡顯得尤為重要。代碼生成不僅要求模型能夠正確輸出程序,還需要它對(duì)多變的需求表述具備靈活適應(yīng)的能力。

這一工作的研究團(tuán)隊(duì)堪稱學(xué)界與技術(shù)界的強(qiáng)強(qiáng)聯(lián)合。來(lái)自上海交通大學(xué)的Wentao Chen,以及加州大學(xué)圣地亞哥分校的Lizhe Zhang, Li Zhong, Letian Peng, Zilong Wang, Jingbo Shang,攜手聚焦于代碼生成任務(wù)中的核心難題。他們以深厚的技術(shù)積累和創(chuàng)新視角,提出了一種名為“多層次進(jìn)化框架”的方法。這一框架通過(guò)對(duì)問(wèn)題進(jìn)行突變、改寫和代碼重寫,從多個(gè)層次模擬了現(xiàn)實(shí)中可能發(fā)生的變體場(chǎng)景,檢驗(yàn)?zāi)P蛻?yīng)對(duì)能力。同時(shí)他們引入了“記憶化評(píng)分”這一全新指標(biāo),結(jié)合代碼的準(zhǔn)確性和結(jié)構(gòu)相似性,量化模型的記憶化水平。

研究不僅揭示了專注代碼生成的LLMs(如Qwen2.5-Coder-7B)在原始任務(wù)上的優(yōu)異表現(xiàn)和在變體任務(wù)上的顯著下滑,還分析了現(xiàn)有緩解記憶化問(wèn)題的方法,如監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)和問(wèn)題翻譯。這些嘗試的成效與局限,為未來(lái)的技術(shù)改進(jìn)指明了方向。通過(guò)這一研究,團(tuán)隊(duì)為理解LLMs在面對(duì)變體問(wèn)題時(shí)的能力缺陷提供了新的視角,也為更健壯、更泛化的模型設(shè)計(jì)奠定了基礎(chǔ)。

背景與問(wèn)題概述

傳統(tǒng)的代碼生成評(píng)估方法通常集中在測(cè)試功能正確性上,即通過(guò)運(yùn)行代碼來(lái)驗(yàn)證其是否滿足問(wèn)題描述中的功能要求。這種方法固然能檢驗(yàn)代碼的表面有效性,卻無(wú)法揭示模型生成代碼時(shí)所依賴的潛在機(jī)制。換言之,傳統(tǒng)評(píng)估并不區(qū)分模型是通過(guò)“真正理解”問(wèn)題邏輯生成解答,還是簡(jiǎn)單地“記住”了訓(xùn)練數(shù)據(jù)中的實(shí)例。尤其在代碼生成這一高度結(jié)構(gòu)化的領(lǐng)域,僅憑記憶訓(xùn)練示例可能會(huì)導(dǎo)致模型的泛化能力薄弱,難以應(yīng)對(duì)略微變動(dòng)的問(wèn)題。

記憶化(memorization)這一現(xiàn)象在LLMs中表現(xiàn)得尤為明顯。當(dāng)模型面對(duì)訓(xùn)練中見(jiàn)過(guò)的類似問(wèn)題時(shí),往往能給出高準(zhǔn)確率的答案;然而當(dāng)問(wèn)題稍作變化,例如文本結(jié)構(gòu)發(fā)生改變、句子用詞被替換,甚至輸入代碼邏輯被調(diào)整,模型的表現(xiàn)便會(huì)顯著下降。這種差異揭示出模型在訓(xùn)練后階段傾向于直接復(fù)述“記住”的信息,而非基于對(duì)問(wèn)題邏輯的深層推理解決任務(wù)。這種現(xiàn)象不僅限制了模型在實(shí)際場(chǎng)景中的靈活性,也暴露出現(xiàn)有評(píng)估方法的短板。

研究團(tuán)隊(duì)敏銳地意識(shí)到這一點(diǎn),并提出了一個(gè)關(guān)鍵的問(wèn)題:如何科學(xué)地設(shè)計(jì)評(píng)估機(jī)制,區(qū)分模型的“記憶”與“真正理解”?換言之,當(dāng)模型生成代碼時(shí),如何判斷其是通過(guò)深刻的邏輯推理得出解答,還是單純地重現(xiàn)了訓(xùn)練集中學(xué)到的模式?

為了解決這一問(wèn)題,團(tuán)隊(duì)創(chuàng)新性地提出了“進(jìn)化問(wèn)題”(Evolved Questions)的概念。這種方法通過(guò)構(gòu)建問(wèn)題的變體,模擬實(shí)際中用戶對(duì)代碼需求的多樣性與復(fù)雜性。在這項(xiàng)研究中,進(jìn)化問(wèn)題通過(guò)三種策略實(shí)現(xiàn):突變(mutation)、改寫(paraphrasing)和代碼重寫(code-rewriting)。突變?cè)谖谋颈砻嬉胼p微的噪聲,例如字符錯(cuò)亂或隨機(jī)大小寫;改寫改變句子的措辭和語(yǔ)法,但保持語(yǔ)義一致;而代碼重寫則更進(jìn)一步,通過(guò)調(diào)整邏輯或結(jié)構(gòu)生成全新解答。這些變體不僅有效測(cè)試了模型的記憶化傾向,也為評(píng)估其真正的推理能力提供了全新視角。

通過(guò)進(jìn)化問(wèn)題,研究團(tuán)隊(duì)不僅揭示了現(xiàn)有模型在代碼生成任務(wù)中對(duì)記憶的依賴,更引導(dǎo)我們重新思考什么樣的能力構(gòu)成了“智能”。模型在變體問(wèn)題上的表現(xiàn)不再僅僅是技術(shù)指標(biāo)的體現(xiàn),更是理解和泛化能力的重要衡量。這一方法開(kāi)創(chuàng)了新評(píng)估思路,也為未來(lái)的模型開(kāi)發(fā)指明了方向。它讓我們意識(shí)到,真正的智能并不僅僅在于“能答”,而更在于面對(duì)變化時(shí)的“會(huì)答”。

方法學(xué):多層次進(jìn)化框架

探索大語(yǔ)言模型(LLMs)是否真正理解問(wèn)題、亦或只是機(jī)械地“復(fù)述”,需要設(shè)計(jì)出能夠剖析模型能力的創(chuàng)新性方法。研究團(tuán)隊(duì)提出了一個(gè)精妙的“多層次進(jìn)化框架”,從不同維度將測(cè)試任務(wù)轉(zhuǎn)變?yōu)槟P碗y以僅靠記憶解決的挑戰(zhàn)。這一框架的核心在于創(chuàng)造進(jìn)化問(wèn)題,通過(guò)模擬可能遇到的文本變化,檢驗(yàn)?zāi)P驮谖谋尽⒄Z(yǔ)義和代碼層面的泛化能力。

記憶牢籠還是概括之路?上海交通大學(xué)與加州大學(xué)圣地亞哥分校聯(lián)合團(tuán)隊(duì)破解大模型代碼生成謎題-AI.x社區(qū)

圖1:文本、語(yǔ)義和代碼空間中多級(jí)演化方法的工作流程。這些空間內(nèi)具有相同顏色的框共享相同的規(guī)范解決方案。變異(mut)、釋義(par)和代碼重寫(rew)分別在文本空間、語(yǔ)義空間和代碼空間中增加了噪聲。最后,它們將被映射回文本空間,作為進(jìn)化的問(wèn)題xmut、xpar、xrew。添加噪聲和映射的進(jìn)化過(guò)程都是由專業(yè)模型G(GPT-4o)進(jìn)行的,如灰色機(jī)器人所示。我們將這個(gè)框架稱為多層次進(jìn)化。

多層次進(jìn)化框架的設(shè)計(jì)建立在對(duì)自然語(yǔ)言到代碼生成過(guò)程的系統(tǒng)化理解之上。具體來(lái)說(shuō),問(wèn)題描述被映射為語(yǔ)義表示,隨后通過(guò)專業(yè)模型推理生成代碼解決方案。嵌入層 E將輸入問(wèn)題 x映射為語(yǔ)義空間中的表示 y=E(x)y = E(x),專業(yè)模型 G則基于語(yǔ)義表示生成最終代碼 z=G(y)z = G(y)。整個(gè)流程可視為從文本空間 T到代碼空間 C 的轉(zhuǎn)換:

記憶牢籠還是概括之路?上海交通大學(xué)與加州大學(xué)圣地亞哥分校聯(lián)合團(tuán)隊(duì)破解大模型代碼生成謎題-AI.x社區(qū)

在此框架下,為了測(cè)試模型能力,研究者從文本、語(yǔ)義、代碼三個(gè)層面引入不同形式的“噪聲”,構(gòu)建變體問(wèn)題。這些噪聲不僅改變了問(wèn)題的表述形式,還創(chuàng)造了多種多樣的評(píng)估角度。

記憶牢籠還是概括之路?上海交通大學(xué)與加州大學(xué)圣地亞哥分校聯(lián)合團(tuán)隊(duì)破解大模型代碼生成謎題-AI.x社區(qū)

圖2:?jiǎn)栴}翻譯過(guò)程的示意圖。每個(gè)空間內(nèi)相同顏色的內(nèi)框共享相同的規(guī)范解。我們首先要求目標(biāo)模型M(藍(lán)色機(jī)器人)基于x(Gen1)生成代碼響應(yīng)zresp,然后使用專業(yè)模型G(灰色機(jī)器人)將其翻譯回新的代碼xtrans(Trans);最后,我們要求tar模型G找出它們的差異并生成最終響應(yīng)zaug。

首先是“突變進(jìn)化”(Mutation Evolution)。這一方法在問(wèn)題的文本層面進(jìn)行微調(diào),比如通過(guò)詞語(yǔ)的重新排列、大小寫的隨機(jī)變化等操作,加入了表層噪聲。盡管文本的表述顯得凌亂,但其核心語(yǔ)義依然保持不變。這種變體旨在測(cè)試模型對(duì)表層記憶的依賴程度。一個(gè)典型案例是原問(wèn)題“編寫一個(gè)函數(shù)計(jì)算矩形面積”被改為“wrITE a fUnCTIon T0 fnid teh area oF A R3cT4nglE”。原意未變,但表述更加“混亂”,如果模型僅基于記憶生成答案,很可能會(huì)出錯(cuò)。

接下來(lái)是“改寫進(jìn)化”(Paraphrasing Evolution)。相比于突變進(jìn)化,這種方法進(jìn)一步挑戰(zhàn)模型的理解能力。改寫進(jìn)化通過(guò)改變句式和措辭,使問(wèn)題在語(yǔ)義空間內(nèi)發(fā)生輕微擾動(dòng),而語(yǔ)義本質(zhì)上仍然相同。例如“寫一個(gè)函數(shù)計(jì)算矩形的面積”可能被改寫為“創(chuàng)建一個(gè)函數(shù)以計(jì)算矩形面積”。在這種情況下,模型是否能夠在不同表達(dá)方式下仍然正確生成代碼,成為評(píng)估其泛化能力的關(guān)鍵。

最后是“代碼重寫進(jìn)化”(Code-Rewriting Evolution),這是最具挑戰(zhàn)性的一種方法。在這一層次,研究者改變了問(wèn)題所對(duì)應(yīng)代碼的邏輯和結(jié)構(gòu),生成全新的地面真值。以矩形面積計(jì)算為例,新的問(wèn)題可能要求根據(jù)矩形周長(zhǎng)和一條邊計(jì)算面積,而不是原本的兩邊長(zhǎng)。這種問(wèn)題引入了更多的邏輯復(fù)雜度,測(cè)試模型在邏輯變換下的適應(yīng)性。

為了科學(xué)量化模型的記憶化傾向,研究者提出了一種“記憶化評(píng)分”方法。這一評(píng)分不僅結(jié)合了變體任務(wù)與原始任務(wù)之間的準(zhǔn)確率差異,還分析了代碼結(jié)構(gòu)相似性(通過(guò)抽象語(yǔ)法樹(shù),AST)。具體來(lái)說(shuō),記憶化分?jǐn)?shù)由以下組成:首先,通過(guò)模型在原始問(wèn)題與突變、改寫、代碼重寫問(wèn)題中的準(zhǔn)確率差值,評(píng)估模型是否對(duì)訓(xùn)練數(shù)據(jù)依賴過(guò)重。其次,考察生成代碼與原始訓(xùn)練解答的AST相似性,揭示模型對(duì)結(jié)構(gòu)性記憶的偏好。高分?jǐn)?shù)表明模型過(guò)度依賴記憶,泛化能力較弱。

這種記憶化評(píng)分為研究提供了定量支持,而多層次進(jìn)化框架則為評(píng)估模型能力帶來(lái)了全面和深刻的視角。不再僅僅考察“能否解決問(wèn)題”,而是深入探討“如何解決問(wèn)題”,真正推動(dòng)了對(duì)LLM代碼生成能力的理解和改進(jìn)。

緩解記憶化的策略與實(shí)驗(yàn)設(shè)計(jì)

要解決大語(yǔ)言模型(LLMs)在代碼生成任務(wù)中的記憶化問(wèn)題,研究團(tuán)隊(duì)探索了幾種緩解策略,并設(shè)計(jì)了周密的實(shí)驗(yàn)進(jìn)行評(píng)估。這些方法不僅嘗試降低模型對(duì)訓(xùn)練數(shù)據(jù)的依賴,還旨在增強(qiáng)其對(duì)變體問(wèn)題的泛化能力。在理論和實(shí)踐層面,這些策略都具有很大的啟發(fā)意義。

首先,從監(jiān)督微調(diào)(Supervised Fine-Tuning)出發(fā),研究者提出了一種利用數(shù)據(jù)集組合的方法。這里的數(shù)據(jù)集分為“代碼重寫數(shù)據(jù)集”和“半原始數(shù)據(jù)集”。在前者中,模型完全基于變體問(wèn)題訓(xùn)練,而后者則是在保留一部分原始問(wèn)題的基礎(chǔ)上添加代碼重寫問(wèn)題。這種訓(xùn)練策略的設(shè)計(jì)意圖在于平衡模型對(duì)原始數(shù)據(jù)集和變體任務(wù)的適應(yīng)能力。然而,盡管監(jiān)督微調(diào)能夠提升模型在原始任務(wù)上的表現(xiàn),但卻未能有效緩解記憶化問(wèn)題。實(shí)驗(yàn)表明,模型往往仍傾向于記憶原始問(wèn)題解答,且在應(yīng)對(duì)代碼重寫任務(wù)時(shí)表現(xiàn)出顯著下降。

相比之下,強(qiáng)化學(xué)習(xí)(Reinforcement Learning)提供了一種更為直接的優(yōu)化方式。在實(shí)驗(yàn)中,研究者采用了直接偏好優(yōu)化(DPO)這一技術(shù)。DPO通過(guò)定義“贏家”和“輸家”的標(biāo)簽來(lái)引導(dǎo)模型決策,其中代碼重寫數(shù)據(jù)集的解答被標(biāo)記為“贏家”,原始數(shù)據(jù)集的解答則為“輸家”。這種方式避免了記憶化傾向,但也伴隨著原始數(shù)據(jù)集性能的顯著下降。研究團(tuán)隊(duì)指出,這可能是因?yàn)镈PO過(guò)于偏向代碼重寫問(wèn)題,而忽視了原始問(wèn)題的整體重要性。

另一項(xiàng)創(chuàng)新策略是問(wèn)題翻譯(Problem Translation)。這一策略通過(guò)逆向映射的方式,讓模型以不同的視角看待原始問(wèn)題。在實(shí)踐中,研究者首先讓模型生成原始問(wèn)題的解答,然后利用專業(yè)模型將這一解答翻譯成新的問(wèn)題描述,最后結(jié)合原始問(wèn)題與翻譯后問(wèn)題的差異生成最終解答。這種方法的核心思想在于幫助模型理解語(yǔ)義空間與代碼邏輯之間的偏差。然而,問(wèn)題翻譯并非完美——專業(yè)模型的翻譯可能存在誤差,而錯(cuò)誤的差異可能會(huì)進(jìn)一步增加問(wèn)題的復(fù)雜性甚至誤導(dǎo)目標(biāo)模型。

為了驗(yàn)證這些策略的有效性,研究團(tuán)隊(duì)選擇了MBPP-Plus數(shù)據(jù)集作為實(shí)驗(yàn)的基礎(chǔ)。這一數(shù)據(jù)集是原始MBPP數(shù)據(jù)集的擴(kuò)展版本,不僅包含378個(gè)高質(zhì)量編程任務(wù),還顯著增加了測(cè)試用例的數(shù)量,使得評(píng)估更具魯棒性。在此基礎(chǔ)上,研究者構(gòu)建了突變、改寫和代碼重寫三種進(jìn)化數(shù)據(jù)集。例如,突變數(shù)據(jù)集通過(guò)引入文本表面噪聲模擬真實(shí)場(chǎng)景下的輸入變化;改寫數(shù)據(jù)集則通過(guò)改變語(yǔ)句的措辭與結(jié)構(gòu)實(shí)現(xiàn)語(yǔ)義擾動(dòng);代碼重寫數(shù)據(jù)集更是直接改變代碼邏輯以測(cè)試模型對(duì)復(fù)雜問(wèn)題的適應(yīng)能力。

記憶牢籠還是概括之路?上海交通大學(xué)與加州大學(xué)圣地亞哥分校聯(lián)合團(tuán)隊(duì)破解大模型代碼生成謎題-AI.x社區(qū)

圖3:Qwen2.5-Coder-7B在訓(xùn)練數(shù)據(jù)集上微調(diào)時(shí)的損耗曲線。我們可以發(fā)現(xiàn),評(píng)估損失在歷元20(紅線)開(kāi)始顯著增加,這表示LLM開(kāi)始在訓(xùn)練數(shù)據(jù)集上過(guò)度擬合。記憶可分為早期(紅線前)和晚期(紅線后)記憶。考慮到后期記憶和過(guò)擬合之間的相似效應(yīng),我們探索了過(guò)擬合之前的早期記憶。

實(shí)驗(yàn)過(guò)程中,研究團(tuán)隊(duì)采用了Qwen2.5系列和Llama系列作為研究對(duì)象,其中包括Qwen2.5-Coder-7B和Llama-3.1-8B等模型。這些模型在八塊NVIDIA A100 GPU上運(yùn)行,分別在突變、改寫和代碼重寫數(shù)據(jù)集上進(jìn)行性能對(duì)比分析。此外,為了保證生成任務(wù)的多樣性和穩(wěn)定性,研究團(tuán)隊(duì)巧妙地調(diào)整了模型的超參數(shù):在數(shù)據(jù)生成時(shí)提升溫度以增強(qiáng)創(chuàng)造力,而在推理階段降低溫度確保確定性。

實(shí)驗(yàn)結(jié)果與討論

實(shí)驗(yàn)展開(kāi)對(duì)大語(yǔ)言模型(LLMs)在原始問(wèn)題與變體問(wèn)題上的表現(xiàn)進(jìn)行了全面分析,揭示了模型在記憶與泛化之間的權(quán)衡。研究團(tuán)隊(duì)巧妙地通過(guò)量化準(zhǔn)確率與抽象語(yǔ)法樹(shù)(AST)相似性變化,深入剖析了記憶化現(xiàn)象的動(dòng)態(tài)演化,并檢驗(yàn)了多種緩解策略的有效性。

在性能對(duì)比分析中,團(tuán)隊(duì)選擇了Qwen2.5-Coder-7B和Llama-3.1-8B-Instruct作為研究對(duì)象。這些模型在原始問(wèn)題上的表現(xiàn)毫無(wú)懸念地較為出色,例如準(zhǔn)確率達(dá)60%到70%,部分甚至更高。然而,當(dāng)面對(duì)突變、改寫和代碼重寫等變體問(wèn)題時(shí),其表現(xiàn)開(kāi)始顯著下降。這一現(xiàn)象尤為明顯,尤其在代碼重寫任務(wù)上,一些模型的準(zhǔn)確率僅保持在40%左右。這種劇烈的波動(dòng)表明,盡管LLMs在訓(xùn)練數(shù)據(jù)集中的問(wèn)題表現(xiàn)優(yōu)異,但對(duì)于稍作調(diào)整的任務(wù)卻難以適應(yīng),過(guò)于依賴對(duì)訓(xùn)練數(shù)據(jù)的記憶而非邏輯推理。

另一個(gè)值得深究的指標(biāo)是AST相似性,這一技術(shù)從代碼結(jié)構(gòu)的角度觀察模型生成解答與標(biāo)準(zhǔn)答案的接近程度。實(shí)驗(yàn)顯示,在重寫數(shù)據(jù)集中,模型生成的代碼更傾向于重復(fù)原始任務(wù)中的模式,而不是體現(xiàn)對(duì)重寫任務(wù)邏輯的深刻理解。此外,記憶化分?jǐn)?shù)的引入進(jìn)一步揭示了模型對(duì)訓(xùn)練數(shù)據(jù)的依賴程度。該分?jǐn)?shù)綜合了準(zhǔn)確率差異和AST結(jié)構(gòu)相似性,對(duì)模型的記憶化傾向進(jìn)行量化。實(shí)驗(yàn)發(fā)現(xiàn),記憶化分?jǐn)?shù)在微調(diào)過(guò)程中會(huì)逐步上升,尤其在過(guò)擬合的后期階段表現(xiàn)顯著,說(shuō)明模型逐漸遺忘了變體問(wèn)題的泛化能力。

這一現(xiàn)象的動(dòng)態(tài)演變?cè)谖⒄{(diào)過(guò)程中尤為引人注目。早期記憶化的表現(xiàn)相對(duì)溫和,主要體現(xiàn)在模型在原始問(wèn)題上逐漸穩(wěn)定的高性能上。然而,隨著訓(xùn)練的深入,尤其在過(guò)擬合之后,模型的記憶化分?jǐn)?shù)開(kāi)始顯著增加。這表明模型逐步“沉迷”于訓(xùn)練數(shù)據(jù)中的特定模式,而忽略了變體問(wèn)題的邏輯差異。特別是對(duì)于突變和改寫問(wèn)題,盡管這些任務(wù)的標(biāo)準(zhǔn)解答與原始問(wèn)題一致,模型表現(xiàn)仍難以達(dá)到期望,進(jìn)一步凸顯其對(duì)語(yǔ)義擾動(dòng)和表面噪聲的不敏感。

針對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)評(píng)估了多種緩解策略。其中,強(qiáng)化學(xué)習(xí)的直接偏好優(yōu)化(DPO)方法在降低記憶化分?jǐn)?shù)方面效果顯著,但其代價(jià)是原始問(wèn)題性能的下降。這種權(quán)衡也體現(xiàn)在問(wèn)題翻譯方法上。問(wèn)題翻譯通過(guò)逆向映射生成新問(wèn)題,有效降低了記憶化分?jǐn)?shù),但與此同時(shí),它對(duì)訓(xùn)練數(shù)據(jù)的再現(xiàn)能力也有所削弱。兩種方法均在代碼重寫任務(wù)中展示了更高的準(zhǔn)確率,但它們?cè)诒3衷既蝿?wù)性能方面仍然存在局限性。

此外,監(jiān)督微調(diào)的方法在緩解記憶化方面的表現(xiàn)不盡如人意。盡管微調(diào)能夠提升原始數(shù)據(jù)的性能,但卻加劇了記憶化問(wèn)題。尤其是在使用“半原始數(shù)據(jù)集”時(shí),模型更傾向于記憶而非推理,記憶化分?jǐn)?shù)反而更高。這說(shuō)明,單純?cè)黾幼凅w問(wèn)題的訓(xùn)練權(quán)重并不能從根本上解決泛化問(wèn)題。

實(shí)驗(yàn)結(jié)果描繪了一幅復(fù)雜的圖景:模型的記憶化是一個(gè)動(dòng)態(tài)過(guò)程,隨著訓(xùn)練的深入逐步增強(qiáng),但其泛化能力卻在微調(diào)中受到侵蝕。盡管強(qiáng)化學(xué)習(xí)和問(wèn)題翻譯方法在一定程度上緩解了這一現(xiàn)象,但它們未能完全解決性能權(quán)衡的難題。這些發(fā)現(xiàn)不僅為未來(lái)設(shè)計(jì)更具魯棒性的大語(yǔ)言模型提供了重要參考,也為平衡記憶與概括能力的技術(shù)探索指明了方向。模型是否能夠真正脫離“記憶牢籠”,邁向更高水平的邏輯推理與理解能力,仍是值得繼續(xù)挖掘的重大課題。

案例研究

在實(shí)驗(yàn)的分析中,研究團(tuán)隊(duì)特別關(guān)注了一個(gè)直觀但深刻的案例——矩形面積計(jì)算問(wèn)題,用以揭示不同進(jìn)化方式下大語(yǔ)言模型的表現(xiàn)差異。這一案例不僅清晰地展示了模型在處理簡(jiǎn)單與變體任務(wù)時(shí)的邏輯機(jī)制,還揭示了其對(duì)問(wèn)題邏輯的潛在誤解。

案例研究從一個(gè)經(jīng)典的編程問(wèn)題展開(kāi),即“編寫一個(gè)函數(shù)計(jì)算矩形的面積”。這一原始問(wèn)題簡(jiǎn)單明了,只需通過(guò)輸入矩形的兩個(gè)邊長(zhǎng)計(jì)算面積即可。然而,在進(jìn)化框架中,研究團(tuán)隊(duì)對(duì)該問(wèn)題進(jìn)行了不同層次的變體處理。比如,通過(guò)“突變進(jìn)化”,原始問(wèn)題被改寫為“wrITE a fUnCTIon T0 fnid teh area oF A R3cT4nglE”,這種文本噪聲測(cè)試了模型是否會(huì)受困于表面表述的擾動(dòng);而通過(guò)“改寫進(jìn)化”,問(wèn)題被重新表述為“創(chuàng)建一個(gè)函數(shù)來(lái)計(jì)算矩形面積”,以考察模型對(duì)語(yǔ)義變化的適應(yīng)性。最具挑戰(zhàn)性的是“代碼重寫進(jìn)化”,要求模型通過(guò)周長(zhǎng)和一條邊的長(zhǎng)度計(jì)算矩形面積,而不是直接給出兩邊長(zhǎng)。這種邏輯上的改變旨在評(píng)估模型是否能夠真正推理新的解法。

記憶牢籠還是概括之路?上海交通大學(xué)與加州大學(xué)圣地亞哥分校聯(lián)合團(tuán)隊(duì)破解大模型代碼生成謎題-AI.x社區(qū)

圖4:一個(gè)原始數(shù)據(jù)集和三個(gè)進(jìn)化數(shù)據(jù)集上的規(guī)范解決方案。左藍(lán)框是原始數(shù)據(jù)集、變異數(shù)據(jù)集和釋義數(shù)據(jù)集的解決方案,右黃框是代碼重寫數(shù)據(jù)集的方案。紅色箭頭代表代碼重寫進(jìn)化。

當(dāng)實(shí)驗(yàn)開(kāi)始后,結(jié)果耐人尋味。在原始問(wèn)題和突變問(wèn)題上,模型均表現(xiàn)出色,生成的代碼幾乎完全相同,這表明這些任務(wù)對(duì)于模型來(lái)說(shuō)并未超出其記憶能力范圍。在應(yīng)對(duì)代碼重寫問(wèn)題時(shí),大部分模型犯了一個(gè)核心錯(cuò)誤:錯(cuò)誤地假設(shè)“周長(zhǎng)減去兩倍邊長(zhǎng)”的結(jié)果直接是另一個(gè)邊長(zhǎng),而忽略了正確答案應(yīng)為上述結(jié)果的一半。這一錯(cuò)誤反映出模型在面對(duì)邏輯變更時(shí)存在理解障礙,暴露了記憶化對(duì)任務(wù)解決的深遠(yuǎn)影響。即使是通過(guò)監(jiān)督微調(diào)訓(xùn)練的模型,其解答也未能避免這一誤區(qū),甚至有些回答直接進(jìn)行了邏輯錯(cuò)誤的面積乘積,顯得毫無(wú)意義。

記憶牢籠還是概括之路?上海交通大學(xué)與加州大學(xué)圣地亞哥分校聯(lián)合團(tuán)隊(duì)破解大模型代碼生成謎題-AI.x社區(qū)

圖5:代碼重寫問(wèn)題的響應(yīng)。紅色框代表錯(cuò)誤的響應(yīng),綠色框代表正確的響應(yīng)。左上框是基線模型和帶有原始數(shù)據(jù)集的監(jiān)督微調(diào)模型的響應(yīng),而右上框是緩解過(guò)程中帶有代碼重寫和半數(shù)據(jù)集的有監(jiān)督微調(diào)模型。底部框是翻譯和DPO模型的響應(yīng)。

除了案例研究之外,他們還詳細(xì)記錄了數(shù)據(jù)集及實(shí)驗(yàn)的構(gòu)建過(guò)程。MBPP-Plus數(shù)據(jù)集被選為實(shí)驗(yàn)的基礎(chǔ),這一數(shù)據(jù)集基于原始的MBPP任務(wù)擴(kuò)展而來(lái),囊括了378個(gè)經(jīng)過(guò)精挑細(xì)選的編程任務(wù)。相比原數(shù)據(jù)集,MBPP-Plus在每個(gè)任務(wù)上增加了大量測(cè)試用例,顯著提升了評(píng)估的可靠性。在此基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步構(gòu)建了突變、改寫和代碼重寫三種進(jìn)化數(shù)據(jù)集。突變數(shù)據(jù)集通過(guò)控制文本噪聲實(shí)現(xiàn),具體方法包括字符重排、大小寫隨機(jī)化等;改寫數(shù)據(jù)集則通過(guò)改變?nèi)蝿?wù)描述的措辭和語(yǔ)法,實(shí)現(xiàn)了在語(yǔ)義空間中的微擾動(dòng);代碼重寫數(shù)據(jù)集更復(fù)雜,需要GPT-4o重新生成具有全新邏輯結(jié)構(gòu)的解答,再生成對(duì)應(yīng)的新問(wèn)題描述。

實(shí)驗(yàn)的技術(shù)環(huán)境也值得一提。研究團(tuán)隊(duì)采用了Qwen2.5系列和Llama系列的模型,大小分別為7B和8B。這些模型在八塊NVIDIA A100 GPU上運(yùn)行,生成任務(wù)時(shí)溫度參數(shù)設(shè)置為1,以增強(qiáng)數(shù)據(jù)集的多樣性;而在推理階段,溫度被調(diào)至0,確保生成結(jié)果的確定性。這種精細(xì)的參數(shù)設(shè)置保障了實(shí)驗(yàn)結(jié)果的科學(xué)性和穩(wěn)定性。

貢獻(xiàn)與研究意義

隨著大語(yǔ)言模型(LLMs)在代碼生成領(lǐng)域中的應(yīng)用逐漸普及,我們不禁要問(wèn):它們的“聰明才智”是源于真正的理解,還是對(duì)訓(xùn)練數(shù)據(jù)的機(jī)械記憶?研究團(tuán)隊(duì)帶著這個(gè)核心問(wèn)題,不僅揭開(kāi)了模型性能背后鮮為人知的“記憶化”現(xiàn)象,還通過(guò)創(chuàng)新性的方法提供了解決這一難題的全新思路。

這項(xiàng)研究的最大貢獻(xiàn)在于建立了一套多層次進(jìn)化框架,它為L(zhǎng)LM的代碼生成能力提供了全新的評(píng)估視角。與傳統(tǒng)的評(píng)估方法不同,這一框架通過(guò)引入突變、改寫和代碼重寫三種變體問(wèn)題,不僅測(cè)試了模型對(duì)任務(wù)的理解深度,也揭示了它們對(duì)訓(xùn)練數(shù)據(jù)的過(guò)度依賴。突變問(wèn)題的表面文本噪聲挑戰(zhàn)了模型是否能跳脫表層記憶,改寫問(wèn)題的語(yǔ)義調(diào)整檢驗(yàn)了模型對(duì)不同表達(dá)方式的適應(yīng),而代碼重寫問(wèn)題則直接將問(wèn)題邏輯推向復(fù)雜化,逼迫模型展示真正的推理能力。這種分層測(cè)試手段首次系統(tǒng)地量化了模型在“記憶”與“泛化”之間的差異。

另一個(gè)重要突破是研究團(tuán)隊(duì)提出的記憶化評(píng)分指標(biāo)。傳統(tǒng)的評(píng)估往往只關(guān)注模型的準(zhǔn)確率,而這一新指標(biāo)則通過(guò)結(jié)合準(zhǔn)確性和抽象語(yǔ)法樹(shù)(AST)的相似性來(lái)全面量化模型的記憶化傾向。通過(guò)測(cè)量模型在原始任務(wù)與變體任務(wù)中的表現(xiàn)差異,這一評(píng)分揭示了模型在微調(diào)和使用過(guò)程中的潛在“記憶牢籠”。它為開(kāi)發(fā)者提供了衡量模型理解能力的重要工具,也為未來(lái)優(yōu)化算法的方向提供了科學(xué)依據(jù)。

實(shí)驗(yàn)驗(yàn)證部分更是為這些理論貢獻(xiàn)注入了實(shí)證力量。團(tuán)隊(duì)的分析表明,專注代碼生成的LLMs,如Qwen2.5-Coder-7B,確實(shí)表現(xiàn)出對(duì)記憶的強(qiáng)烈依賴——在原始數(shù)據(jù)集上的優(yōu)異成績(jī)顯然掩蓋了它們?cè)谧凅w任務(wù)上的不足。尤其是在面對(duì)需要邏輯轉(zhuǎn)換的代碼重寫任務(wù)時(shí),模型的表現(xiàn)顯得力不從心。這一發(fā)現(xiàn)不僅揭示了當(dāng)前技術(shù)的局限,也讓人更加清晰地認(rèn)識(shí)到推動(dòng)模型從“復(fù)述”到“理解”的重要性。

從更廣的視角來(lái)看,這項(xiàng)研究對(duì)代碼生成領(lǐng)域的啟示深遠(yuǎn)。數(shù)據(jù)集的設(shè)計(jì)與評(píng)測(cè)方法的創(chuàng)新意義不可忽視,通過(guò)構(gòu)建進(jìn)化問(wèn)題,研究團(tuán)隊(duì)為未來(lái)的模型評(píng)估制定了新的標(biāo)桿,指出了僅依賴簡(jiǎn)單準(zhǔn)確率評(píng)估的不足。研究讓我們更深刻地理解了提升模型泛化能力與邏輯理解的重要性。無(wú)論是應(yīng)對(duì)多樣化的用戶需求,還是解決更復(fù)雜的編程任務(wù),一個(gè)真正強(qiáng)大的模型需要擺脫對(duì)訓(xùn)練數(shù)據(jù)的依賴,培養(yǎng)出面對(duì)新問(wèn)題的“直覺(jué)”與邏輯分析能力。

這項(xiàng)工作的貢獻(xiàn)不僅在于發(fā)現(xiàn)問(wèn)題、解釋現(xiàn)象,更在于為解決這些問(wèn)題提出了實(shí)用性的工具和方法。它就像一面鏡子,照出了現(xiàn)有模型的優(yōu)劣,同時(shí)也是一盞燈,指明了未來(lái)技術(shù)發(fā)展的方向。若要讓LLMs從優(yōu)秀變得更卓越,這項(xiàng)研究無(wú)疑是邁向這一目標(biāo)的重要一步。(END)

參考資料:https://arxiv.org/abs/2503.02296

本文轉(zhuǎn)載自??獨(dú)角噬元獸??,作者: FlerkenS ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦