偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="gsnxx"></thead>

<form id="gsnxx"><optgroup id="gsnxx"></optgroup></form><tt id="gsnxx"><option id="gsnxx"></option></tt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

微軟分享三大王炸算法：突破大模型推理瓶頸，性能大漲

2025-06-18 09:06:00

人工智能新聞

今天凌晨，微軟在官網(wǎng)分享了自研的三大創(chuàng)新算法，以幫助大模型增強(qiáng)其推理能力。

今天凌晨，微軟在官網(wǎng)分享了自研的三大創(chuàng)新算法，以幫助大模型增強(qiáng)其推理能力。

無(wú)論你是小參數(shù)或者是大參數(shù)模型玩家，都能從rStar-Math、LIPS 、CPL這三大算法獲益，突破推理瓶頸，極大增強(qiáng)模型的數(shù)學(xué)推理和思考鏈的能力。

rStar-Math

rStar-Math算法主要通過(guò)蒙特卡洛樹(shù)搜索（MCTS）實(shí)現(xiàn)深度思考。MCTS 是一種用于決策過(guò)程的搜索算法，通過(guò)模擬多個(gè)可能的路徑來(lái)評(píng)估每個(gè)步驟的價(jià)值。在rStar-Math算法中，MCTS 被用來(lái)生成高質(zhì)量的推理軌跡，并通過(guò)一個(gè)基于SLM的獎(jiǎng)勵(lì)模型進(jìn)行評(píng)估。

在傳統(tǒng)的推理方法中，語(yǔ)言模型生成的自然語(yǔ)言推理軌跡往往存在錯(cuò)誤或不相關(guān)的內(nèi)容，尤其是在復(fù)雜的數(shù)學(xué)問(wèn)題中。為了解決這一問(wèn)題，rStar-Math 引入了代碼增強(qiáng)的CoT方法。大模型在生成每個(gè)推理步驟時(shí)，會(huì)同時(shí)生成對(duì)應(yīng)的 Python 代碼。

這些代碼不僅用于驗(yàn)證推理步驟的正確性，還能夠通過(guò)執(zhí)行結(jié)果來(lái)篩選出高質(zhì)量的生成內(nèi)容。只有那些 Python 代碼能夠成功執(zhí)行的生成內(nèi)容才會(huì)被保留，從而確保中間步驟的正確性。

此外，傳統(tǒng)的獎(jiǎng)勵(lì)模型訓(xùn)練中，直接使用 Q 值作為獎(jiǎng)勵(lì)標(biāo)簽是一種常見(jiàn)的方法，但這種方法存在明顯的局限性。Q 值雖然能夠反映步驟的整體質(zhì)量，但它們帶有噪聲，無(wú)法精確地評(píng)估每個(gè)步驟的優(yōu)劣。

為了解決這一難題，rStar-Math 提出了一種新的訓(xùn)練方法，通過(guò)構(gòu)建基于 Q 值的正負(fù)偏好對(duì)來(lái)訓(xùn)練PPM。對(duì)于每個(gè)推理步驟，模型會(huì)選擇 Q 值最高的兩個(gè)步驟作為正樣本，選擇 Q 值最低的兩個(gè)步驟作為負(fù)樣本。

通過(guò)這種方式，PPM 能夠?qū)W習(xí)到如何區(qū)分高質(zhì)量和低質(zhì)量的推理步驟，從而提供更準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào)。這種方法避免了直接使用 Q 值作為獎(jiǎng)勵(lì)標(biāo)簽的噪聲問(wèn)題，顯著提高了獎(jiǎng)勵(lì)模型的精度和可靠性。

論文地址：https://arxiv.org/pdf/2501.04519

rStar-Math的自我進(jìn)化方法也是其核心優(yōu)勢(shì)之一。通過(guò)四輪自我進(jìn)化，策略模型和PPM 從頭開(kāi)始逐步構(gòu)建，生成的訓(xùn)練數(shù)據(jù)質(zhì)量不斷提高，覆蓋的問(wèn)題難度也逐漸增加。

在每一輪中，使用最新的策略模型和 PPM進(jìn)行MCTS，生成高質(zhì)量的推理軌跡，并用這些軌跡訓(xùn)練更強(qiáng)的策略模型和PPM。

LIPS

LIPS算法主要用于增強(qiáng)數(shù)學(xué)推理，其核心思想是將數(shù)學(xué)證明過(guò)程中的策略分為縮放和重寫(xiě)兩大類?？s放策略通過(guò)符號(hào)工具實(shí)現(xiàn)，利用有限的不等式引理庫(kù)對(duì)當(dāng)前目標(biāo)進(jìn)行細(xì)化，而重寫(xiě)策略則由大模型負(fù)責(zé)生成，通過(guò)等價(jià)變換將問(wèn)題轉(zhuǎn)化為更易于解決的形式。

在縮放策略方面，LIPS算法通過(guò)符號(hào)工具實(shí)現(xiàn)，利用有限的不等式引理庫(kù)對(duì)當(dāng)前目標(biāo)進(jìn)行細(xì)化。例如，通過(guò)AM-GM不等式，算術(shù)平均數(shù)大于等于幾何平均數(shù)對(duì)目標(biāo)中的某些項(xiàng)進(jìn)行縮放。但縮放策略可能會(huì)引入無(wú)效的子目標(biāo)，所以需要通過(guò)符號(hào)工具如SMT求解器檢查反例，從而過(guò)濾掉無(wú)效的縮放策略。

在重寫(xiě)策略方面，LIPS算法由大模型負(fù)責(zé)生成，通過(guò)設(shè)計(jì)一系列提示引導(dǎo)大模型對(duì)當(dāng)前目標(biāo)進(jìn)行等價(jià)變換。例如，通過(guò)簡(jiǎn)化、重新排列或消去分母等操作將目標(biāo)轉(zhuǎn)化為更易于處理的形式。由于重寫(xiě)策略的空間是無(wú)限的，大模型的數(shù)學(xué)直覺(jué)在這里發(fā)揮了關(guān)鍵作用，能夠從大量可能的變換中篩選出最有希望的策略。

在目標(biāo)過(guò)濾與排序方面，LIPS算法采用了兩個(gè)階段：符號(hào)過(guò)濾和神經(jīng)排序?？s放和重寫(xiě)策略生成的新目標(biāo)集合需要進(jìn)一步篩選和排序，以確定最有希望的證明路徑。首先，通過(guò)符號(hào)過(guò)濾階段，利用不等式的齊次性和解耦性來(lái)評(píng)估每個(gè)目標(biāo)的潛力。

論文地址：https://arxiv.org/pdf/2502.13834

齊次性表示不等式兩邊的次數(shù)相同，而解耦性則衡量不等式中混合變量項(xiàng)的數(shù)量。通過(guò)這些指標(biāo)，可以快速排除那些不太可能被證明的目標(biāo)。其次，在神經(jīng)排序階段，對(duì)于經(jīng)過(guò)符號(hào)過(guò)濾后的前k個(gè)目標(biāo)，利用大模型進(jìn)行最終排序。

CPL

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法雖然在特定任務(wù)上取得了進(jìn)展，但在跨任務(wù)泛化方面存在不足。此外，大模型的推理空間是無(wú)限的，這使得在其中尋找有效的推理路徑變得極為困難。

例如，在數(shù)學(xué)問(wèn)題解決中，模型需要在眾多可能的解題步驟中找到最優(yōu)路徑，而在代碼生成任務(wù)中，模型需要在復(fù)雜的邏輯結(jié)構(gòu)中進(jìn)行有效的探索。

為了解決這些難題，微軟提出了CPL算法，一種基于關(guān)鍵計(jì)劃步驟學(xué)習(xí)的方法，旨在通過(guò)在高層次抽象計(jì)劃空間中進(jìn)行搜索，提升模型的泛化能力和推理性能。

在CPL算法中，計(jì)劃空間搜索是第一步，也是至關(guān)重要的一步。與傳統(tǒng)的解決方案搜索不同，計(jì)劃空間搜索關(guān)注的是高層次的抽象計(jì)劃，而不是具體的解決方案。

例如，在解決一個(gè)數(shù)學(xué)問(wèn)題時(shí)，模型首先會(huì)生成一個(gè)逐步解決問(wèn)題的計(jì)劃，而不是直接生成具體的數(shù)學(xué)公式。這種計(jì)劃可以包括確定需要應(yīng)用哪些知識(shí)、如何分解問(wèn)題等抽象思維步驟。通過(guò)這種方式，模型能夠?qū)W習(xí)到更通用的、與任務(wù)無(wú)關(guān)的技能，從而提高其在不同任務(wù)中的泛化能力。

在生成了多樣化的計(jì)劃步驟后，CPL的第二步是通過(guò)Step-APO學(xué)習(xí)關(guān)鍵計(jì)劃步驟。Step-APO是基于Direct Preference Optimization（DPO）的一種改進(jìn)方法，它通過(guò)引入優(yōu)勢(shì)估計(jì)來(lái)優(yōu)化步驟偏好。

Step-APO利用MCTS過(guò)程中獲得的優(yōu)勢(shì)估計(jì)，為每一對(duì)步驟偏好賦予不同的權(quán)重，從而讓模型能夠更有效地識(shí)別出哪些步驟對(duì)推理能力的提升更為關(guān)鍵。

論文地址：https://arxiv.org/pdf/2409.08642

例如，在一個(gè)復(fù)雜的推理任務(wù)中，模型可能會(huì)發(fā)現(xiàn)某些步驟雖然在表面上看起來(lái)合理，但實(shí)際上對(duì)最終結(jié)果的貢獻(xiàn)較小，而Step-APO能夠幫助模型識(shí)別并強(qiáng)化那些真正重要的步驟。

責(zé)任編輯：張燕妮來(lái)源： AIGC開(kāi)放社區(qū)

模型訓(xùn)練算法

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<form id="pnk8e"><optgroup id="pnk8e"></optgroup></form>