偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

媲美DeepSeek!騰訊開源新版混元模型:AI Agent強化,超30種智能體指令

人工智能 新聞
Hunyuan-A13B特意針對AI Agent進行了強化,打造了應(yīng)對不同場景變化的?“自適應(yīng)大腦”,設(shè)計超過30種智能體指令,并組合工具、動作、響應(yīng)的格式變化,創(chuàng)造出20000?種格式組合。

騰訊開源了混元大模型的最新版本Hunyuan-A13B。

Hunyuan-A13B是一個專家混合模型,擁有800億參數(shù),其中130億參數(shù)處于激活狀態(tài)。支持快、慢兩種思考模式:快速思維模式,提供簡潔高效的輸出,適用于高效、簡單的日常任務(wù);慢速思維模式,支持更深層次的推理步驟包含反思和回溯,生成更長的思維鏈,提升復(fù)雜任務(wù)的準(zhǔn)確性。

值得一提的是,Hunyuan-A13B特意針對AI Agent進行了強化,打造了應(yīng)對不同場景變化的 “自適應(yīng)大腦”,設(shè)計超過30種智能體指令,并組合工具、動作、響應(yīng)的格式變化,創(chuàng)造出20000 種格式組合。

圖片

圖片

開源地址:https://huggingface.co/tencent/Hunyuan-A13B-Instruct

githubhttps://github.com/Tencent-Hunyuan/Hunyuan-A13B?tab=readme-ov-file

根據(jù)騰訊公布的測試數(shù)據(jù)顯示,在數(shù)學(xué)AIME2024、AIME2025測試中, Hunyuan-A13B分別拿下了87.3、76.8的高分,超過了DeepSeek-R1的79.8、70分,同時也大幅度超過了OpenAI的o1模型。

在科研、代碼、推理的測試中,Hunyuan-A13B與DeepSeek-R1的測試結(jié)果幾乎差不多。

而在Agent智能體BFCL-V3、ComplexBench、C-TurcBench測試中,Hunyuan-A13B分別拿下78.3、61.2、63.5的高分,全部大幅度超過了DeepSeek-R1的56.9、41.1、55.3。

圖片

在架構(gòu)設(shè)計方面,Hunyuan-A13B 由 1 個共享專家和 64 個細粒度非共享專家組成,所有專家的中間維度相同。在訓(xùn)練階段,共享專家始終處于激活狀態(tài),而非共享專家中只有 8 個會同時被激活。

為了進一步提升模型的性能,Hunyuan-A13B 在激活函數(shù)上采用了 SWiGLU,這與 Hunyuan-Large 和 Hunyuan-TurboS 保持一致。此外,模型在注意力層中引入了 Grouped-Query Attention顯著提高了 KV 緩存的內(nèi)存效率,使得 Hunyuan-A13B 在處理復(fù)雜任務(wù)時能夠更加高效地利用計算資源。

圖片

在推理過程中,Hunyuan-A13B 還采用了雙模式推理鏈框架,這一框架允許模型根據(jù)任務(wù)的復(fù)雜性和用戶需求動態(tài)調(diào)整推理深度。

快速思考模式旨在為簡單任務(wù)提供快速、高效的解決方案。在這種模式下,模型會生成簡潔的輸出,以最小的計算開銷滿足用戶的需求。這種模式特別適合那些對速度要求較高的場景,例如,實時問答或簡單的信息檢索任務(wù)。通過快速思考模式,Hunyuan-A13B 能夠在極短的時間內(nèi)給出答案,來提高用戶體驗。

慢速思考模式,這種模式適用于更復(fù)雜的任務(wù),如多步推理問題。在這種模式下,模型會進行更深入、更全面的推理過程,包括但不限于反思和回溯等步驟。這使得模型能夠生成更長的推理鏈,從而提高在處理復(fù)雜問題時的準(zhǔn)確性和魯棒性。

在后訓(xùn)練階段,Hunyuan-A13B 采用了結(jié)構(gòu)化的多階段方法,旨在全面提升模型在各個維度的性能。這一階段包括推理導(dǎo)向的監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)階段,以及全場景監(jiān)督微調(diào)和強化學(xué)習(xí)階段。

在推理導(dǎo)向的 SFT 階段,模型專注于加強在復(fù)雜推理導(dǎo)向任務(wù)方面的專業(yè)能力,例如,數(shù)學(xué)推理、邏輯推理、代碼生成和科學(xué)分析等。這一階段使用了精心策劃的指令 - 響應(yīng)數(shù)據(jù)集進行監(jiān)督微調(diào),這些數(shù)據(jù)集包含了明確的推理過程和詳細的推理解決方案。

圖片

在強化學(xué)習(xí)階段,模型進一步增強了推理能力。這一階段利用了兩種類型的獎勵機制:結(jié)果獎勵模型和沙箱反饋。結(jié)果獎勵模型是一種輕量級的語言模型基礎(chǔ)驗證器,用于評估生成的最終答案與參考答案之間的一致性,并據(jù)此給出二元獎勵。

沙箱反饋則通過一個多語言代碼沙箱來提供實際的代碼執(zhí)行結(jié)果,從而為模型提供更準(zhǔn)確的反饋。這些獎勵機制的結(jié)合,使得模型能夠在推理過程中不斷優(yōu)化和改進。

在全場景監(jiān)督微調(diào)階段,模型的適應(yīng)性得到了進一步的拓寬。這一階段涉及在多樣化指令 - 響應(yīng)數(shù)據(jù)集上的監(jiān)督微調(diào),旨在提高模型在創(chuàng)意寫作、基于知識的問答、指令遵循以及多輪對話任務(wù)等多樣化實際場景中的表現(xiàn)。

與推理導(dǎo)向的微調(diào)階段不同,這一階段的強化學(xué)習(xí)采用了雙重信號優(yōu)化方法,不僅評估最終輸出的正確性,還通過一個大型語言模型作為智能體評估器來評估風(fēng)格質(zhì)量、連貫性和適應(yīng)性。這種全面的評估策略使得模型能夠在提高準(zhǔn)確性的同時,增強在不同應(yīng)用場景中的可用性。

圖片

為了進一步提升模型在特定領(lǐng)域的表現(xiàn),在全場景強化學(xué)習(xí)階段Hunyuan-A13B還引入了多個專門的獎勵服務(wù)和數(shù)據(jù)構(gòu)建流程。這些服務(wù)和流程針對不同的能力領(lǐng)域進行了優(yōu)化,確保模型在各個領(lǐng)域都能達到高標(biāo)準(zhǔn)的表現(xiàn)。例如,在文本理解領(lǐng)域,模型不僅需要能夠準(zhǔn)確回答問題,還需要在風(fēng)格和連貫性上符合語言習(xí)慣。為此,研究人員設(shè)計了專門的一致性模型和比較性 GRM,以確保模型輸出在客觀和主觀任務(wù)中都能保持高質(zhì)量。

在智能體任務(wù)中,模型需要能夠有效地調(diào)用工具,并根據(jù)工具的反饋進行合理的決策。為此,研究人員構(gòu)建了基于規(guī)則的獎勵機制,以確保模型在調(diào)用工具時能夠遵循正確的格式和邏輯。這種獎勵機制的引入,使得模型在智能體任務(wù)中能夠更加高效地完成任務(wù),并且在多輪對話中保持良好的連貫性和一致性。

在復(fù)雜指令任務(wù)中,模型需要能夠精確地理解和執(zhí)行多方面的指令。為此,研究人員將約束提取和滿足工具與通用批評和獎勵模型相結(jié)合,確保模型在執(zhí)行復(fù)雜指令時能夠嚴(yán)格遵循指令要求,并且在多步推理過程中保持邏輯連貫性。

在安全領(lǐng)域,模型需要能夠識別和避免潛在的風(fēng)險和不當(dāng)內(nèi)容。為此,研究人員使用分類器和拒絕啟發(fā)式方法來識別安全響應(yīng)對,并將安全對齊直接整合到偏好數(shù)據(jù)集中。這種整合方法使得模型在生成內(nèi)容時能夠更加注重安全性,從而降低風(fēng)險。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2024-12-11 08:28:15

2024-11-06 09:47:00

2024-05-22 18:10:38

2022-04-29 16:47:57

AI騰訊

2024-09-05 16:37:37

2025-02-17 10:36:00

微軟開源模型

2024-06-21 11:44:17

2025-05-21 13:03:52

2025-06-10 09:28:31

智能體開發(fā)工具

2025-03-13 06:59:30

JavaAPI騰訊

2023-09-06 18:25:32

2024-06-06 14:27:21

2025-02-05 12:53:21

2024-05-17 14:06:09

點贊
收藏

51CTO技術(shù)棧公眾號