偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="deies"></style>

<xmp id="deies"><style id="deies"><rp id="deies"></rp></style></xmp>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了

發(fā)布于 2024-5-9 09:18

瀏覽

0收藏

把AlphaGo的核心算法用在大模型上，“高考”成績直接提升了20多分。

在MATH數(shù)據(jù)集上，甚至讓7B模型得分超過了GPT-4。

一項來自阿里的新研究引發(fā)關(guān)注：

研究人員用蒙特卡洛樹搜索（MCTS）給大語言模型來了把性能增強，無需人工標注解題步驟，也能生成高質(zhì)量數(shù)據(jù)，有效提升大模型的數(shù)學成績。

AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

論文發(fā)布，讓不少網(wǎng)友重新關(guān)注到了蒙特卡洛樹搜索這個在前大模型時代的明星算法。

有人直言：

蒙特卡洛樹搜索+LLM是通往超級智能之路。

AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

因為“樹搜索本身更接近人類思維”。

用蒙特卡洛樹搜索增強大模型

具體來說，阿里的研究人員提出了一種名為AlphaMath的方法，用大語言模型+MCTS來自動生成數(shù)學推理數(shù)據(jù)，并提升大模型在完成數(shù)學推理任務時的性能表現(xiàn)。

嗯，名字就很有蒙特卡洛樹搜索內(nèi)味兒了。

這里有個前情提要：

思維鏈（CoT）、思維程序（PoT）等方法已經(jīng)被證明能夠有效提高大模型的數(shù)學能力，但問題在于，它們都需要人類手動喂詳細的解題步驟，即訓練當中需要用到人工標注的高質(zhì)量數(shù)學推理數(shù)據(jù)。

AlphaMath的一個核心目的就在于，在這個步驟中去人工化——數(shù)據(jù)格式就是簡單的數(shù)學問題-答案對。

AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

AlphaMath的技術(shù)路線主要涵蓋三個階段：

首先，研究人員收集了一個數(shù)學數(shù)據(jù)集，其中包含數(shù)學問題及其對應的正確答案。

然后，利用預訓練的大模型（即策略模型）根據(jù)問題生成初始的解題路徑，并通過MCTS對解題路徑進行探索和改進，搜索更優(yōu)的解題思路。

在MCTS過程中，同時訓練一個價值模型來預測解題路徑的質(zhì)量，引導搜索方向。

最后，第二階段獲得的數(shù)據(jù)會被用來優(yōu)化策略模型和價值模型。

AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

這三個階段會通過迭代優(yōu)化地方式執(zhí)行，以實現(xiàn)無需人工標注的自動數(shù)據(jù)生成和模型數(shù)學能力優(yōu)化。

另外，研究人員還基于價值模型提出了Step-level Beam Search方法，以提高大模型的數(shù)學推理效率，平衡推理時的解題質(zhì)量和運行時間。

簡單來說，Step-level Beam Search是將MCTS推理過程做了個簡化：

利用價值模型對候選路徑進行評估，以更準確地選擇高質(zhì)量的解題路徑。
通過逐步擴展和剪枝，在搜索過程中動態(tài)調(diào)整候選路徑集合，提高搜索效率。
搜索過程中考慮了完整的解題路徑，而不僅僅是局部的下一步動作，可以得到更全局優(yōu)化的解題方案。

MATH成績超GPT-4

為了驗證AlphaMath的效果，研究人員設計了這樣的實驗：

對開源的數(shù)學大模型DeepSeekMath-Base-7B，用AlphaMath方法進行訓練，并在GSM8K、MATH和Gaokao2023基準上，與GPT-4為代表的閉源模型、Llama2為代表的開源模型，以及專門做過數(shù)學SFT的MathCoder等模型進行對比。

結(jié)果顯示，不依賴于人類（或GPT-4）標注的高質(zhì)量數(shù)據(jù)，AlphaMath調(diào)教下的7B數(shù)學大模型，已經(jīng)能在MATH上取得63%的分數(shù)，超過了GPT-4原版的42.5%和外掛代碼解釋器版的51.8%。

AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

另外，在執(zhí)行3輪MCTS并訓練策略模型和價值模型的情況下，AlphaMath能讓大模型在涵蓋小學數(shù)學題的GSM8K上提升10多分，在MATH和Gaokao2023上提升20多分。

還可以看到，Step-level Beam Search在MATH數(shù)據(jù)集上取得了良好的效率和準確率平衡。

AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

論文的共同一作是Guoxin Chen、Mingpeng liao、Chengxi Li和Kai Fan。

通訊作者Kai Fan本碩畢業(yè)于北京大學，2017年從杜克大學博士畢業(yè)，2018年加入阿里巴巴達摩院。

論文地址：
???https://arxiv.org/abs/2405.03553??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/0LevzAVD8EzVmNI2m-87Tw??

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

超越GPT-4，斯坦福團隊手機可跑的大模型火了，一夜下載量超2k

輕薄滴假象 ? 3629瀏覽 ? 0回復
7B超越百億級，北大開源aiXcoder-7B最強代碼大模型，企業(yè)部署最佳選擇

輕薄滴假象 ? 4835瀏覽 ? 0回復
Mistral開源8X22B大模型，OpenAI更新GPT-4 Turbo視覺，都在欺負谷歌

輕薄滴假象 ? 2711瀏覽 ? 0回復
Meta無限長文本大模型來了：參數(shù)僅7B，已開源

輕薄滴假象 ? 3069瀏覽 ? 0回復
大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.3w瀏覽 ? 0回復
Meta 發(fā)布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術(shù)棧 ? 4471瀏覽 ? 0回復
Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！

PaperAgent ? 4539瀏覽 ? 0回復
超越GPT-4！騰訊AI新研究打破長文本生成模型限制，序列并行技術(shù)再突破

AI論文解讀 ? 6416瀏覽 ? 0回復
百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法

duhorse ? 2899瀏覽 ? 0回復
大模型訓練核心算法之——反向傳播算法

AI探索時代 ? 3843瀏覽 ? 0回復
超越GPT-4！LoRA技術(shù)引領(lǐng)大型語言模型新革命

AI論文解讀 ? 3379瀏覽 ? 0回復
大模型數(shù)學能力翻車實錘！Apple新研究暴露真相!

NLP前沿1 ? 2290瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 4958瀏覽 ? 0回復
阿里重磅開源QwQ-32B：自我思考、糾正，數(shù)學能力擊敗o1模型

Aceryt ? 8007瀏覽 ? 0回復
艾倫人工智能研究所 (AI2) 發(fā)布 OLMo 2：在多達 5T 代幣上訓練的新系列開源 7B 和 13B 語言模型

Halo咯咯 ? 4122瀏覽 ? 0回復
阿里巴巴Qwen研究員推出ProcessBench：衡量數(shù)學推理過程錯誤識別能力的新AI基準

Halo咯咯 ? 2468瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數(shù)學推理

Aceryt ? 2654瀏覽 ? 0回復
千億模型做不到的事，7B小模型實現(xiàn)了？阿里這次開源有點狠！

蜂耘網(wǎng)iphoneyun ? 1930瀏覽 ? 0回復
計算機視覺五大核心算法解析

每天五分鐘玩轉(zhuǎn)人工智能 ? 1626瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復

AI Agents開源工具棧全解析~ 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復

上一篇：首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它

下一篇：港大開源圖基礎大模型OpenGraph: 強泛化能力，前向傳播預測全新數(shù)據(jù)

社區(qū)精華內(nèi)容

目錄

<menuitem id="r91dw"></menuitem>