偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta版o1來(lái)了!田淵棟團(tuán)隊(duì)整合快慢思考,能走迷宮推箱子

人工智能 新聞
通過(guò)讓模型在推理軌跡和最終答案上進(jìn)行訓(xùn)練,再基于特定策略丟掉部分軌跡,Dualformer模型可以在模仿慢思考的同時(shí),像快思考一樣走捷徑。

Meta版o1也來(lái)了。

田淵棟團(tuán)隊(duì)帶來(lái)新作Dualformer,把快慢思考無(wú)縫結(jié)合,性能提升還成本更低。

能解決迷宮、推箱子等復(fù)雜問(wèn)題。

圖片

通過(guò)讓模型在推理軌跡和最終答案上進(jìn)行訓(xùn)練,再基于特定策略丟掉部分軌跡,Dualformer模型可以在模仿慢思考的同時(shí),像快思考一樣走捷徑。

由此能形成更簡(jiǎn)潔的思維鏈(CoT)。

從結(jié)果來(lái)看,在慢思考模式下,Dualformer的最優(yōu)解率達(dá)到97.6%,推理步驟減少45.5%。

自動(dòng)切換快慢思考模式下,最優(yōu)率也達(dá)到96.6%,且推理步驟減少59.9%。

搞定o1玩不來(lái)的迷宮游戲

o1帶火了系統(tǒng)2(慢思考),能讓大模型推理能力大幅提升。

但是隨之而來(lái)的計(jì)算成本更高。

Dualformer能很好結(jié)合快慢思考,從而緩解這一問(wèn)題。

它建立在Searchformer這項(xiàng)工作的基礎(chǔ)上。Searchformer是一個(gè)可以解決復(fù)雜推理任務(wù)的模型,在A*搜索算法生成的路徑上訓(xùn)練而來(lái),在路徑規(guī)劃任務(wù)(如迷宮、推箱子游戲)上表現(xiàn)良好,可以以更高效率找到最優(yōu)解。

圖片

研究發(fā)現(xiàn),人類(lèi)會(huì)在思考過(guò)程中傾向于找捷徑。為了更進(jìn)一步模擬人類(lèi),Dualformer在隨機(jī)推理軌跡數(shù)據(jù)上進(jìn)行訓(xùn)練,并在訓(xùn)練過(guò)程中依據(jù)定制的丟棄策略丟到部分結(jié)構(gòu)。

比如在處理路徑規(guī)劃任務(wù)時(shí),根據(jù)搜索軌跡中的不同子句(如close子句、子句中的cost tokens、create子句等)設(shè)計(jì)了四個(gè)級(jí)別的丟棄策略,從只丟棄close子句到丟棄整個(gè)軌跡,并在訓(xùn)練時(shí)隨機(jī)選擇應(yīng)用這些策略。

圖片

基于這些策略,Dualformer可以學(xué)習(xí)更簡(jiǎn)潔有效的搜索和推理過(guò)程。

在推理階段,Dualformer可配置快速模式(僅輸出解決方案)、慢速模式(輸出推理鏈和最終解決方案)或自動(dòng)模式(自行決定推理模式)。

這種靈活的推理模式設(shè)計(jì)使得模型能夠根據(jù)不同任務(wù)需求和場(chǎng)景進(jìn)行自適應(yīng)調(diào)整,類(lèi)似于人類(lèi)思維在不同情況下的決策方式。

在具體任務(wù)上,研究設(shè)置了迷宮(Maze)和推箱子游戲(Sokoban),讓模型進(jìn)行路徑規(guī)劃。以及數(shù)學(xué)推理任務(wù)。

對(duì)比來(lái)看,在迷宮任務(wù)中,o1-preview和o1-mini模型輸出的路徑并不好,會(huì)“穿墻”。

圖片

快思考模式下,Dualformer的表現(xiàn)如下。

Dualformer以80%的最優(yōu)率完成這些任務(wù),顯著優(yōu)于僅基于解決方案數(shù)據(jù)訓(xùn)練的Solution-Only模型,后者的最優(yōu)率僅為 30%。

圖片

慢思考模式表現(xiàn)如下。

30×30迷宮任務(wù)中,在97.6%的情況下可以達(dá)到最優(yōu)解,同時(shí)推理步驟減少45.5%。

圖片

自動(dòng)切換快慢思考模式下,Dualformer的最優(yōu)率達(dá)到 96.6%,與Searchformer相比,推理步驟減少59.9%。

圖片

將該方法推廣到Mistral-7B和Llama3-8B上,在Aug-MATH數(shù)據(jù)集上,模型的表現(xiàn)都有所提升。

比如在Mistral-7B模型上,當(dāng)p=0.1、0.2和0.3時(shí),Pass@20度量的基線(xiàn)模型,其中絕對(duì)正確率增加到61.9%。

圖片

最后,來(lái)看一下研究團(tuán)隊(duì)陣容。

該研究由田淵棟等人帶來(lái)。

田淵棟現(xiàn)在是Meta FAIR的研究科學(xué)家主任,領(lǐng)導(dǎo)LLM推理、規(guī)劃和決策小組。

圖片

Qinqing Zheng是FAIR的工程師,研究方向集中在生成模型和強(qiáng)化學(xué)習(xí)方面。她本科畢業(yè)于浙江大學(xué),在芝加哥大學(xué)攻讀博士學(xué)位。2017-2019年期間在Facebook擔(dān)任研究科學(xué)家,幫助Facebook建立了廣告推薦模型的分布式訓(xùn)練系統(tǒng)。

圖片

Sainbayar Sukhbaatar是FAIR的研究科學(xué)家,主要負(fù)責(zé)大模型推理和記憶方面研究。他曾先后在谷歌、DeepMind、Meta任職。

圖片

Michael Rabbat是FAIR的創(chuàng)始成員之一。加入Meta之前他曾是麥吉爾大學(xué)計(jì)算機(jī)工程系教授。研究領(lǐng)域包括機(jī)器學(xué)習(xí)、分布式算法、信號(hào)處理等。

圖片

論文地址:

https://arxiv.org/pdf/2410.09918

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-12-19 09:48:07

2024-02-26 00:20:00

AI模型

2024-11-25 08:30:00

2025-10-23 12:28:40

2024-10-16 13:50:00

模型AI

2025-10-08 10:19:29

2024-10-08 08:35:00

模型訓(xùn)練

2024-10-28 08:50:00

2024-12-12 09:00:00

2023-03-17 08:28:17

GPT-4AI

2024-11-05 14:20:00

AI模型

2024-02-27 11:46:40

2023-06-12 09:57:22

AIChatGPT

2023-12-07 06:51:18

AI模型

2024-11-07 15:40:00

2024-10-18 13:01:24

2024-10-14 13:40:00

2025-10-24 09:31:42

Llama模型訓(xùn)練

2022-12-25 13:46:37

生成器

2024-12-17 12:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)