偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里國(guó)際版o1來(lái)了,Marco-o1:聚焦開(kāi)放式問(wèn)題推理

人工智能 新聞
大模型推理的一個(gè)關(guān)鍵挑戰(zhàn)在于,現(xiàn)實(shí)世界常常提出很多開(kāi)放式和創(chuàng)造性的問(wèn)題,對(duì)于 AI 來(lái)說(shuō),這是一類(lèi)很難評(píng)估的任務(wù),因?yàn)闆](méi)有「標(biāo)準(zhǔn)答案」或者易于量化的獎(jiǎng)勵(lì)。

自從 OpenAI 發(fā)布 o1 模型以來(lái),業(yè)界對(duì)其的追趕不斷加速。

大模型推理的一個(gè)關(guān)鍵挑戰(zhàn)在于,現(xiàn)實(shí)世界常常提出很多開(kāi)放式和創(chuàng)造性的問(wèn)題,對(duì)于 AI 來(lái)說(shuō),這是一類(lèi)很難評(píng)估的任務(wù),因?yàn)闆](méi)有「標(biāo)準(zhǔn)答案」或者易于量化的獎(jiǎng)勵(lì)。

我們能否訓(xùn)練一個(gè)模型,讓它能夠從容應(yīng)對(duì)無(wú)法避免的「模糊性」,仍然生成可靠的推理結(jié)果?

11 月 22 日,阿里巴巴國(guó)際數(shù)字商業(yè)集團(tuán)MarcoPolo團(tuán)隊(duì)發(fā)布了 Marco-o1,這是一種旨在推進(jìn)開(kāi)放式問(wèn)題解決的大型推理模型 (LRM)。當(dāng)然該工作也提到:這是一項(xiàng)正在進(jìn)行的探索性工作,仍有進(jìn)一步改進(jìn)的空間。

這篇論文篇幅并不長(zhǎng),讓我們來(lái)梳理下技術(shù)細(xì)節(jié)。

圖片

  • 論文標(biāo)題:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
  • 論文鏈接:https://arxiv.org/pdf/2411.14405
  • 項(xiàng)目地址:https://github.com/AIDC-AI/Marco-o1

雖然 o1 模型在 AIME 和 CodeForces 等測(cè)試中都展示了強(qiáng)大的推理能力,但 Marco-o1 的目標(biāo)是超越結(jié)構(gòu)化挑戰(zhàn),實(shí)現(xiàn)跨多個(gè)領(lǐng)域的泛化,特別是在那些沒(méi)有嚴(yán)格評(píng)估指標(biāo)的領(lǐng)域。通過(guò)集成諸如思維鏈 (CoT) 微調(diào)、蒙特卡洛樹(shù)搜索 (MCTS) 和推理動(dòng)作策略等技術(shù)來(lái)實(shí)現(xiàn)的,Marco-o1 能夠更有效地處理復(fù)雜的問(wèn)題解決任務(wù)。

通過(guò)微調(diào) Qwen2-7B-Instruct 與過(guò)濾后的 Open-o1 CoT 數(shù)據(jù)集 、Marco-o1 CoT 數(shù)據(jù)集和 Marco-o1 指令數(shù)據(jù)集的組合,Marco-o1 提高了對(duì)復(fù)雜任務(wù)的處理能力。

  • Open-o1 CoT 數(shù)據(jù)集(已過(guò)濾):研究者通過(guò)應(yīng)用啟發(fā)式和質(zhì)量過(guò)濾過(guò)程完善了 Open-o1 項(xiàng)目的 CoT 數(shù)據(jù)集,這一改進(jìn)使模型能夠有效地采用結(jié)構(gòu)化推理模式。
  • Marco-o1 CoT 數(shù)據(jù)集(合成):研究者使用 MCTS 生成了 Marco-o1 CoT 數(shù)據(jù)集,這有助于制定復(fù)雜的推理路徑,進(jìn)一步增強(qiáng)了模型的推理能力。
  • Marco 指令數(shù)據(jù)集:認(rèn)識(shí)到強(qiáng)大的指令遵循能力在執(zhí)行復(fù)雜任務(wù)中的關(guān)鍵作用,研究者整合了一組指令遵循數(shù)據(jù)。這種整合確保了模型能夠勝任各種任務(wù),在保持其普遍有效性的同時(shí)顯著增強(qiáng)其推理能力。

圖片

結(jié)果顯示,Marco-o1 在 MGSM(英文)數(shù)據(jù)集上的準(zhǔn)確率提高了 6.17%,在 MGSM(中文)數(shù)據(jù)集上的準(zhǔn)確率提高了 5.60%,展示了更強(qiáng)的推理能力。

在翻譯任務(wù)中,實(shí)驗(yàn)還證明 Marco-o1 在翻譯俚語(yǔ)表達(dá)方面表現(xiàn)出色。例如,該模型正確地將中文中字面意思為「這只鞋給人一種踩屎感」的俗語(yǔ)翻譯成了英文「This shoe has a comfortable sole」(這只鞋的鞋底很舒服),證明了它對(duì)俗語(yǔ)細(xì)微差別的精準(zhǔn)把握。

基于 MCTS 的解空間擴(kuò)展

圖片

該研究將 LLM 與 MCTS 集成在一起,以增強(qiáng) Marco-o1 模型的推理能力:

  • 節(jié)點(diǎn)是推理狀態(tài):在 MCTS 框架中,每個(gè)節(jié)點(diǎn)代表解決問(wèn)題過(guò)程的推理狀態(tài);
  • 動(dòng)作作為 LLM 輸出:節(jié)點(diǎn)可能執(zhí)行的動(dòng)作是 LLM 生成的輸出。這些輸出代表推理鏈中的潛在 step 或 mini-step;
  • Rollout 和獎(jiǎng)勵(lì)計(jì)算:在 rollout 階段,LLM 繼續(xù)推理過(guò)程直至終止?fàn)顟B(tài);
  • 指導(dǎo) MCTS:獎(jiǎng)勵(lì)分?jǐn)?shù) R 用于評(píng)估和選擇 MCTS 中的有希望的路徑,從而有效地引導(dǎo)搜索走向更置信、更可靠的推理鏈。

此外,該研究通過(guò)計(jì)算置信度得分來(lái)獲得每個(gè)狀態(tài)的值。對(duì)于最終結(jié)果的每個(gè) token t_i,作者通過(guò)將 softmax 函數(shù)應(yīng)用于其對(duì)數(shù)概率和前 5 個(gè)替代 token 的對(duì)數(shù)概率來(lái)計(jì)算其置信度得分。這由以下公式給出:

圖片

在獲得最終結(jié)果的所有 token 的置信度得分后,然后計(jì)算所有 token 的平均置信度得分,從而得出總獎(jiǎng)勵(lì)得分:

圖片

此平均值作為獎(jiǎng)勵(lì)信號(hào),用于評(píng)估推理路徑的質(zhì)量。較高的 v 表示更置信且更準(zhǔn)確的推理路徑。

通過(guò)采用這種方法,該研究有效地?cái)U(kuò)展了解空間,使模型能夠探索大量推理路徑并根據(jù)計(jì)算出的置信度分?jǐn)?shù)選擇最可能的路徑。

推理動(dòng)作策略

動(dòng)作選擇

該研究觀察到使用動(dòng)作作為 MCTS 搜索的粒度相對(duì)粗糙,導(dǎo)致模型經(jīng)常忽略對(duì)解決復(fù)雜問(wèn)題至關(guān)重要的細(xì)微推理路徑。

為了解決這個(gè)問(wèn)題,該研究探索了 MCTS 搜索中的不同粒度級(jí)別。

最初,他們使用 step 作為搜索單位。

為了進(jìn)一步擴(kuò)展模型的搜索空間并增強(qiáng)其解決問(wèn)題的能力,作者嘗試將這些 step 分成包含 64 或 32 個(gè) token 較小的單元,稱(chēng)為 mini-step。這種更加精細(xì)的粒度允許模型更詳細(xì)地探索推理路徑。

然而,雖然 token 級(jí)搜索在理論上提供了最大的靈活性和粒度,但由于需要大量的計(jì)算資源,以及設(shè)計(jì)這一級(jí)別的有效獎(jiǎng)勵(lì)模型挑戰(zhàn)巨大,因此目前它是不切實(shí)際的。

實(shí)驗(yàn)中,該研究在 MCTS 框架內(nèi)實(shí)施了以下策略:

Step 作為動(dòng)作:允許模型生成完整的推理 step 作為動(dòng)作。每個(gè) MCTS 節(jié)點(diǎn)代表一個(gè)完整的思維或動(dòng)作標(biāo)簽。這種方法可以實(shí)現(xiàn)有效的探索,但可能會(huì)錯(cuò)過(guò)解決復(fù)雜問(wèn)題所必需的更細(xì)粒度的推理路徑。

Mini-step 作為動(dòng)作:使用 mini-step(32 或 64 個(gè) token)作為動(dòng)作。這種更細(xì)的粒度擴(kuò)展了解空間,并通過(guò)在搜索過(guò)程中考慮更細(xì)微的 step 來(lái)提高模型處理復(fù)雜推理任務(wù)的能力。通過(guò)在這個(gè)級(jí)別探索解空間,模型可以更好地找到可能被更大的動(dòng)作單元忽略的正確答案。

思考后進(jìn)行反思

作者還引入了反思機(jī)制,通過(guò)在每個(gè)思考過(guò)程的末尾添加短語(yǔ)「Wait! Maybe I made some mistakes! I need to rethink from scratch?!?這提示模型自我反思并重新評(píng)估其推理步驟。實(shí)施這種反思機(jī)制已經(jīng)帶來(lái)了顯著的改進(jìn),特別是在原始模型最初無(wú)法正確解決的困難問(wèn)題上。加上反思,這些具有挑戰(zhàn)性的問(wèn)題大約有一半得到了正確的回答。

從自我批評(píng)的角度來(lái)看,這種方法使模型能夠充當(dāng)自己的批評(píng)者,識(shí)別其推理中的潛在錯(cuò)誤。通過(guò)明確地提示模型質(zhì)疑其初步結(jié)論,獎(jiǎng)勵(lì)模型重新表達(dá)和完善其思維過(guò)程。這種自我批評(píng)機(jī)制利用了模型檢測(cè)自身輸出中的不一致性或錯(cuò)誤的能力,從而得到更準(zhǔn)確、更可靠的解決方案。反思步驟充當(dāng)了一個(gè)內(nèi)部反饋循環(huán),增強(qiáng)了模型在沒(méi)有外部干預(yù)的情況下自我糾正的能力。 

實(shí)驗(yàn)及結(jié)果

作者基于 Qwen2-7B-Instruct,并在訓(xùn)練數(shù)據(jù)上進(jìn)行了 SFT,得到 Marco-o1-CoT。此外,作者在 MCTS(蒙特卡羅樹(shù)搜索)框架中使用了 Marco-o1-CoT,通過(guò)動(dòng)作來(lái)區(qū)分: 

  • Marco-o1-MCTS (step):使用每個(gè)推理 step 作為一個(gè)動(dòng)作(step);
  • Marco-o1-MCTS (mini-step of 64 tokens):使用 64 個(gè) token 的 mini-step 作為一個(gè)動(dòng)作(64 個(gè) token);
  • Marco-o1-MCTS (mini-step of 32 tokens):使用 32 個(gè) token 的 mini-step 作為一個(gè)動(dòng)作(32 個(gè) token)。

測(cè)試過(guò)程中,每個(gè)模型都使用了 CoT 提示來(lái)確保推理過(guò)程的一致性。

結(jié)果表明:在 MGSM-en 數(shù)據(jù)集中,Marco-o1-CoT 比 Qwen2-7B-Instruct 表現(xiàn)優(yōu)異,如圖 4 所示,這是由于使用了英文 CoT 數(shù)據(jù)進(jìn)行了微調(diào)。然而,在 MGSM-zh 數(shù)據(jù)集中,Marco-o1-CoT 的表現(xiàn)與 Qwen2-7B-Instruct 相比有所下降。這種下降歸因于用于微調(diào)的 CoT 數(shù)據(jù)是英文的,這可能無(wú)法有效地遷移到中文數(shù)據(jù)中。

圖片

這三個(gè)經(jīng)過(guò) MCTS 增強(qiáng)的模型表現(xiàn)出比 Marco-o1-CoT 更好的改進(jìn),表明融入 MCTS 有助于擴(kuò)展模型的解空間,并增加獲得正確答案的概率。然而,由于本文使用置信度得分作為獎(jiǎng)勵(lì),樹(shù)搜索結(jié)果顯示出顯著的隨機(jī)性。

在 MGSM-en 中,step 作為動(dòng)作策略表現(xiàn)最好,而在 MGSM-zh 中,mini-step 作為動(dòng)作(32)策略產(chǎn)生了最高的準(zhǔn)確性。目前,如圖 4、5 和 6 所示,作者還無(wú)法得出哪種動(dòng)作策略更優(yōu)的明確結(jié)論。但研究者相信,隨著獎(jiǎng)勵(lì)變得更準(zhǔn)確,MCTS 提供的更大解空間將展現(xiàn)出更大的潛力。 

圖片

圖片

如圖 7、8 和 9 所示,Marco-o1 在處理復(fù)雜翻譯任務(wù)(尤其是口語(yǔ)和俚語(yǔ))上具有高級(jí)理解和推理能力,優(yōu)于 Google 翻譯等標(biāo)準(zhǔn)翻譯工具。

圖片

圖片


圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-09-24 11:01:03

2024-11-07 15:40:00

2024-10-17 14:10:00

模型訓(xùn)練

2024-09-29 13:07:16

2024-11-05 14:20:00

AI模型

2024-10-18 13:01:24

2024-09-18 09:17:00

OpenAI模型開(kāi)源

2025-01-20 09:28:00

AI工具模型

2024-11-29 13:57:38

2024-11-04 09:00:00

2025-01-08 13:08:55

2024-12-06 11:44:48

Pro模式AI人工智能

2024-11-21 14:00:00

模型AI

2024-11-25 15:50:00

模型訓(xùn)練

2025-03-10 08:10:00

AI研究安全

2025-01-21 13:15:15

2025-01-21 08:00:00

2024-12-17 12:30:00

2024-12-06 08:36:31

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)