偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="8yzeu"></nobr>

<table id="8yzeu"></table>

<abbr id="8yzeu"></abbr>

<nav id="8yzeu"><strong id="8yzeu"><dl id="8yzeu"></dl></strong></nav>

<nobr id="8yzeu"></nobr>

<blockquote id="8yzeu"><font id="8yzeu"><small id="8yzeu"></small></font></blockquote>

<nobr id="8yzeu"></nobr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

超越O4-mini，多模態(tài)大模型終于學(xué)會(huì)回頭「看」：中科院自動(dòng)化所提出GThinker模型

2025-07-21 08:51:00

人工智能新聞

來(lái)自中科院自動(dòng)化研究所紫東太初大模型研究中心的研究者提出 GThinker，一個(gè)旨在實(shí)現(xiàn)通用多模態(tài)推理的新型多模態(tài)大模型。

盡管多模態(tài)大模型在數(shù)學(xué)、科學(xué)等結(jié)構(gòu)化任務(wù)中取得了長(zhǎng)足進(jìn)步，但在需要靈活解讀視覺(jué)信息的通用場(chǎng)景下，其性能提升瓶頸依然顯著?，F(xiàn)有模型普遍依賴(lài)基于知識(shí)的思維模式，卻缺乏對(duì)視覺(jué)線(xiàn)索的深度校驗(yàn)與再思考能力，導(dǎo)致在復(fù)雜場(chǎng)景下頻繁出錯(cuò)。

為解決這一難題，來(lái)自中科院自動(dòng)化研究所紫東太初大模型研究中心的研究者提出 GThinker，一個(gè)旨在實(shí)現(xiàn)通用多模態(tài)推理的新型多模態(tài)大模型。

GThinker 的核心在于其創(chuàng)新的「線(xiàn)索引導(dǎo)式反思（Cue-Guided Rethinking）」模式，它賦予了模型在推理過(guò)程中主動(dòng)校驗(yàn)、修正視覺(jué)理解的能力。

通過(guò)精心設(shè)計(jì)的兩階段訓(xùn)練流程，GThinker 在極具挑戰(zhàn)性的 M3CoT 綜合推理基準(zhǔn)上取得了超越了最新的 O4-mini 模型，并在多個(gè)數(shù)學(xué)及知識(shí)推理榜單上展現(xiàn)出 SOTA 性能，證明了該方法的有效性和泛化能力。目前，論文、數(shù)據(jù)及模型均已開(kāi)源。

論文鏈接：https://arxiv.org/abs/2506.01078
項(xiàng)目地址：https://github.com/jefferyZhan/GThinker
開(kāi)源倉(cāng)庫(kù)：https://huggingface.co/collections/JefferyZhan/gthinker-683e920eff706ead8fde3fc0

慢思考的瓶頸：當(dāng)模型在通用場(chǎng)景「視而不見(jiàn)」

當(dāng)前，無(wú)論是開(kāi)源的 Qwen2.5-VL，還是閉源的 GPT-4o，多模態(tài)大模型的能力邊界正在被不斷拓寬。尤其在引入了思維鏈（CoT）等慢思考策略后，模型在數(shù)學(xué)、科學(xué)等邏輯密集型任務(wù)上的表現(xiàn)得到了顯著增強(qiáng)。

然而，這些進(jìn)步并未完全轉(zhuǎn)化為在通用多模態(tài)場(chǎng)景下的推理能力。與擁有明確答案和嚴(yán)格邏輯結(jié)構(gòu)的數(shù)理任務(wù)不同，通用場(chǎng)景（如理解一幅畫(huà)的寓意、分析復(fù)雜的日常情景）往往涉及：

高度的視覺(jué)依賴(lài)：答案強(qiáng)依賴(lài)于對(duì)圖像中多個(gè)、甚至有歧義的視覺(jué)線(xiàn)索的正確解讀。
復(fù)雜的推理路徑：沒(méi)有固定的解題范式，需要模型根據(jù)具體問(wèn)題靈活組織推理步驟。

現(xiàn)有方法，無(wú)論是基于結(jié)構(gòu)化 CoT 的，還是基于結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)的，都存在明顯的局限性。它們?cè)谕评碇幸坏?duì)某個(gè)視覺(jué)線(xiàn)索產(chǎn)生誤判，往往會(huì)「一條道走到黑」，缺乏中途「回頭看」、修正認(rèn)知偏差的機(jī)制。

現(xiàn)有主流多模態(tài)推理方法的特點(diǎn)與局限性

GThinker：從「思維鏈」到「再思考鏈」

為了打破這一瓶頸，研究團(tuán)隊(duì)提出了 GThinker，其核心是一種全新的推理模式 ——「線(xiàn)索引導(dǎo)式反思」（Cue-Guided Rethinking）。該模式將推理過(guò)程升級(jí)為一種更接近人類(lèi)思維的「思考 - 反思 - 修正」閉環(huán)，它不強(qiáng)制規(guī)定僵化的推理結(jié)構(gòu)，而是要求模型在自由推理后，對(duì)關(guān)鍵視覺(jué)線(xiàn)索進(jìn)行一次系統(tǒng)性的回溯驗(yàn)證。

Cue-Rethinking核心流程，虛線(xiàn)框代表可能進(jìn)行

整個(gè)過(guò)程分為三個(gè)階段：

1. 自由初始推理：模型根據(jù)問(wèn)題和圖像內(nèi)容，自由地進(jìn)行一步步推理，同時(shí)使用 <vcues_*> 標(biāo)簽標(biāo)記出其所依賴(lài)的關(guān)鍵視覺(jué)線(xiàn)索。

2. 反思觸發(fā)：在初步推理鏈完成后，一個(gè)反思提示（如「Let's verify each visual cue and its reasoning before finalizing the answer.」）被觸發(fā)，引導(dǎo)模型進(jìn)入基于再思考階段。

3. 基于視覺(jué)線(xiàn)索的反思：模型逐一回顧所有標(biāo)記的視覺(jué)線(xiàn)索，檢查其解釋是否存在不一致、錯(cuò)誤或遺漏。一旦發(fā)現(xiàn)問(wèn)題，模型會(huì)修正或補(bǔ)充對(duì)該線(xiàn)索的理解，并基于新的理解重新進(jìn)行推理，最終得出結(jié)論。

GThinker推理模式示例

以上圖為例，GThinker 在初步推理中可能將圖形誤判為「螃蟹」。但在再思考階段，它會(huì)發(fā)現(xiàn) 「紅色三角形更像蝦頭而非蟹身」、「藍(lán)粉組合更像蝦尾而非蟹鉗」，從而修正整個(gè)推理路徑，最終得出正確答案「蝦」。這種機(jī)制使得 GThinker 能夠有效處理有歧義或誤導(dǎo)性的視覺(jué)信息，極大地提升了推理的準(zhǔn)確性。

兩階段訓(xùn)練法：如何教會(huì)模型進(jìn)行再思考？

為了讓模型內(nèi)化這種強(qiáng)大的反思能力，GThinker 設(shè)計(jì)了一套環(huán)環(huán)相扣的兩階段訓(xùn)練框架。

GThinker 整體訓(xùn)練流程示例圖

模式引導(dǎo)冷啟動(dòng)

不同于數(shù)理領(lǐng)域在預(yù)訓(xùn)練后自然涌現(xiàn)的反思能力，單純依靠來(lái)結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí) 「探索」出如此復(fù)雜的再思考行為，不僅成本高昂且效率低下。因此，GThinker 首先通過(guò)監(jiān)督微調(diào)的方式，為模型「冷啟動(dòng)」構(gòu)建基于視覺(jué)線(xiàn)索的再思考能力。

為此，首先通過(guò)「多模態(tài)迭代式標(biāo)注」構(gòu)建了一個(gè)包含 7K 高質(zhì)量冷啟動(dòng)樣本數(shù)據(jù)集：利用 GPT-4o、O1、O3 等多個(gè)先進(jìn)模型的互補(bǔ)優(yōu)勢(shì)，對(duì)覆蓋通用、數(shù)學(xué)、科學(xué)三大領(lǐng)域的復(fù)雜問(wèn)題進(jìn)行迭代式地推理和標(biāo)注，生成了包含高質(zhì)量再思考路徑的訓(xùn)練數(shù)據(jù)。

在訓(xùn)練時(shí)，GThinker 采用「模式引導(dǎo)選擇性格式化」策略，僅對(duì)那些基座模型會(huì)產(chǎn)生視覺(jué)誤判的樣本應(yīng)用完整的「反思鏈」格式，其余則保留為標(biāo)準(zhǔn)推理格式。這使得模型能夠?qū)W會(huì)在「需要時(shí)」才進(jìn)行反思，而非機(jī)械地執(zhí)行。

激勵(lì)強(qiáng)化學(xué)習(xí)

在掌握「如何思考」以及基于視覺(jué)線(xiàn)索進(jìn)行「再思考」的能力基礎(chǔ)上，GThinker 進(jìn)一步引入基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法，設(shè)計(jì)混合獎(jiǎng)勵(lì)機(jī)制并構(gòu)建覆蓋多種推理類(lèi)型的多場(chǎng)景訓(xùn)練數(shù)據(jù)，以持續(xù)激勵(lì)模型在多樣化任務(wù)中進(jìn)行主動(dòng)探索，從而實(shí)現(xiàn)思維模式的跨場(chǎng)景泛化遷移。

多場(chǎng)景數(shù)據(jù)構(gòu)建：廣泛收集開(kāi)源推理數(shù)據(jù)，并通過(guò) embedding 聚類(lèi)的方式進(jìn)行均衡和多樣性采樣，從中精選包含約 4K 條多場(chǎng)景、多任務(wù)的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)集，為泛化能力的提升提供數(shù)據(jù)保障。
DAPO 訓(xùn)練：相較于 GRPO，DAPO 采用動(dòng)態(tài)采樣的方式，保證 batch 樣本的有效性，并應(yīng)用無(wú) KL 和 clip higher 等策略，更適用于長(zhǎng)鏈思考和探索，使模型學(xué)會(huì)在不同場(chǎng)景下選擇最優(yōu)推理方式。

混合獎(jiǎng)勵(lì)計(jì)算：針對(duì)選擇題、數(shù)學(xué)題等常見(jiàn)任務(wù)類(lèi)型，分別采用精確匹配、Math-Verify 工具校驗(yàn)的方式計(jì)算獎(jiǎng)勵(lì)，對(duì)于通用場(chǎng)景下常見(jiàn)的開(kāi)放式簡(jiǎn)答題，通過(guò)加入格式化響應(yīng)讓模型回答歸納到短語(yǔ)或單詞的形式，以應(yīng)用精確匹配的計(jì)算方式，從而確保了獎(jiǎng)勵(lì)信號(hào)的準(zhǔn)確性和進(jìn)一步拓展支持任務(wù)的多樣性。

結(jié)果

在復(fù)雜、多步及多領(lǐng)域的多模態(tài)推理基準(zhǔn) M3CoT 上，GThinker 在多個(gè)場(chǎng)景的測(cè)試中超過(guò)當(dāng)前先進(jìn)的開(kāi)源多模態(tài)推理模型及 O4-mini。

在通用場(chǎng)景（MMStar、RealWorldQA）、多學(xué)科場(chǎng)景（MMMU-Pro）及數(shù)學(xué)基準(zhǔn)測(cè)試中，GThinker 實(shí)現(xiàn)了優(yōu)于或不遜于現(xiàn)有先進(jìn)模型的表現(xiàn)，證明了 GThinker 所學(xué)的再思考能力并未造成「偏科」，而是實(shí)現(xiàn)了整體通用能力提升。

盡管 GThinker 的數(shù)據(jù)均為復(fù)雜推理任務(wù)構(gòu)建，但經(jīng)過(guò)這一方法及數(shù)據(jù)的訓(xùn)練后，當(dāng)前最領(lǐng)先的開(kāi)源模型依然能夠在通用指標(biāo)上進(jìn)一步提升。研究團(tuán)隊(duì)選取了 OpenCompass 閉源多模態(tài)榜單中 10B 規(guī)模下最新排名前三的開(kāi)源模型，在學(xué)術(shù)榜單上進(jìn)行測(cè)試。結(jié)果顯示，GThinker 在這三款模型上均帶來(lái)約 1 個(gè)百分點(diǎn)左右的平均性能提升，進(jìn)一步印證了其方法的有效性與泛化能力。

Demo

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

自動(dòng)化模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<thead id="fuaed"></thead>

<bdo id="fuaed"></bdo>