開源復(fù)現(xiàn)o3圖像思考!快手讓AI不再被動(dòng)看圖,模型自主生成代碼調(diào)用工具
在Openai 發(fā)布o(jì)3后,think with image功能得到了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。
Kwai Keye團(tuán)隊(duì)提出Thyme (Think Beyond Images)的新范式,并圍繞它構(gòu)建了一整套技術(shù)方案。旨在突破現(xiàn)有方法的限制,賦予開源模型一種更強(qiáng)大、更自主、功能更全面的“超越圖像思考”的能力。

其主要貢獻(xiàn)可以概括為以下幾點(diǎn):

提出了一個(gè)全新的多模態(tài)交互范式Thyme:
核心思想:讓多模態(tài)大模型不再局限于被動(dòng)地“看圖”,而是能夠主動(dòng)地通過(guò)生成并執(zhí)行代碼,來(lái)調(diào)用各種工具完成復(fù)雜的圖像處理和數(shù)學(xué)計(jì)算。
功能豐富:模型可以即時(shí)進(jìn)行裁剪、旋轉(zhuǎn)、縮放、對(duì)比度增強(qiáng)等多種圖像操作,還能處理復(fù)雜的數(shù)學(xué)問(wèn)題。
高度自主:模型能自主判斷何時(shí)需要使用工具、使用何種工具,并動(dòng)態(tài)生成代碼來(lái)執(zhí)行,無(wú)需人工為特定任務(wù)進(jìn)行干預(yù)。
設(shè)計(jì)了一套高效的兩階段訓(xùn)練策略 SFT + RL:
監(jiān)督微調(diào) (SFT) 階段:利用精心構(gòu)建的約 50 萬(wàn)條高質(zhì)量樣本數(shù)據(jù)集,快速教會(huì)模型生成代碼來(lái)執(zhí)行各種操作。這個(gè)階段僅需約 200 GPU 小時(shí),性價(jià)比極高。
強(qiáng)化學(xué)習(xí) (RL) 階段:在 SFT 的基礎(chǔ)上,通過(guò) RL 進(jìn)一步優(yōu)化模型的決策能力。為了解決 RL 階段的挑戰(zhàn),研究者還:構(gòu)建了高質(zhì)量 RL 數(shù)據(jù)集:手動(dòng)收集和標(biāo)注了 1 萬(wàn)張高分辨率、高難度的圖像問(wèn)答對(duì),以增強(qiáng)模型在復(fù)雜場(chǎng)景下的感知能力。
提出了創(chuàng)新的RL算法GRPO-ATS:該算法能為文本生成和代碼生成設(shè)置不同的采樣溫度(temperature)。具體來(lái)說(shuō),為文本使用較高的溫度以鼓勵(lì)探索和創(chuàng)造性,為代碼使用極低的溫度(0.0)以確保生成代碼的精確性和可執(zhí)行性,巧妙地平衡了推理的靈活性和代碼的穩(wěn)定性。
構(gòu)建并開源了完整的配套資源:
高質(zhì)量數(shù)據(jù)集:開源了用于 SFT 和 RL 階段的全部數(shù)據(jù)集,包括超過(guò) 400 萬(wàn)的原始數(shù)據(jù)源和精心篩選標(biāo)注的數(shù)據(jù)。
安全的沙箱環(huán)境:開發(fā)了一個(gè)可以安全執(zhí)行模型生成的代碼并返回結(jié)果的沙箱。這個(gè)沙箱還簡(jiǎn)化了代碼生成的難度,能自動(dòng)處理格式、變量定義等問(wèn)題,提高了代碼的可用性。
完整的代碼庫(kù):將所有訓(xùn)練代碼、模型和工具鏈全部開源,旨在推動(dòng)整個(gè)社區(qū)在該方向上的發(fā)展和應(yīng)用。

總言,Thyme 通過(guò)賦予模型“代碼生成與執(zhí)行”的能力,極大地?cái)U(kuò)展了多模態(tài)模型的工具使用范圍和自主決策水平,并在近 20 個(gè)基準(zhǔn)測(cè)試中取得了顯著且穩(wěn)定的性能提升,尤其在處理高分辨率圖像和復(fù)雜推理任務(wù)上表現(xiàn)出色。
Thyme推理樣本展示
裁剪+放大
Thyme首先評(píng)估了標(biāo)志的大小和距離,判斷出裁剪并放大對(duì)應(yīng)區(qū)域可以提高可見性。接著,它編寫代碼來(lái)裁剪并放大包含標(biāo)志的區(qū)域。最后準(zhǔn)確地定位了標(biāo)志的位置,成功地裁剪并放大了該區(qū)域,并正確地回答了問(wèn)題。

對(duì)比度增強(qiáng)
在OCR任務(wù)中,Thyme會(huì)適時(shí)的增強(qiáng)圖像對(duì)比度,讓需要識(shí)別的文字更加清晰。

圖像旋轉(zhuǎn)
Thyme意識(shí)到輸入圖像的方向不正確,因此它使用Python代碼執(zhí)行旋轉(zhuǎn)操作來(lái)調(diào)整輸入圖像的角度,最后進(jìn)行讀取。

復(fù)雜計(jì)算
Thyme可以將復(fù)雜計(jì)算操作,轉(zhuǎn)化為代碼,避免模型直接預(yù)測(cè)計(jì)算結(jié)果。

Thyme工作流程
1 模型接收用戶輸入問(wèn)題,輸出推理思路。2 模型判斷問(wèn)題復(fù)雜度,決定是否生成Python代碼執(zhí)行圖像處理或計(jì)算任務(wù)。3 若無(wú)需代碼(簡(jiǎn)單問(wèn)題或先前代碼已解決),直接輸出答案。4 生成代碼后,交付給外部沙箱安全執(zhí)行,沙箱負(fù)責(zé)格式校驗(yàn)、參數(shù)調(diào)整、錯(cuò)誤修正等處理。5 沙箱返回執(zhí)行結(jié)果(圖像或數(shù)值),模型基于結(jié)果繼續(xù)推理,多輪交互直至輸出最終答案。
在這里作者強(qiáng)調(diào)了MLLM的外部沙盒需要做的一些事情,主要包括一些自動(dòng)糾錯(cuò)機(jī)制,來(lái)盡量保證代碼的可用性。
- 使用autopep8模塊格式化代碼,統(tǒng)一縮進(jìn)和風(fēng)格。
 - 利用ast解析代碼變量,自動(dòng)調(diào)整圖像裁剪坐標(biāo)邊界,避免越界錯(cuò)誤。
 - 預(yù)置必要變量及模塊導(dǎo)入(如cv2、image_path),保證環(huán)境一致。
 - 記錄代碼分段變量依賴,解決多段代碼執(zhí)行時(shí)上下文丟失問(wèn)題。
 
Thyme-SFT
訓(xùn)練數(shù)據(jù)
SFT主要構(gòu)造了三類任務(wù):
- 無(wú)需代碼直接答復(fù):簡(jiǎn)單問(wèn)題直接回答,訓(xùn)練模型判定是否需要代碼生成。
 - 基于代碼的圖像操作和計(jì)算:包含裁剪、旋轉(zhuǎn)、對(duì)比度增強(qiáng)、數(shù)學(xué)計(jì)算等。
 - 多輪交互數(shù)據(jù):針對(duì)圖像操作失敗的錯(cuò)誤修正、連續(xù)增強(qiáng)等多輪迭代任務(wù)。
 

對(duì)代碼生成樣本進(jìn)行嚴(yán)格執(zhí)行與語(yǔ)義審核,剔除不執(zhí)行或執(zhí)行結(jié)果錯(cuò)誤的代碼片段,提高訓(xùn)練樣本有效性。
手工構(gòu)建多輪對(duì)話數(shù)據(jù),教會(huì)模型基于上一輪代碼執(zhí)行結(jié)果調(diào)整策略,具備錯(cuò)誤糾正能力。

訓(xùn)練策略
訓(xùn)練過(guò)程模型基于輸入圖片(I)和問(wèn)題(Q)生成推理流程(T)及可選代碼(C),通過(guò)沙箱執(zhí)行代碼獲得結(jié)果(S),多輪循環(huán)迭代直到生成最終答案(a):[X = { (I, Q); ([T_0, C_0, S_0], …, [T_t, a]) }]
使用了一些SFT策略保證多種功能能被成功激活:
- 強(qiáng)制模型僅學(xué)習(xí)輸出最終一輪的有效推理和代碼,早期輸出輪次內(nèi)容被遮蔽,避免模型過(guò)度依賴第二輪糾正。
 - 訓(xùn)練時(shí)排除沙箱執(zhí)行輸出標(biāo)簽,防止模型直接模仿沙箱結(jié)果,提高推理過(guò)程質(zhì)量。
 - 對(duì)數(shù)學(xué)計(jì)算數(shù)據(jù)采用退火訓(xùn)練策略:初始階段訓(xùn)練圖像操作數(shù)據(jù),再用較低學(xué)習(xí)率微調(diào)數(shù)學(xué)推理數(shù)據(jù),避免數(shù)據(jù)不均衡問(wèn)題。
 
Thyme-RL
數(shù)據(jù)構(gòu)造
出了從開源數(shù)據(jù)進(jìn)行搜集和篩選外,額外補(bǔ)充了10k的人工標(biāo)注數(shù)據(jù),標(biāo)注的任務(wù)包括OCR識(shí)別、屬性識(shí)別、數(shù)量識(shí)別等多種任務(wù),這些任務(wù)要求模型能夠從高分辨率圖像中提取細(xì)節(jié)信息并正確回答相關(guān)問(wèn)題,增強(qiáng)感知難度。

訓(xùn)練策略 GRPO-ATS
采用on policy的GRPO。獎(jiǎng)勵(lì)函數(shù)包括:
- 結(jié)果獎(jiǎng)勵(lì):比較模型輸出與地面真值答案的匹配程度,確保模型輸出的正確性。
 - 一致性獎(jiǎng)勵(lì):檢查推理過(guò)程是否與最終答案一致,以確保推理步驟的合理性。
 - 格式獎(jiǎng)勵(lì):確保輸出符合嚴(yán)格的結(jié)構(gòu)規(guī)范,增強(qiáng)推理過(guò)程的可解釋性。
 
適應(yīng)性溫度采樣:
溫度調(diào)整:對(duì)于代碼生成任務(wù),如圖像處理和計(jì)算任務(wù),使用低溫度(τ = 0)進(jìn)行采樣,以確保代碼生成過(guò)程的準(zhǔn)確性和一致性。對(duì)于推理過(guò)程,使用較高的溫度(τ = 1)來(lái)鼓勵(lì)模型探索更多的解決方案。
這一策略有效避免了模型在生成代碼時(shí)的過(guò)度多樣化問(wèn)題,提高了代碼生成的穩(wěn)定性,并使得推理過(guò)程更加靈活多樣。
采樣優(yōu)化:
為了減少計(jì)算資源浪費(fèi),運(yùn)用Rabin-Karp滾動(dòng)哈希算法檢測(cè)過(guò)多重復(fù)內(nèi)容;當(dāng)重復(fù)子串長(zhǎng)度超過(guò)輸出長(zhǎng)度50%,立即判定為重復(fù)并提前終止當(dāng)前軌跡采樣,有效避免資源浪費(fèi)。
在訓(xùn)練中還強(qiáng)制限制了最大對(duì)話輪次,避免模型陷入無(wú)意義的循環(huán),從而提高了訓(xùn)練效率。
實(shí)驗(yàn)效果
感知,推理,通用任務(wù)全面提升
訓(xùn)練基于32塊NVIDIA H800 GPU,強(qiáng)化學(xué)習(xí)階段耗時(shí)超1200 GPU小時(shí)。

在多個(gè)基準(zhǔn)任務(wù)上,Thyme表現(xiàn)出相較于其他多模態(tài)模型的優(yōu)勢(shì),尤其是在感知任務(wù)上,Thyme即使在與更大規(guī)模的模型Qwen-2.5-VL-32B對(duì)比時(shí),也依然顯示出了顯著的優(yōu)勢(shì)。這表明,僅僅通過(guò)增加模型的規(guī)模并不能有效解決感知任務(wù)中的挑戰(zhàn),相反,Thyme在測(cè)試時(shí)的擴(kuò)展策略對(duì)感知任務(wù)十分有效。
在推理任務(wù)中,通過(guò)將復(fù)雜的計(jì)算轉(zhuǎn)化為可執(zhí)行代碼,Thyme在推理能力上取得了顯著的提升。然而,在這一領(lǐng)域,模型規(guī)模的擴(kuò)展帶來(lái)的優(yōu)勢(shì)更為顯著,表明推理和邏輯推理能力主要依賴于模型本身的知識(shí)量。
由于感知與推理能力的提升,Thyme在許多通用任務(wù)中取得了顯著的進(jìn)展,尤其是在減少幻覺現(xiàn)象(hallucination)方面。
深入探討感知任務(wù)
以MME-RealWorld為例,它包括許多現(xiàn)實(shí)場(chǎng)景中的高分辨率感知任務(wù)。表4展示了Thyme與基線模型在不同任務(wù)上的表現(xiàn)。
可以看到,對(duì)于基線模型已表現(xiàn)良好的任務(wù),如OCR、圖表和表格(準(zhǔn)確率超過(guò)60%,甚至接近90%),Thyme的提升相對(duì)較小。然而,對(duì)于更困難的任務(wù),如監(jiān)控與自動(dòng)駕駛,在這些任務(wù)上Qwen-2.5-VL-7B的感知能力較弱時(shí),Thyme的感知和推理任務(wù)的提升超過(guò)了25%,尤其是在推理任務(wù)中,提升更為顯著。

論文鏈接:https://arxiv.org/abs/2508.11630















 
 
 

















 
 
 
 