偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="umzu6"><p id="umzu6"></p></sub>

<p id="umzu6"><nav id="umzu6"></nav></p>

<form id="umzu6"></form>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

MiniMax開(kāi)源首個(gè)視覺(jué)RL統(tǒng)一框架，閆俊杰領(lǐng)銜！推理感知兩手抓，性能橫掃M(jìn)EGA-Bench

2025-05-28 11:55:56

人工智能新聞

最新開(kāi)源V-Triune（視覺(jué)三重統(tǒng)一強(qiáng)化學(xué)習(xí)系統(tǒng)）框架，使VLM首次能夠在單個(gè)后訓(xùn)練流程中，聯(lián)合學(xué)習(xí)和掌握視覺(jué)推理和感知任務(wù)。

僅需一個(gè)強(qiáng)化學(xué)習(xí)（RL）框架，就能實(shí)現(xiàn)視覺(jué)任務(wù)大統(tǒng)一？

現(xiàn)有RL對(duì)推理和感知任務(wù)只能二選一，但“大模型六小強(qiáng)”之一MiniMax表示：我全都要！

最新開(kāi)源V-Triune（視覺(jué)三重統(tǒng)一強(qiáng)化學(xué)習(xí)系統(tǒng)）框架，使VLM首次能夠在單個(gè)后訓(xùn)練流程中，聯(lián)合學(xué)習(xí)和掌握視覺(jué)推理和感知任務(wù)。

通過(guò)三層組件設(shè)計(jì)和基于動(dòng)態(tài)交并比（IoU）的獎(jiǎng)勵(lì)機(jī)制，彌補(bǔ)了傳統(tǒng)RL方法無(wú)法兼顧多重任務(wù)的空白。

甚至基于V-Triune，MiniMax還一步到位，貼心地給大家開(kāi)發(fā)了全新的Orsta（One RL to See Them All）模型系列（7B至32B），在MEGA-Bench Core基準(zhǔn)測(cè)試中從+2.1%顯著提升至+14.1%。

值得注意的是，在論文的作者一欄，MiniMax創(chuàng)始人兼CEO閆俊杰也參與了這項(xiàng)研究。

目前V-Triune框架和Orsta模型都在GitHub上實(shí)現(xiàn)全面開(kāi)源，點(diǎn)擊文末鏈接即可跳轉(zhuǎn)一鍵獲取。

那話不多說(shuō)，咱們直接上細(xì)節(jié)。

推理感知“兩手抓”

視覺(jué)任務(wù)可以分為推理和感知兩類(lèi)，在當(dāng)前，RL研究主要集中于數(shù)學(xué)QA和科學(xué)QA等視覺(jué)推理任務(wù)。

而目標(biāo)檢測(cè)和定位等視覺(jué)感知任務(wù)，因亟需獨(dú)特的獎(jiǎng)勵(lì)設(shè)計(jì)和訓(xùn)練穩(wěn)定性保障，還沒(méi)有得到一個(gè)很好的解決方案……

針對(duì)上述問(wèn)題，MiniMax針對(duì)性地提出了新框架V-Triune，作為首個(gè)面向VLM后訓(xùn)練的統(tǒng)一RL系統(tǒng)，通過(guò)三個(gè)互補(bǔ)組件核心巧妙實(shí)現(xiàn)二者的平衡。

樣本級(jí)數(shù)據(jù)格式化

讓每個(gè)樣本自定義其獎(jiǎng)勵(lì)設(shè)置和驗(yàn)證器，支持動(dòng)態(tài)路由和權(quán)重調(diào)整，以處理多種任務(wù)需求。

數(shù)據(jù)模式基于HuggingFace數(shù)據(jù)集實(shí)現(xiàn)，包含以下三個(gè)字段：

reward_model：樣本級(jí)定義獎(jiǎng)勵(lì)類(lèi)型、權(quán)重。
verifier：指定驗(yàn)證器及其參數(shù)。
data_source：標(biāo)識(shí)樣本來(lái)源。

最終實(shí)現(xiàn)了多樣化數(shù)據(jù)集的無(wú)縫集成，同時(shí)支持高度靈活的獎(jiǎng)勵(lì)控制。

驗(yàn)證器級(jí)獎(jiǎng)勵(lì)計(jì)算

采用異步客戶端-服務(wù)器架構(gòu)，將獎(jiǎng)勵(lì)計(jì)算與主訓(xùn)練循環(huán)解耦。

客戶端通過(guò)代理工作器異步發(fā)送請(qǐng)求，而服務(wù)器則根據(jù)”verifier”字段路由至專(zhuān)用驗(yàn)證器。

主要使用兩類(lèi)驗(yàn)證器：

MathVerifyVerifierr：處理推理、OCR和計(jì)數(shù)任務(wù)。
DetectionVerifier：處理檢測(cè)和定位任務(wù)，應(yīng)用動(dòng)態(tài)IoU獎(jiǎng)勵(lì)。

從而實(shí)現(xiàn)在無(wú)需修改核心訓(xùn)練流程的情況下，靈活擴(kuò)展新任務(wù)或更新獎(jiǎng)勵(lì)邏輯。

數(shù)據(jù)源級(jí)指標(biāo)監(jiān)控

在多任務(wù)多源訓(xùn)練中，按數(shù)據(jù)源記錄以下指標(biāo)：

獎(jiǎng)勵(lì)值：追蹤數(shù)據(jù)集特定穩(wěn)定性。
IoU和mAP（感知任務(wù)）：記錄不同閾值下的IoU和mAP。
響應(yīng)長(zhǎng)度和反思率：跟蹤響應(yīng)長(zhǎng)度分布、截?cái)嗦剩约?5個(gè)預(yù)定義反思詞（如“re-check”）的出現(xiàn)比例。

該監(jiān)控機(jī)制幫助診斷模型行為（如過(guò)度思考或膚淺響應(yīng)），并確保學(xué)習(xí)的穩(wěn)定性。

動(dòng)態(tài)IoU獎(jiǎng)勵(lì)

此外針對(duì)監(jiān)測(cè)和定位任務(wù)，團(tuán)隊(duì)還創(chuàng)新性地提出了動(dòng)態(tài)IoU獎(jiǎng)勵(lì)，分階段調(diào)整閾值，以緩解冷啟動(dòng)問(wèn)題，同時(shí)引導(dǎo)模型逐步提升定位精度：

初始10%訓(xùn)練步驟：
10%-25%訓(xùn)練步驟：
剩余訓(xùn)練步驟：

雖然V-Triune提供了可擴(kuò)展的數(shù)據(jù)、任務(wù)和指標(biāo)框架，但早期實(shí)驗(yàn)顯示，聯(lián)合訓(xùn)練可能會(huì)導(dǎo)致評(píng)估性能下降、梯度范數(shù)突增等不穩(wěn)定現(xiàn)象，于是團(tuán)隊(duì)又通過(guò)以下調(diào)整逐步解決：

凍結(jié)ViT參數(shù)，防止梯度爆炸。
過(guò)濾偽圖像特殊詞元，確保輸入特征對(duì)齊，提升訓(xùn)練穩(wěn)定性。
構(gòu)建隨機(jī)化CoT提示池，降低提示依賴性。
由于V-Triune基于Verl框架實(shí)現(xiàn)，主節(jié)點(diǎn)內(nèi)存壓力較大，需解耦測(cè)試階段與主訓(xùn)練循環(huán)以管理內(nèi)存。

Orsta模型

另外值得一提的是，基于開(kāi)源的Qwen2.5-VL模型，團(tuán)隊(duì)還訓(xùn)練出7B和32B的Orsta模型。

依據(jù)4類(lèi)推理任務(wù)（數(shù)學(xué)、謎題、科學(xué)、圖表分析）和4類(lèi)感知任務(wù)（物體檢測(cè)、目標(biāo)定位、計(jì)數(shù)、OCR）的訓(xùn)練數(shù)據(jù)，進(jìn)行規(guī)則和難度的兩階段過(guò)濾和訓(xùn)練優(yōu)化。

最終實(shí)現(xiàn)在MEGA-Bench Core基準(zhǔn)測(cè)試中，Orsta相比原始模型提升至+14.1%，尤其是在感知任務(wù)中，mAP指標(biāo)顯著提高，證明了該統(tǒng)一方法的有效性和可擴(kuò)展性。

MiniMax布局多模態(tài)領(lǐng)域

MiniMax作為商湯背景出身的AI六小龍之一，近期在多模態(tài)領(lǐng)域可謂動(dòng)作頻頻，模型橫跨語(yǔ)言、音頻、視頻。

例如MiniMax的S2V-01視頻模型、MiniMax-VL-01視覺(jué)多模態(tài)模型以及MiniMax-T2A-01系列語(yǔ)言模型等。

尤其是廣受好評(píng)的MiniMax-01系列，包含基礎(chǔ)語(yǔ)言模型和視覺(jué)多模態(tài)模型兩種，性能上比肩DeepSeek-V3、GPT-4o等國(guó)內(nèi)外頂尖模型的同時(shí)，還首次創(chuàng)新性實(shí)現(xiàn)了對(duì)新型Lightning Attention架構(gòu)的大規(guī)模擴(kuò)展。

最新發(fā)布的Speech-02，在AI語(yǔ)言生成上也是一騎絕塵，直接刷新全球權(quán)威語(yǔ)音基準(zhǔn)測(cè)試榜單第一，一舉打破OpenAI、ElevenLabs的行業(yè)壟斷。

同時(shí)，據(jù)MiniMax高級(jí)研究總監(jiān)鐘怡然同量子位訪談時(shí)所說(shuō)：

MiniMax將會(huì)進(jìn)一步探索多模態(tài)架構(gòu)創(chuàng)新，即原生的生成理解統(tǒng)一大模型的架構(gòu)。

而今天這個(gè)統(tǒng)一視覺(jué)任務(wù)的RL架構(gòu)也許僅僅是一個(gè)開(kāi)始。

論文鏈接：https://arxiv.org/abs/2505.18129代碼鏈接：https://github.com/MiniMax-AI/One-RL-to-See-Them-All

責(zé)任編輯：張燕妮來(lái)源：量子位

模型開(kāi)源框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tt id="b4htk"><style id="b4htk"></style></tt>

<pre id="b4htk"></pre>