偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

VaseVQA：考古領(lǐng)域?qū)崿F(xiàn)專家級(jí)，診斷+補(bǔ)弱RL框架

2025-10-28 09:19:50

人工智能新聞

在文化遺產(chǎn)與人工智能的交叉處，有一類問(wèn)題既美也難：如何讓機(jī)器「看懂」古希臘的陶器——不僅能識(shí)別它的形狀或圖案，還能推斷年代、產(chǎn)地、工坊甚至藝術(shù)歸屬？

古希臘陶器是考古學(xué)和藝術(shù)史的重要實(shí)物證據(jù)。

研究者需要從單件陶器中提取多層信息：材質(zhì)與工藝、形制類別、裝飾主題、出土地與時(shí)間、甚至可能的作坊或畫師。

不過(guò)傳統(tǒng)計(jì)算機(jī)視覺(jué)和通用多模態(tài)模型在這類高度專業(yè)化任務(wù)上常陷入兩類困境：

一是缺乏領(lǐng)域知識(shí)（模型在通用語(yǔ)料里幾乎沒(méi)接觸過(guò)「雅典黑釉杯」或「紅繪風(fēng)格」這樣的概念）；

二是僅靠監(jiān)督微調(diào)（SFT）容易學(xué)到「表層捷徑」，在遇到組合性、推理性或少樣本問(wèn)題時(shí)就失效。

基于此，AI Geeks、澳大利亞人工智能研究所等機(jī)構(gòu)的研究人員提出：既要有專門的數(shù)據(jù)與任務(wù)劃分，也要有針對(duì)性的訓(xùn)練策略來(lái)補(bǔ)弱提升。

論文鏈接: https://doi.org/10.48550/arXiv.2509.17191

項(xiàng)目地址：https://github.com/AIGeeksGroup/VaseVQA

論文的技術(shù)主線可以用一句話概括：先把模型訓(xùn)練到有基礎(chǔ)能力（SFT），再通過(guò)診斷找出各類問(wèn)題的薄弱環(huán)節(jié)，用類型條件化的強(qiáng)化學(xué)習(xí)（RL）和精細(xì)化獎(jiǎng)勵(lì)去有針對(duì)性地補(bǔ)弱。

圖1：現(xiàn)有視覺(jué)語(yǔ)言模型在古希臘陶瓶理解上的局限性與所提出的VaseVL框架

關(guān)鍵步驟如下：

任務(wù)分層與問(wèn)題類型化：作者把陶器理解任務(wù)劃分為若干類（例如材質(zhì)、工藝、形制、產(chǎn)地/歸屬、年代、裝飾描述等），為后續(xù)診斷與差異化訓(xùn)練提供維度。
診斷評(píng)估：對(duì)SFT后的模型在每一類問(wèn)題上分別評(píng)測(cè)，識(shí)別哪些類型表現(xiàn)弱（例如歸屬推理與裝飾描述通常比簡(jiǎn)單事實(shí)類問(wèn)題更難）。
類型條件化強(qiáng)化學(xué)習(xí)：針對(duì)弱項(xiàng)設(shè)計(jì)加權(quán)獎(jiǎng)勵(lì)，獎(jiǎng)勵(lì)由「關(guān)鍵詞命中率 + 語(yǔ)義相似度」組成；同時(shí)采用帶KL正則的策略更新手段避免模型過(guò)度偏離原有SFT行為。作者還引入一種穩(wěn)定化的策略優(yōu)化方法（論文提出的變體）來(lái)保證訓(xùn)練穩(wěn)定。
按類型細(xì)化評(píng)估指標(biāo)：不同問(wèn)題類型采用更合適的評(píng)價(jià)方式（比如對(duì)描述類用生成質(zhì)量指標(biāo)，對(duì)事實(shí)類用字符/關(guān)鍵詞相似度），避免單一指標(biāo)一刀切。

圖2：VaseVL的整體框架。該方法將有監(jiān)督微調(diào)（SFT）與基于組相對(duì)策略優(yōu)化（GRPO）的強(qiáng)化學(xué)習(xí)相結(jié)合。給定陶瓶圖像x、問(wèn)題q 和參考答案a^*，模型通過(guò)在詞匯獎(jiǎng)勵(lì)與語(yǔ)義獎(jiǎng)勵(lì)之間取得平衡，并限制策略偏離參考策略，從而提升其推理能力。

數(shù)據(jù)與基準(zhǔn)（VaseVQA）

讓評(píng)測(cè)更具信服力

為了能系統(tǒng)評(píng)估上述方法，研究人員同時(shí)構(gòu)建了一個(gè)面向古希臘陶器的多模態(tài)問(wèn)答基準(zhǔn)（VaseVQA）。

該基準(zhǔn)覆蓋大量陶器圖片與多類型問(wèn)答對(duì)，且在標(biāo)注上引入專家審校，力求兼顧規(guī)模與專業(yè)性。更重要的是，基準(zhǔn)把任務(wù)按問(wèn)題類型拆分，使得模型的薄弱處能被明確定位并針對(duì)性優(yōu)化。

表1：VaseVQA基準(zhǔn)測(cè)試上的性能比較。RL代表推理注入。

關(guān)鍵發(fā)現(xiàn)與實(shí)證價(jià)值

論文的實(shí)驗(yàn)顯示：

僅做SFT能顯著提升模型的基礎(chǔ)識(shí)別能力，但在歸屬推理和復(fù)雜描述上仍有限；
在診斷基礎(chǔ)上做類型條件化RL優(yōu)化后，模型在那些先前薄弱的類型上有可觀提升——這說(shuō)明「補(bǔ)弱導(dǎo)向」的訓(xùn)練策略在專業(yè)垂直任務(wù)上很有效；
細(xì)粒度的評(píng)價(jià)（按問(wèn)題類型）對(duì)于判斷模型真實(shí)能力與設(shè)計(jì)針對(duì)性改進(jìn)尤為重要。

表2：消融實(shí)驗(yàn)結(jié)果說(shuō)明。RI表示Reasoning Injection（推理注入）。Qwen2.5-VL-SFT表示前述模型經(jīng)過(guò) 有監(jiān)督微調(diào)（SFT） 的版本，而最后一行展示的是提出的VaseVL 模型的性能表現(xiàn)。

意義、局限與可推廣方向

這項(xiàng)工作最有價(jià)值的，不只是把一個(gè)模型調(diào)好，而是提出了一套「如何讓通用多模態(tài)模型在高度專業(yè)領(lǐng)域變得可靠」的方法論：任務(wù)分層 → 定位薄弱 → 有針對(duì)性地微調(diào)與評(píng)估。

它對(duì)文化遺產(chǎn)、醫(yī)學(xué)影像、材料科學(xué)等其他垂直領(lǐng)域都有啟發(fā)意義。

但需謹(jǐn)慎的一點(diǎn)是：強(qiáng)化學(xué)習(xí)階段高度依賴獎(jiǎng)勵(lì)設(shè)計(jì)，若獎(jiǎng)勵(lì)不當(dāng)或數(shù)據(jù)偏倚，模型可能學(xué)習(xí)到新的偏差。

此外，許多考古歸屬問(wèn)題本身具有主觀性與學(xué)術(shù)爭(zhēng)議，模型輸出仍需專家把關(guān)作為輔助工具而非最終裁決。

VaseVQA展示了把「領(lǐng)域診斷」嵌入多模態(tài)訓(xùn)練流程的可行路徑。

文化遺產(chǎn)與AI的結(jié)合，不應(yīng)僅止于表層識(shí)別，而應(yīng)追求「可解釋、可校驗(yàn)、有專家協(xié)同」的工具化落地。

未來(lái)，當(dāng)這類方法被更廣泛采納，不同學(xué)科的專家與工程師協(xié)作，就能把AI打造成真正有助于保護(hù)與理解人類文化記憶的可靠伙伴。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="1ld8f"></style>

<sub id="1ld8f"><p id="1ld8f"></p></sub>

<sub id="1ld8f"><p id="1ld8f"></p></sub>

<style id="1ld8f"></style>