偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讀萬(wàn)卷書,大模型就能「看」懂視覺世界?Meta揭秘LLM視覺先驗(yàn)的起源

人工智能 新聞
近日,Meta 超級(jí)智能實(shí)驗(yàn)室(Meta Superintelligence Labs)與牛津大學(xué)的研究者發(fā)布了一篇長(zhǎng)達(dá) 33 頁(yè)的重磅論文,通過超過 100 組受控實(shí)驗(yàn)、耗費(fèi) 50 萬(wàn) GPU 小時(shí)的龐大研究,系統(tǒng)性地揭開了 LLM 視覺先驗(yàn)的來(lái)源。

一個(gè)只見過文本的大語(yǔ)言模型(LLM),在從未直接看過圖像的情況下,竟然能學(xué)到可遷移到視覺任務(wù)的先驗(yàn)?zāi)芰?—— 這是 Meta Superintelligence Labs 與牛津團(tuán)隊(duì)新論文的發(fā)現(xiàn)。

近日,Meta 超級(jí)智能實(shí)驗(yàn)室(Meta Superintelligence Labs)與牛津大學(xué)的研究者發(fā)布了一篇長(zhǎng)達(dá) 33 頁(yè)的重磅論文,通過超過 100 組受控實(shí)驗(yàn)、耗費(fèi) 50 萬(wàn) GPU 小時(shí)的龐大研究,系統(tǒng)性地揭開了 LLM 視覺先驗(yàn)的來(lái)源。 作者提出,視覺先驗(yàn)可分為「推理先驗(yàn)」和「感知先驗(yàn)」,并給出了一套預(yù)訓(xùn)練的數(shù)據(jù)混合配方,用于在只用文本預(yù)訓(xùn)練階段就「播下」視覺能力的種子。

這項(xiàng)研究不僅解釋了 LLM 無(wú)師自通學(xué)會(huì)看的秘密,更提出了一套預(yù)訓(xùn)練的數(shù)據(jù)配方,旨在從語(yǔ)言預(yù)訓(xùn)練階段就有意地培養(yǎng)模型的視覺能力,為下一代更強(qiáng)大的多模態(tài)大模型鋪平道路。

  • 論文標(biāo)題:Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training
  • 論文鏈接:https://arxiv.org/pdf/2509.26625
  • 項(xiàng)目地址:https://junlinhan.github.io/projects/lsbs/

核心洞察:LLM 視覺先驗(yàn)并非鐵板一塊,源于兩種獨(dú)立的「先驗(yàn)知識(shí)」

研究最重要的發(fā)現(xiàn)是,LLM 從語(yǔ)言中獲得的「視覺先驗(yàn)」(Visual Priors)并非單一的能力,而是可以分解為兩種來(lái)源和特性截然不同的部分:

  1. 推理先驗(yàn) (Reasoning Prior):一種更抽象、跨模態(tài)的通用能力。它主要通過預(yù)訓(xùn)練以推理為中心的數(shù)據(jù)(如代碼、數(shù)學(xué)、學(xué)術(shù)論文)來(lái)獲得。就像人類通過學(xué)習(xí)邏輯和數(shù)學(xué)來(lái)構(gòu)建推理框架一樣,LLM 通過學(xué)習(xí)這些結(jié)構(gòu)化文本,掌握了可遷移的、普適的推理能力,這種能力可以直接應(yīng)用于解決復(fù)雜的視覺問題。
  2. 感知先驗(yàn) (Perception Prior):這更側(cè)重于對(duì)具體視覺概念的認(rèn)知,比如識(shí)別物體的顏色、形狀和名稱。這種能力并非來(lái)自某一特定類型的數(shù)據(jù),而是從廣泛、多樣的通用語(yǔ)料(如網(wǎng)頁(yè)抓取)中「彌散式」地浮現(xiàn)出來(lái)。多模態(tài)大模型的感知能力對(duì)視覺指令微調(diào)和所選用的視覺編碼器更為敏感。

關(guān)鍵發(fā)現(xiàn):少量視覺描述就夠,海量推理數(shù)據(jù)是關(guān)鍵

大量實(shí)驗(yàn):系統(tǒng)性揭秘 LLM 的視覺先驗(yàn)

團(tuán)隊(duì)進(jìn)行了一系列精巧的實(shí)驗(yàn),實(shí)驗(yàn)采用常見的 adapter-style 多模態(tài)適配流程 —— 先在只讀文本的基礎(chǔ)上預(yù)訓(xùn)練多種解碼器式 LLM(沿用 Llama-3 風(fēng)格架構(gòu),模型尺度從 340M 到 13B 不等,核心對(duì)比以 3B/7B 模型 為主),然后用同樣的「視覺對(duì)齊 + 監(jiān)督微調(diào)」的兩階段流程把視覺能力接入來(lái)衡量視覺先驗(yàn),得出了 6 個(gè)結(jié)論并引入 3 個(gè)假設(shè),這里節(jié)選:

  • 能力的起源有跡可循:通過對(duì) 16 種不同單一數(shù)據(jù)源的獨(dú)立訓(xùn)練,研究發(fā)現(xiàn),在「代碼」「數(shù)學(xué)」和「學(xué)術(shù)」數(shù)據(jù)上訓(xùn)練的模型,在需要抽象推理的視覺任務(wù)(Vision-Centric VQA)上表現(xiàn)最好。

  • 推理數(shù)據(jù)多多益善,視覺數(shù)據(jù)很快飽和:實(shí)驗(yàn)表明,在預(yù)訓(xùn)練數(shù)據(jù)中,不斷增加推理密集型文本(如代碼)的比例,模型的下游視覺推理能力會(huì)持續(xù)、顯著地提升,直到占比達(dá)到 75% 左右。與此形成鮮明對(duì)比的是,描述視覺世界的文本(如描述顏色、形狀、位置的文字)雖然重要,但其效果會(huì)迅速飽和。只需一小部分這類數(shù)據(jù)為模型打下基礎(chǔ),再多就收效甚微了。

  • 推理能力是通用的,感知能力更依賴「后天」:研究進(jìn)一步證實(shí),「推理先驗(yàn)」是獨(dú)立于視覺編碼器的通用能力。無(wú)論后期與哪種視覺模塊結(jié)合,只要 LLM 在預(yù)訓(xùn)練階段學(xué)到了強(qiáng)大的推理能力,其多模態(tài)系統(tǒng)的推理表現(xiàn)都會(huì)相應(yīng)提升。而「感知先驗(yàn)」則不同,它更依賴于后期的視覺微調(diào)數(shù)據(jù)和視覺編碼器本身的特性。

簡(jiǎn)單來(lái)說(shuō),想要讓一個(gè) LLM 擁有強(qiáng)大的視覺潛力,關(guān)鍵不是給它讀無(wú)數(shù)遍「天空是藍(lán)色的」,而是讓它通過解數(shù)學(xué)題、讀代碼來(lái)把「腦子」練聰明。

從理論到實(shí)踐:一份增強(qiáng)視覺先驗(yàn)的數(shù)據(jù)預(yù)訓(xùn)練配方

基于以上發(fā)現(xiàn),研究團(tuán)隊(duì)的目標(biāo)從「解釋現(xiàn)象」轉(zhuǎn)向了「主動(dòng)創(chuàng)造」。他們通過系統(tǒng)的實(shí)驗(yàn),最終調(diào)配出了一套最優(yōu)的數(shù)據(jù)混合方案,旨在平衡模型的語(yǔ)言能力和視覺潛力。

實(shí)驗(yàn)結(jié)果表明,通過采用這種富含推理內(nèi)容、同時(shí)配有適量視覺世界知識(shí)的「平衡配方」(Balanced model),訓(xùn)練出的 7B 模型在語(yǔ)言能力上與專門優(yōu)化語(yǔ)言任務(wù)的預(yù)訓(xùn)配方訓(xùn)練的模型達(dá)到了更優(yōu),同時(shí)在所有視覺基準(zhǔn)測(cè)試中都實(shí)現(xiàn)了全面超越。

這證明了,通過精心設(shè)計(jì)文本預(yù)訓(xùn)練數(shù)據(jù),我們可以「未卜先知」地為模型注入強(qiáng)大的視覺先驗(yàn)。

意義與展望

這項(xiàng)研究的意義深遠(yuǎn),它將多模態(tài)模型能力的培養(yǎng),從依賴下游微調(diào)提前到了語(yǔ)言預(yù)訓(xùn)練階段。

它展示了,核心的推理能力是一種可遷移、與模態(tài)無(wú)關(guān)的基石。這為「柏拉圖表征假說(shuō)」(Platonic Representation Hypothesis)提供了有力的經(jīng)驗(yàn)支持 —— 即文本和圖像只是現(xiàn)實(shí)世界在不同模態(tài)下的「投影」,一個(gè)足夠強(qiáng)大的模型可以僅從一種投影中,學(xué)習(xí)到這個(gè)世界的統(tǒng)一內(nèi)在結(jié)構(gòu)。

未來(lái),LLM 的預(yù)訓(xùn)練將不再僅僅是單模態(tài)的事。模型設(shè)計(jì)者從一開始就可以考慮其未來(lái)的多模態(tài)應(yīng)用,通過在預(yù)訓(xùn)練階段「播下視覺的種子」,來(lái)構(gòu)建一個(gè)更強(qiáng)大的跨模態(tài)智能基礎(chǔ)。

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)分析,請(qǐng)參閱原論文。

作者介紹

韓俊霖(Junlin Han)是這篇論文的第一作者兼項(xiàng)目負(fù)責(zé)人。他目前是 Meta 超級(jí)智能實(shí)驗(yàn)室的研究員,同時(shí)也是牛津大學(xué) Torr Vision Group 的博士生,師從 Philip Torr 教授。他的研究興趣聚焦多模態(tài)智能系統(tǒng),先后在跨模態(tài)數(shù)據(jù)生成、3D 生成模型等領(lǐng)域開展研究。此前,他以一等榮譽(yù)畢業(yè)于澳大利亞國(guó)立大學(xué),曾在頂級(jí)會(huì)議多次發(fā)表重要研究成果并組織研討會(huì)。 

文章第二作者 Peter Tong(童晟邦 / Shengbang Tong),目前是紐約大學(xué) Courant 計(jì)算機(jī)科學(xué)系的博士生,導(dǎo)師包括 Yann LeCun 和 Saining Xie。他曾在伯克利人工智能實(shí)驗(yàn)室 (BAIR) 進(jìn)行本科研究,師從馬毅教授。研究方向包括世界模型 (world model)、無(wú)監(jiān)督 / 自監(jiān)督學(xué)習(xí)、生成模型與多模態(tài)模型。他曾獲得了 OpenAI Superalignment Fellowship 和 Meta 的博士項(xiàng)目資助。

第三作者 David Fan 現(xiàn)任 Meta FAIR 的高級(jí)研究工程師。他的研究方向集中在多模態(tài)表征學(xué)習(xí)、視頻理解 / 自監(jiān)督學(xué)習(xí)等領(lǐng)域。 在加入 FAIR 之前,他曾在 Amazon Prime Video 擔(dān)任 Applied Research Scientist,參與視覺 - 語(yǔ)言 - 音頻融合模型、視頻理解和推薦系統(tǒng)等真實(shí)產(chǎn)品項(xiàng)目。他于普林斯頓大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)位。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-01-02 13:33:25

2024-03-05 11:18:14

模型訓(xùn)練

2025-07-02 09:17:13

2024-11-18 08:40:00

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-07-29 08:40:00

模型AILLM

2024-02-01 08:34:30

大模型推理框架NVIDIA

2021-05-14 13:42:45

機(jī)器人人工智能技術(shù)

2025-09-03 09:13:18

2021-04-01 10:00:34

AI 數(shù)據(jù)人工智能

2023-10-06 20:30:33

大模型LLMtoken

2024-01-31 09:43:55

模型訓(xùn)練

2025-03-03 09:22:00

2023-07-09 15:09:18

機(jī)器學(xué)習(xí)能力

2022-09-16 15:21:45

視覺解碼

2023-06-15 14:01:00

模型筆記

2025-09-28 07:28:06

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)