聊聊理解&生成多模態(tài)大模型的「技術(shù)難點(diǎn)」和「技術(shù)突破」思路
你有沒有過這種經(jīng)歷?讓AI畫一只"戴紅圍巾的黑貓",出來的卻是只"穿紅衣服的黑貓"。明明AI已經(jīng)能寫論文、編代碼,怎么看個圖、畫個畫還這么不靠譜?
最近突然想通了這個問題,未來2-3年,多模態(tài)領(lǐng)域會迎來兩個堪比GPT-4的"大爆發(fā)"時刻——這可能意味著,過不了多久,AI不僅能看懂你的圖、聽懂你的話,甚至能像人一樣"邊想邊畫"、"自主學(xué)習(xí)"。
為什么多模態(tài)理解生成難突破?
先從一個奇怪的現(xiàn)象說起:現(xiàn)在的AI,語言能力和視覺能力像是"兩條平行線"。
比如你讓大模型寫一篇"如何養(yǎng)多肉"的文章,它能把澆水頻率、光照需求說得頭頭是道;但你讓他“生成養(yǎng)殖多肉的教程圖片”,卻發(fā)現(xiàn)最后只是生成了一盆多肉的圖片,根本沒有教程。
這不是因?yàn)锳I"笨",而是它的"語言腦"和"視覺腦"沒打通。團(tuán)隊做過一個實(shí)驗(yàn):訓(xùn)練一個能同時處理文字和圖片的模型,結(jié)果發(fā)現(xiàn)一個尷尬的事——模型的"理解模塊"(看懂圖片)和"生成模塊"(畫出圖片)幾乎互不影響。就像一個人左眼看書、右眼畫畫,左眼看到的內(nèi)容,右眼完全用不上。
為什么會這樣?打個比方:語言就像精準(zhǔn)的坐標(biāo),每個詞都有明確的含義("紅色"就是波長620-750nm的光);但視覺更像一團(tuán)模糊的印象,你說"夕陽紅",有人想到橘色,有人想到粉色。AI想用語言精準(zhǔn)控制視覺,就像用筷子夾水里的魚——總差那么一點(diǎn)。
更麻煩的是數(shù)據(jù)問題。互聯(lián)網(wǎng)上的圖文數(shù)據(jù)看似多,實(shí)則"水分"很大。比如一篇講"貓咪減肥"的文章,配的可能是一張貓咪睡覺的圖;一個"如何修自行車"的教程,圖片和步驟完全對不上。AI學(xué)了這些"錯位數(shù)據(jù)",自然容易"說一套、畫一套"。
大模型越大,數(shù)學(xué)越差?問題出在"跳步"
如果說多模態(tài)的問題是"協(xié)調(diào)能力差",那語言模型自身的問題就更有意思了:模型越大,數(shù)學(xué)越差。
團(tuán)隊做過一個極端實(shí)驗(yàn):訓(xùn)練了一個萬億參數(shù)的大模型,發(fā)現(xiàn)它寫散文、答常識題的能力遠(yuǎn)超小模型,但做數(shù)學(xué)題時,正確率居然比70億參數(shù)的小模型還低。
這就像班里的"學(xué)霸",背課文、寫作文樣樣第一,偏偏做數(shù)學(xué)題總跳步——3+5×2,他直接寫16(其實(shí)正確答案是13)。不是不會,而是懶得寫步驟,覺得"反正差不多"。
為什么會這樣?核心問題出在大模型的"生存邏輯"上?,F(xiàn)在的大模型都靠"Next Token Prediction"(下一個詞預(yù)測)工作,簡單說就是"猜下一個詞最可能是什么"。這種邏輯本質(zhì)是"壓縮信息",就像記筆記時總愛簡寫——能少寫一個字,絕不多寫。
但數(shù)學(xué)題偏偏需要"一步都不能少"。比如算1234×5678,你必須一步步拆開來算,跳過任何一步都可能錯。大模型為了"壓縮信息",天生就愛跳步,遇到需要精確推理的任務(wù),自然容易掉鏈子。
o1模型為什么突然變聰明了?因?yàn)樗鼤?反悔"
今年OpenAI的o1模型橫空出世,突然把數(shù)學(xué)題正確率提了一大截。很多人以為是參數(shù)更大了,其實(shí)是因?yàn)樗鼘W(xué)會了"反悔"。
就像做數(shù)學(xué)題時,你寫著寫著發(fā)現(xiàn)"這步算錯了",于是劃掉重寫——o1就有這能力。傳統(tǒng)大模型推理時像"單行道",一旦寫錯一個詞,后面全跟著錯;o1卻能在關(guān)鍵節(jié)點(diǎn)"拐回頭",換條路重新走。
這叫做"Meta CoT思維鏈"或是“覺醒時刻”。打個比方:傳統(tǒng)模型像只會"直走"的導(dǎo)航,哪怕前面是死胡同,也硬著頭往前沖;o1則像會"掉頭"的司機(jī),發(fā)現(xiàn)走錯了就倒回來,換條路再試。
更妙的是,o1不是瞎試。它會在"關(guān)鍵岔路口"多停留一會兒——比如解幾何題時,先想"要不要做輔助線",想不清楚就先試一條,不對再換一條。這種"試錯-修正"的模式,其實(shí)和人類解難題的思路一模一樣。
多模態(tài)的下一個爆發(fā)點(diǎn):讓AI"邊想邊畫"
o1的突破給了多模態(tài)一個重要啟發(fā):要讓AI"看懂圖、畫對圖",光靠"語言指揮視覺"不夠,還得讓它在視覺空間里"慢慢想"。
你有沒有發(fā)現(xiàn),人看復(fù)雜圖片時,總會"動手動腳"?比如數(shù)圖片里有幾只鳥,會用手指著數(shù);走迷宮時,會在紙上畫路線。這些動作不是多余的,而是"視覺思考"的一部分——就像算數(shù)學(xué)題要打草稿。
但現(xiàn)在的AI看圖片,就像被綁住手腳的人在做題——只能"盯著看",不能做標(biāo)記、畫輔助線。團(tuán)隊做過一個嘗試:給AI加了"在圖片上圈點(diǎn)、連線"的能力,結(jié)果它數(shù)數(shù)、走迷宮的正確率一下子提高了30%。
這還只是開始。真正的"多模態(tài)推理時刻",應(yīng)該是AI能像設(shè)計師一樣"邊想邊畫":比如你讓它設(shè)計一個"帶書架的書桌",它會先畫個草圖,自言自語"這里書架太矮了",然后擦掉重畫,直到滿意為止。
這個時刻可能一年內(nèi)就會到來??梢酝诰蚪虒W(xué)視頻里的"寶藏"——那些老師用激光筆指重點(diǎn)、在黑板上打草稿的畫面,恰恰是AI最需要的"視覺思考教材"。
比"看懂圖"更重要的:AI能自己"找東西學(xué)"
如果說多模態(tài)推理是"讓AI會思考",那另一個"關(guān)鍵時刻"就是"讓AI愛思考"——自主學(xué)習(xí)。
現(xiàn)在的AI就像被家長盯著寫作業(yè)的孩子:你給它一套題,它會做;但你不給題,它就坐著發(fā)呆。想讓它學(xué)新知識?必須人工整理好數(shù)據(jù)、定好目標(biāo),否則它根本不知道"該學(xué)什么"。
但人類的學(xué)習(xí)不是這樣的。小孩看到螞蟻搬家,會蹲在地上看一下午,自己琢磨"它們?nèi)ツ?;你第一次用新手機(jī),會自己點(diǎn)點(diǎn)戳戳,摸索功能。這種"自己找目標(biāo)、自己總結(jié)經(jīng)驗(yàn)"的能力,才是智能的核心。
自主學(xué)習(xí)的關(guān)鍵是讓AI有"內(nèi)生動力"?,F(xiàn)在的AI學(xué)習(xí)靠"外部獎勵"(比如做對題給高分),就像孩子靠"考100分買玩具"驅(qū)動;未來的AI應(yīng)該像成年人"為了成長而學(xué)習(xí)",自己判斷"這件事有沒有價值",自己調(diào)整學(xué)習(xí)方向。
比如一個自主學(xué)習(xí)的AI,看到你總在晚上查菜譜,可能會自己去學(xué)"如何根據(jù)季節(jié)推薦菜譜";發(fā)現(xiàn)自己畫動物總比例失調(diào),會主動找解剖學(xué)資料補(bǔ)課。這聽起來有點(diǎn)像"AI有了好奇心",但本質(zhì)是它能從環(huán)境中"提煉目標(biāo)",而不是等著人類給指令。
最后說點(diǎn)實(shí)在的:這對我們意味著什么?
可能不用等太久,你手機(jī)里的AI助手會發(fā)生幾個明顯變化:
它看圖片會更"仔細(xì)"——你拍張家電故障圖,它能圈出"這里的電容燒了";你讓它畫"公司年會海報",它會先問你"要突出抽獎還是表演",改幾版直到你點(diǎn)頭。
它會更"主動"——你說"想給孩子做科學(xué)小實(shí)驗(yàn)",它不僅會列材料,還會自己查最近的天氣,提醒你"今天有風(fēng),不適合做氣球?qū)嶒?yàn)"。
當(dāng)然,AI還會犯錯。但就像GPT-4的出現(xiàn)讓我們重新定義"智能",這兩個"多模態(tài)時刻"可能會讓我們重新思考:當(dāng)AI能"看懂世界、自主學(xué)習(xí)",人和機(jī)器的邊界會在哪里?
參考資料:???專訪張祥雨:多模態(tài)推理和自主學(xué)習(xí)是未來的 2 個 「GPT-4」 時刻??
本文轉(zhuǎn)載自?????旺知識??,作者:旺知識


















