偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

聊聊理解&生成多模態(tài)大模型的「技術(shù)難點(diǎn)」和「技術(shù)突破」思路

十一月雨_55

發(fā)布于 2025-7-22 06:48

瀏覽

0收藏

你有沒有過這種經(jīng)歷？讓AI畫一只"戴紅圍巾的黑貓"，出來的卻是只"穿紅衣服的黑貓"。明明AI已經(jīng)能寫論文、編代碼，怎么看個圖、畫個畫還這么不靠譜？

最近突然想通了這個問題，未來2-3年，多模態(tài)領(lǐng)域會迎來兩個堪比GPT-4的"大爆發(fā)"時刻——這可能意味著，過不了多久，AI不僅能看懂你的圖、聽懂你的話，甚至能像人一樣"邊想邊畫"、"自主學(xué)習(xí)"。

為什么多模態(tài)理解生成難突破？

先從一個奇怪的現(xiàn)象說起：現(xiàn)在的AI，語言能力和視覺能力像是"兩條平行線"。

比如你讓大模型寫一篇"如何養(yǎng)多肉"的文章，它能把澆水頻率、光照需求說得頭頭是道；但你讓他“生成養(yǎng)殖多肉的教程圖片”，卻發(fā)現(xiàn)最后只是生成了一盆多肉的圖片，根本沒有教程。

這不是因?yàn)锳I"笨"，而是它的"語言腦"和"視覺腦"沒打通。團(tuán)隊做過一個實(shí)驗(yàn)：訓(xùn)練一個能同時處理文字和圖片的模型，結(jié)果發(fā)現(xiàn)一個尷尬的事——模型的"理解模塊"（看懂圖片）和"生成模塊"（畫出圖片）幾乎互不影響。就像一個人左眼看書、右眼畫畫，左眼看到的內(nèi)容，右眼完全用不上。

為什么會這樣？打個比方：語言就像精準(zhǔn)的坐標(biāo)，每個詞都有明確的含義（"紅色"就是波長620-750nm的光）；但視覺更像一團(tuán)模糊的印象，你說"夕陽紅"，有人想到橘色，有人想到粉色。AI想用語言精準(zhǔn)控制視覺，就像用筷子夾水里的魚——總差那么一點(diǎn)。

更麻煩的是數(shù)據(jù)問題。互聯(lián)網(wǎng)上的圖文數(shù)據(jù)看似多，實(shí)則"水分"很大。比如一篇講"貓咪減肥"的文章，配的可能是一張貓咪睡覺的圖；一個"如何修自行車"的教程，圖片和步驟完全對不上。AI學(xué)了這些"錯位數(shù)據(jù)"，自然容易"說一套、畫一套"。

大模型越大，數(shù)學(xué)越差？問題出在"跳步"

如果說多模態(tài)的問題是"協(xié)調(diào)能力差"，那語言模型自身的問題就更有意思了：模型越大，數(shù)學(xué)越差。

團(tuán)隊做過一個極端實(shí)驗(yàn)：訓(xùn)練了一個萬億參數(shù)的大模型，發(fā)現(xiàn)它寫散文、答常識題的能力遠(yuǎn)超小模型，但做數(shù)學(xué)題時，正確率居然比70億參數(shù)的小模型還低。

這就像班里的"學(xué)霸"，背課文、寫作文樣樣第一，偏偏做數(shù)學(xué)題總跳步——3+5×2，他直接寫16（其實(shí)正確答案是13）。不是不會，而是懶得寫步驟，覺得"反正差不多"。

為什么會這樣？核心問題出在大模型的"生存邏輯"上?，F(xiàn)在的大模型都靠"Next Token Prediction"（下一個詞預(yù)測）工作，簡單說就是"猜下一個詞最可能是什么"。這種邏輯本質(zhì)是"壓縮信息"，就像記筆記時總愛簡寫——能少寫一個字，絕不多寫。

但數(shù)學(xué)題偏偏需要"一步都不能少"。比如算1234×5678，你必須一步步拆開來算，跳過任何一步都可能錯。大模型為了"壓縮信息"，天生就愛跳步，遇到需要精確推理的任務(wù)，自然容易掉鏈子。

o1模型為什么突然變聰明了？因?yàn)樗鼤?反悔"

今年OpenAI的o1模型橫空出世，突然把數(shù)學(xué)題正確率提了一大截。很多人以為是參數(shù)更大了，其實(shí)是因?yàn)樗鼘W(xué)會了"反悔"。

就像做數(shù)學(xué)題時，你寫著寫著發(fā)現(xiàn)"這步算錯了"，于是劃掉重寫——o1就有這能力。傳統(tǒng)大模型推理時像"單行道"，一旦寫錯一個詞，后面全跟著錯；o1卻能在關(guān)鍵節(jié)點(diǎn)"拐回頭"，換條路重新走。

這叫做"Meta CoT思維鏈"或是“覺醒時刻”。打個比方：傳統(tǒng)模型像只會"直走"的導(dǎo)航，哪怕前面是死胡同，也硬著頭往前沖；o1則像會"掉頭"的司機(jī)，發(fā)現(xiàn)走錯了就倒回來，換條路再試。

更妙的是，o1不是瞎試。它會在"關(guān)鍵岔路口"多停留一會兒——比如解幾何題時，先想"要不要做輔助線"，想不清楚就先試一條，不對再換一條。這種"試錯-修正"的模式，其實(shí)和人類解難題的思路一模一樣。

多模態(tài)的下一個爆發(fā)點(diǎn)：讓AI"邊想邊畫"

o1的突破給了多模態(tài)一個重要啟發(fā)：要讓AI"看懂圖、畫對圖"，光靠"語言指揮視覺"不夠，還得讓它在視覺空間里"慢慢想"。

你有沒有發(fā)現(xiàn)，人看復(fù)雜圖片時，總會"動手動腳"？比如數(shù)圖片里有幾只鳥，會用手指著數(shù)；走迷宮時，會在紙上畫路線。這些動作不是多余的，而是"視覺思考"的一部分——就像算數(shù)學(xué)題要打草稿。

但現(xiàn)在的AI看圖片，就像被綁住手腳的人在做題——只能"盯著看"，不能做標(biāo)記、畫輔助線。團(tuán)隊做過一個嘗試：給AI加了"在圖片上圈點(diǎn)、連線"的能力，結(jié)果它數(shù)數(shù)、走迷宮的正確率一下子提高了30%。

這還只是開始。真正的"多模態(tài)推理時刻"，應(yīng)該是AI能像設(shè)計師一樣"邊想邊畫"：比如你讓它設(shè)計一個"帶書架的書桌"，它會先畫個草圖，自言自語"這里書架太矮了"，然后擦掉重畫，直到滿意為止。

這個時刻可能一年內(nèi)就會到來?？梢酝诰蚪虒W(xué)視頻里的"寶藏"——那些老師用激光筆指重點(diǎn)、在黑板上打草稿的畫面，恰恰是AI最需要的"視覺思考教材"。

比"看懂圖"更重要的：AI能自己"找東西學(xué)"

如果說多模態(tài)推理是"讓AI會思考"，那另一個"關(guān)鍵時刻"就是"讓AI愛思考"——自主學(xué)習(xí)。

現(xiàn)在的AI就像被家長盯著寫作業(yè)的孩子：你給它一套題，它會做；但你不給題，它就坐著發(fā)呆。想讓它學(xué)新知識？必須人工整理好數(shù)據(jù)、定好目標(biāo)，否則它根本不知道"該學(xué)什么"。

但人類的學(xué)習(xí)不是這樣的。小孩看到螞蟻搬家，會蹲在地上看一下午，自己琢磨"它們?nèi)ツ?；你第一次用新手機(jī)，會自己點(diǎn)點(diǎn)戳戳，摸索功能。這種"自己找目標(biāo)、自己總結(jié)經(jīng)驗(yàn)"的能力，才是智能的核心。

自主學(xué)習(xí)的關(guān)鍵是讓AI有"內(nèi)生動力"?，F(xiàn)在的AI學(xué)習(xí)靠"外部獎勵"（比如做對題給高分），就像孩子靠"考100分買玩具"驅(qū)動；未來的AI應(yīng)該像成年人"為了成長而學(xué)習(xí)"，自己判斷"這件事有沒有價值"，自己調(diào)整學(xué)習(xí)方向。

比如一個自主學(xué)習(xí)的AI，看到你總在晚上查菜譜，可能會自己去學(xué)"如何根據(jù)季節(jié)推薦菜譜"；發(fā)現(xiàn)自己畫動物總比例失調(diào)，會主動找解剖學(xué)資料補(bǔ)課。這聽起來有點(diǎn)像"AI有了好奇心"，但本質(zhì)是它能從環(huán)境中"提煉目標(biāo)"，而不是等著人類給指令。

最后說點(diǎn)實(shí)在的：這對我們意味著什么？

可能不用等太久，你手機(jī)里的AI助手會發(fā)生幾個明顯變化：

它看圖片會更"仔細(xì)"——你拍張家電故障圖，它能圈出"這里的電容燒了"；你讓它畫"公司年會海報"，它會先問你"要突出抽獎還是表演"，改幾版直到你點(diǎn)頭。

它會更"主動"——你說"想給孩子做科學(xué)小實(shí)驗(yàn)"，它不僅會列材料，還會自己查最近的天氣，提醒你"今天有風(fēng)，不適合做氣球?qū)嶒?yàn)"。

當(dāng)然，AI還會犯錯。但就像GPT-4的出現(xiàn)讓我們重新定義"智能"，這兩個"多模態(tài)時刻"可能會讓我們重新思考：當(dāng)AI能"看懂世界、自主學(xué)習(xí)"，人和機(jī)器的邊界會在哪里？

參考資料：???專訪張祥雨：多模態(tài)推理和自主學(xué)習(xí)是未來的 2 個「GPT-4」時刻??

本文轉(zhuǎn)載自?????旺知識??，作者：旺知識

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

SEED-Bench：基于生成理解的多模態(tài)大語言模型基準(zhǔn)測試（CVPR2024）

AIRoobt ? 9332瀏覽 ? 0回復(fù)
多模態(tài)大模型的實(shí)現(xiàn)原理，以及技術(shù)難點(diǎn)

AI探索時代 ? 7793瀏覽 ? 0回復(fù)
大模型技術(shù)學(xué)習(xí)之——大模型常用架構(gòu)以及技術(shù)難點(diǎn)

AI探索時代 ? 5390瀏覽 ? 0回復(fù)
多模態(tài)大模型之模態(tài)融合的注意點(diǎn)及難點(diǎn)

AI探索時代 ? 8879瀏覽 ? 0回復(fù)
視頻生成類大模型實(shí)現(xiàn)原理以及應(yīng)用和難點(diǎn)

AI探索時代 ? 6206瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解）

angel ? 5939瀏覽 ? 0回復(fù)
統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!

angel ? 4718瀏覽 ? 0回復(fù)
Janus 統(tǒng)一多模態(tài)理解和生成

kede96 ? 4123瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評測基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢

十一月雨_55 ? 1.3w瀏覽 ? 0回復(fù)
大模型技術(shù)全面解析，從大模型的概念，技術(shù)，應(yīng)用和挑戰(zhàn)多個方面介紹大模型

AI探索時代 ? 2.2w瀏覽 ? 0回復(fù)
大模型技術(shù)的重點(diǎn)與難點(diǎn)，以及在實(shí)際操作中需要注意的事項

AI探索時代 ? 8132瀏覽 ? 0回復(fù)
使用大模型實(shí)現(xiàn)一個聊天機(jī)器人思路以及困難點(diǎn)

AI探索時代 ? 4630瀏覽 ? 0回復(fù)
OCR-free感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 4477瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的空間智能探秘：突破與挑戰(zhàn)

十一月雨_55 ? 3889瀏覽 ? 0回復(fù)
Reyes：一個從0到1開始訓(xùn)練的多模態(tài)大模型（技術(shù)報告）

大模型自然語言處理 ? 3799瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎勵模型；將獎勵模型多模態(tài)情緒識別上

AI研究前瞻 ? 3507瀏覽 ? 0回復(fù)
多模態(tài)大模型Ovis核心技術(shù)點(diǎn)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 3473瀏覽 ? 0回復(fù)
ICML 2025 | 快手&上交提出統(tǒng)一多模態(tài)生成理解模型Orthus：多模態(tài)理解/圖像編輯/圖文交織生成一鍵搞定

AIGCStudio ? 3877瀏覽 ? 0回復(fù)
Meta CWM：代碼世界模型的技術(shù)突破

魯班模錘1 ? 1782瀏覽 ? 0回復(fù)

十一月雨_55

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

一文讀懂AI應(yīng)用上下文工程(Context Engineering) 2025-10-22 07:34:54發(fā)布
NUS+浙大+港中文聯(lián)合出品視覺強(qiáng)化學(xué)習(xí)全景綜述：200+研究拆解4大核心領(lǐng)域 2025-10-22 07:34:38發(fā)布

熱門推薦

微軟CVPR'25簡明教程：強(qiáng)化學(xué)習(xí)訓(xùn)練多模態(tài)智能體，構(gòu)建感知思考行動完整閉環(huán)！ 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

上一篇：大語言模型Agent上下文工程綜述：AI 的 “上下文密碼” ，從提示詞到多智能體，這篇綜述講透了

下一篇：自進(jìn)化智能體全面綜述：三大核心密碼揭秘邁向超級人工智能之路

社區(qū)精華內(nèi)容

目錄

<samp id="1dvzd"></samp>

<nav id="1dvzd"><fieldset id="1dvzd"><label id="1dvzd"></label></fieldset></nav>