偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

死磕「文本智能」,多模態(tài)研究的下一個(gè)前沿

人工智能 新聞
隨著 GPT-5 等頂尖模型在現(xiàn)實(shí)生活中變得越來越實(shí)用,這樣的故事會(huì)越來越多。而這種變化之所以發(fā)生,一方面離不開模型本身「智能」的提升,另一方面也得益于整個(gè)智能系統(tǒng)對(duì)各類信息綜合理解能力的進(jìn)化。

前段時(shí)間,我們報(bào)道過一個(gè)非常有趣的現(xiàn)象 —— 在求醫(yī)問藥這件事上,越來越多的人開始求助于 AI 了,尤其是在病因難以明確的情況下。有人甚至聲稱 AI 幫自己分析出了求醫(yī)十年都未查出結(jié)果的「疑難雜癥」。

在 GPT-5 的發(fā)布會(huì)上,Sam Altman 甚至請(qǐng)來了一位癌癥患者,聽其講述 GPT-5 如何在她最無助的時(shí)候幫忙解讀活檢報(bào)告、權(quán)衡風(fēng)險(xiǎn),這讓她可以帶著對(duì)自己病情的清晰認(rèn)知與需要咨詢的重要問題走進(jìn)診室。

圖片

隨著 GPT-5 等頂尖模型在現(xiàn)實(shí)生活中變得越來越實(shí)用,這樣的故事會(huì)越來越多。而這種變化之所以發(fā)生,一方面離不開模型本身「智能」的提升,另一方面也得益于整個(gè)智能系統(tǒng)對(duì)各類信息綜合理解能力的進(jìn)化。

值得注意的是,這些信息有個(gè)共同點(diǎn)。無論是病歷里的化驗(yàn)單、影像報(bào)告、基因檢測表,還是醫(yī)生的文字診斷和患者的自述,它們雖然以不同模態(tài)存在,但歸根結(jié)底,它們都通過一種名為「文本」的載體來承載。

如果能讓 AI 真正看懂這些「文本」里隱藏的所有信息,那它能做的就不僅僅是「讀懂文字」(當(dāng)前有些 AI 雖然支持上傳圖像,但本質(zhì)仍是簡單地識(shí)別上面的文字),而是具備了對(duì)多模態(tài)信息的「立體化綜合理解」。這不僅是大模型深入醫(yī)療、金融等領(lǐng)域的「剛需」,也是其以機(jī)器人等形式真正走入物理世界的關(guān)鍵。

也正是在這樣的技術(shù)演化背景下,一個(gè)新的討論方向正在浮現(xiàn)。在今年的 PRCV 大會(huì)上,合合信息提出了一個(gè)頗具代表性的概念 ——「多模態(tài)文本智能」,并舉辦了以此為主題的精彩論壇。

這一概念的提出,為從業(yè)者提供了一個(gè)相對(duì)清晰的聚焦點(diǎn),也讓多模態(tài)研究有了更具體的落腳處。在論壇上,來自高校與企業(yè)的研究者圍繞感知、認(rèn)知、決策等關(guān)鍵環(huán)節(jié)展開討論,試圖厘清多模態(tài)文本智能尚待解決的那些難題。

多模態(tài)文本智能,研究啥? 

文本是人類對(duì)客觀世界認(rèn)識(shí)、理解和總結(jié)的沉淀,它們廣泛存在于文字、圖像、視頻等多模態(tài)的媒介形式之中,具有極高的信息密度。正是依托于這些高密度的文本數(shù)據(jù),本輪人工智能浪潮才得以實(shí)現(xiàn)前所未有的突破。

但迄今為止,AI 對(duì)文本的利用仍停留在表層,因?yàn)楝F(xiàn)有的技術(shù)還不足以把文本中沉淀的東西完整地「翻譯」成機(jī)器可以理解的語言。這類「難以翻譯」的文本數(shù)目驚人,僅 PDF 就可以達(dá)到 10B 級(jí)別。

小紅書 hi lab 團(tuán)隊(duì)算法工程師燕青在現(xiàn)場舉了一些直觀的例子,比如有些文本因?yàn)榘瑥?fù)雜的表格、公式而變得難以破解:

圖片

有些文本可能用一種并不常用的方式書寫:

圖片

即使版式、書寫方式都沒有跳出常規(guī),文本也會(huì)因多種信息的交織而變得復(fù)雜,比如合同的條款效力與簽名位置相關(guān),財(cái)報(bào)的數(shù)據(jù)陳述需對(duì)照表格驗(yàn)證,醫(yī)療報(bào)告的診斷結(jié)論依賴影像佐證……

從這些角度來看,原有的研究方向——無論是 OCR、文檔智能抑或當(dāng)前最火的多模態(tài)大模型——都不足以支撐這種深層次的理解,難以觸及信息背后的邏輯、結(jié)構(gòu)與語義關(guān)聯(lián)。

正因如此,「多模態(tài)文本智能」被提出。它試圖讓 AI 突破表層語義,實(shí)現(xiàn)對(duì)文本中多模態(tài)信息的「立體化綜合理解」,從而讓 AI 真正具備「讀懂」世界并主動(dòng)采取行動(dòng)的能力。

同時(shí),他們也指出,要讓這種愿景真正實(shí)現(xiàn),必須拆解成更細(xì)的技術(shù)路徑:從感知到認(rèn)知再到?jīng)Q策。這三層就像人類理解世界的過程:先看清楚,再想明白,最后做判斷。

目前,每一層都有亟待解決的問題,論壇嘉賓就此展開了討論。

感知與識(shí)別

讓機(jī)器「看清」文本

感知層面的任務(wù)非常明確,就是讓 AI 準(zhǔn)確識(shí)別來自不同來源的文字、圖像、表格、公式、印章、簽名等要素,并理解它們?cè)诳臻g與語義上的關(guān)系。

但就是這看起來最基礎(chǔ)的一步,做起來卻困難重重。文本模糊不清、版式復(fù)雜、語言多樣等因素都會(huì)影響識(shí)別結(jié)果,甚至還會(huì)誘發(fā)幻覺。

圖片

針對(duì)這些問題,現(xiàn)場嘉賓介紹了多種應(yīng)對(duì)方法。

合合信息圖像算法研發(fā)總監(jiān)郭豐俊介紹了他們?cè)谥悄芪臋n處理方向的進(jìn)展??梢钥吹?,經(jīng)過多年的摸索,他們已經(jīng)把「智能文檔處理」這件事情做成了一個(gè)技術(shù)體系。文檔圖像底層視覺處理、文字 / 文檔識(shí)別、版面分析與還原、通用文檔解析與抽取等都是他們的重點(diǎn)研發(fā)方向。每個(gè)方向都有很多棘手的子任務(wù),比如底層視覺處理方向有去摩爾紋、彎曲矯正、手寫去除;文字 / 文檔識(shí)別方向有文字識(shí)別、表格識(shí)別、場景文字識(shí)別、財(cái)報(bào)識(shí)別等。要形成這樣一個(gè)較為完整的技術(shù)體系,往往需要長期的積累與驗(yàn)證,不可能在短時(shí)間內(nèi)完成。

圖片

在現(xiàn)場,郭豐俊展示了部分子任務(wù)的實(shí)際效果。比如,在試卷還原場景中,他們的算法可以將卷面上密集、交錯(cuò)的筆跡完整去除,并通過濾鏡生成干凈、可讀性極高的圖像。

圖片

在去除摩爾紋這一難題上,他們的技術(shù)表現(xiàn)同樣令人印象深刻。

圖片

而且,這些技術(shù)已經(jīng)在他們的王牌產(chǎn)品 —— 掃描全能王中得到應(yīng)用。

論壇上的另外兩位嘉賓 —— 華中科技大學(xué)教授劉禹良和小紅書 hi lab 團(tuán)隊(duì)算法工程師燕青則介紹了他們?cè)谖臋n解析方面的進(jìn)展,只不過技術(shù)思路略有不同。

劉禹良介紹的 MonkeyOCR 可用于英文和中文文檔解析,它采用 Structure-Recognition-Relation(結(jié)構(gòu) - 識(shí)別 - 關(guān)系)三元組解析范式,可以快速、精準(zhǔn)地識(shí)別 PDF 等文檔并提取信息。這一范式簡化了模塊化方法的多工具流水線,同時(shí)避免了使用多模態(tài)大模型處理全頁文檔時(shí)的低效問題。目前,該項(xiàng)目在 GitHub 上已經(jīng)有 6000 多 star。

圖片

燕青介紹的 dots.ocr 支持多語言文檔的解析,能夠在單一模型中統(tǒng)一完成版面檢測、文本識(shí)別、表格解析、公式提取等任務(wù),并保持良好的閱讀順序。他們之所以在一個(gè)模型中完成這些任務(wù),是因?yàn)樗麄兿嘈胚@些任務(wù)之間可以相互促進(jìn),為彼此提供更多的 context,從而達(dá)到更高的性能上限。目前,該項(xiàng)目的 star 量已經(jīng)超過了 5000。

圖片

dots.ocr 識(shí)別結(jié)果。

正如燕青所言,文檔解析的精度與完備性對(duì)大模型訓(xùn)練、推理有著重要影響。郭豐俊也在現(xiàn)場分享了他們?cè)谶@方面的發(fā)現(xiàn)。比如在下面這個(gè)問答場景中,面對(duì)同樣的文件 / 截圖,文檔解析能力強(qiáng)的模型明顯可以給出更加完整、準(zhǔn)確的分析結(jié)果。

圖片

這一結(jié)果的背后離不開布局分析(理解文檔的物理結(jié)構(gòu),如段落、表格、標(biāo)題位置)、語義理解(識(shí)別關(guān)鍵實(shí)體如姓名、日期、金額、條款,理解它們之間的關(guān)系)等底層技術(shù)的支撐。不過,和很多只提供單點(diǎn)能力的技術(shù)解決方案不同,合合信息將其全部集成到了一個(gè)名為 TextIn xParse 的「大模型加速器」上。

圖片

「大模型加速器」支持將任意格式、版式的文檔(圖片、PDF、Doc/Docx 等)高效、精準(zhǔn)解析為 Markdown 格式,并通過文本清洗、實(shí)體提取和語義增強(qiáng)生成高質(zhì)量知識(shí)素材,進(jìn)而用于知識(shí)庫構(gòu)建與向量數(shù)據(jù)庫管理,可以為大模型提供更高質(zhì)量的訓(xùn)練數(shù)據(jù)。

圖片

值得注意的是,這一環(huán)節(jié)也要克服幻覺問題。比如你讓模型去識(shí)別一個(gè)在語義層面無意義的文本,它可能會(huì)自作聰明地將其「糾正」:

圖片

當(dāng)遇到視覺上模糊或非語義的場景文本時(shí),大模型往往難以準(zhǔn)確識(shí)別和理解內(nèi)容,經(jīng)常會(huì)生成語義上看似合理但視覺上不正確的答案,這種情況被稱為語義幻覺。

對(duì)于被遮擋的文本,模型可能會(huì)擅自「補(bǔ)全」:

圖片

總之,幻覺出現(xiàn)的方式可以說是五花八門。目前,這方面的研究還相對(duì)較少,但在工業(yè)、票據(jù)、交通等對(duì)文字識(shí)別精度要求極高的場景中,這類幻覺將嚴(yán)重影響可用性。

圖片

很多 LVLM 在含有文字的圖像場景中不能準(zhǔn)確地理解或回答涉及圖中文字的簡單問題:如「在圖中藍(lán)色字是什么?」、「這個(gè)字母左邊是什么字?」等。這類錯(cuò)誤往往不僅是識(shí)別錯(cuò)字或者漏字,而是模型「看到了文字但給出了不相關(guān)/不準(zhǔn)確的答案」 。這種幻覺被稱為「OCR 幻覺」。

在演講中,南開大學(xué)教授周宇分享了幾個(gè)與之相關(guān)的工作。

首先是一個(gè)無需重新訓(xùn)練的語義幻覺抑制框架,該框架針對(duì)的是模型「憑借語義先驗(yàn)」生成看上去合理但與圖像不符的答案的情況。他們發(fā)現(xiàn),大型多模態(tài)模型中那些對(duì)文字區(qū)域關(guān)注更集中的 Transformer 層更不易產(chǎn)生幻覺。據(jù)此,他們?cè)O(shè)計(jì)了兩步方法:ZoomText 通過「glimpse-refocus」由粗到細(xì)的注意力分析自動(dòng)定位圖像中的文字區(qū)域,而 Grounded Layer Correction 則在解碼時(shí)動(dòng)態(tài)利用這些低幻覺層的表示來校正輸出,從而在非語義文本上減少錯(cuò)誤,同時(shí)保持語義文本的準(zhǔn)確性。

圖片

圖源:https://arxiv.org/pdf/2506.05551

其次是一個(gè)專門用于評(píng)測和診斷 OCR 幻覺的新基準(zhǔn) HalluText。該基準(zhǔn)涵蓋九個(gè)細(xì)分子任務(wù),能夠更細(xì)粒度地衡量模型的文字感知與推理能力。作者還提出了輕量級(jí)的緩解方案 OCRAssistor,通過引入外部 OCR 模型的識(shí)別結(jié)果并在推理階段對(duì)解碼過程進(jìn)行分布約束,在無需重新訓(xùn)練大模型的前提下顯著降低了幻覺率并提升了文字相關(guān)任務(wù)的準(zhǔn)確性。

圖片

圖源:https://openreview.net/pdf?id=LRnt6foJ3q

最后是一個(gè)針對(duì)真實(shí)世界降質(zhì)文檔(如模糊、遮擋、低對(duì)比度)的幻覺應(yīng)對(duì)方法。作者首先構(gòu)建了一個(gè)專門評(píng)估視覺退化條件下文本識(shí)別可靠性的新基準(zhǔn) KIE-HVQA,然后通過引入不確定性標(biāo)注和多目標(biāo)獎(jiǎng)勵(lì)機(jī)制,引導(dǎo)模型在面對(duì)模糊或遮擋區(qū)域時(shí)學(xué)會(huì)「拒答」或表達(dá)不確定,而非憑空生成答案,從而顯著提升了模型在真實(shí)世界文檔理解任務(wù)中的穩(wěn)健性與可信度。

圖片

圖源:https://arxiv.org/pdf/2506.20168

可以看出,感知層的突破正在讓機(jī)器逐漸「看清」世界,但看清只是開始。要讓 AI 真正理解所見之物,還需要進(jìn)入更深一層的能力:認(rèn)知與推理。

認(rèn)知與推理

讓機(jī)器「讀懂」并「思考」

認(rèn)知層面的主要目標(biāo)是讓 AI 在看清多模態(tài)信息之后學(xué)會(huì)「思考」。在論壇中,哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部長聘教授、博士生導(dǎo)師車萬翔介紹的「多模態(tài)思維鏈」是實(shí)現(xiàn)這一目標(biāo)的有效方法。

他首先指出,多模態(tài)推理讓模型能像人一樣在「看」與「想」之間往復(fù),具備動(dòng)態(tài)、可解釋的思維過程。但當(dāng)前主流模型仍主要依賴語言鏈推理,即雖然輸入有圖像,但推理過程仍然是文字,這叫 Think about Images,距離真正的視覺思維(Think with Images)尚遠(yuǎn)。

圖片

為了加速從前者到后者的演進(jìn),他們通過一系列應(yīng)用基準(zhǔn)的增強(qiáng)讓模型學(xué)會(huì)用視覺去思考,而不僅僅用語言去解釋,比如能實(shí)現(xiàn)多步多模態(tài)推理的 M3CoT、要求模型在推理過程中生成圖像輔助線或標(biāo)注區(qū)域的 CoMT、評(píng)估模型在復(fù)雜約束下規(guī)劃與決策能力的 MPCC、讓模型在推理中動(dòng)態(tài)回溯關(guān)鍵視頻幀的 ViTCoT 等。這些工作讓 AI 的「理解力」從文字的線性邏輯,轉(zhuǎn)向視覺與推理交織的思維過程。

除此之外,車萬翔還介紹了他們?cè)诶斫舛嗄B(tài)推理核心機(jī)理方面的進(jìn)展。他們發(fā)現(xiàn),所有的多模態(tài)思維鏈能夠起效都是因?yàn)橛行У貍鬟f了「視覺思維(Visual Thoughts)」。這個(gè)「視覺思維」相當(dāng)于一個(gè)寄存器,模型每次進(jìn)行下一步跨模態(tài)推理時(shí),都優(yōu)先從之前的視覺思維中進(jìn)行存取。它存在的價(jià)值是向更深層傳播視覺信息,有助于模型做深入的思考。這種可解釋性方向的工作為后續(xù)研究提供了指引。

圖片

決策與行動(dòng)

讓機(jī)器「主動(dòng)」去做

隨著模型逐漸具備「看」與「想」的能力,新的問題也隨之出現(xiàn):如果 AI 已經(jīng)能夠在多模態(tài)信息中完成推理與判斷,那么下一步,它是否能夠基于思考結(jié)果主動(dòng)去做?換言之,如何讓模型從被動(dòng)理解走向主動(dòng)決策與行動(dòng),成為多模態(tài)文本智能發(fā)展的下一個(gè)關(guān)鍵命題。

從郭豐俊介紹的合合信息產(chǎn)品中,我們已經(jīng)看到了這一方向的一些雛形。比如他們的掃描全能王智能高清濾鏡可以自行判斷圖像是否存在質(zhì)量問題(如光線不足、顏色失真、角度傾斜等),然后動(dòng)態(tài)選擇最優(yōu)處理路徑和算法。以往,這一過程需要借助多步人工操作來完成,即用戶需要先判斷「這張圖太暗了」,然后手動(dòng)找到并點(diǎn)擊「亮度調(diào)節(jié)」工具,再手動(dòng)調(diào)整參數(shù),過程非常繁瑣。

此外,掃描全能王里的「翻頁自動(dòng)拍」功能,也是 AI 主動(dòng)決策的一個(gè)小例子。用戶只要自然翻頁,AI 就能自動(dòng)識(shí)別這一動(dòng)作并完成拍攝,還能智能去除手部、陰影等干擾,讓厚重的紙質(zhì)資料幾分鐘就變成整潔的數(shù)字文檔。

不過,總體來看,業(yè)界對(duì)多模態(tài)文本智能決策層的探索還處在初期,AI 能夠完成的動(dòng)作還相對(duì)簡單。行業(yè)對(duì)于這一方向的探索還有很長的路要走。

多模態(tài)文本智能

通往 AGI 的現(xiàn)實(shí)路徑

從嘉賓的分享中我們能感受到,「文本」遠(yuǎn)不只是信息的載體,它承載著人類理解世界的方式,也隱藏著智能的線索。要真正讀懂它、利用它,讓機(jī)器像人一樣理解與思考,其難度比想象中更高。

然而,這恰恰是一個(gè)值得全力投入的方向。從當(dāng)前 AI 的發(fā)展與實(shí)際落地來看,眾多場景的完整閉環(huán)實(shí)現(xiàn),都離不開多模態(tài)文本智能技術(shù)的支撐。以目前 AI 領(lǐng)域廣泛應(yīng)用的 RAG 技術(shù)為例,其瓶頸之一正是如何融合多模態(tài)文本能力,以更精準(zhǔn)地獲取并理解不同模態(tài)、不同格式的文本信息。

圖片

Anthropic 最近發(fā)布的官方桌面應(yīng)用 Claude Desktop,其重要的截圖分享上下文功能也需要多模態(tài)文本智能技術(shù)的支撐。

縱觀行業(yè),不少模型與產(chǎn)品已在多模態(tài)文本智能方向有所探索 —— 從 Mistral OCR、Reducto,到 Gemini、GPT-5。然而在實(shí)際業(yè)務(wù)中,現(xiàn)有技術(shù)仍多聚焦于文本識(shí)別、語義理解等單點(diǎn)能力,尚難以實(shí)現(xiàn)從感知、理解到自主決策與行動(dòng)的全鏈路閉環(huán)。

正因如此,「多模態(tài)文本智能」理念的提出恰逢其時(shí)。與「通用多模態(tài)理解」聚焦于內(nèi)容的理解環(huán)節(jié)不同,它將文本智能的認(rèn)知層級(jí)從語義理解,推進(jìn)至類人推理與自主決策,構(gòu)建出一條從感知到認(rèn)知、再到行動(dòng)的完整技術(shù)路徑,覆蓋范圍更廣,流程也更系統(tǒng)。合合信息相信,這條路,或許正是通往 AGI 的一條現(xiàn)實(shí)路徑。

當(dāng)然,在具體實(shí)現(xiàn)層面,這一方向仍有諸多問題亟待探討。論壇中所分享的內(nèi)容,不過是冰山一角。這條從「文本」走向「智能」的路徑究竟將如何延伸,仍需我們?cè)诔掷m(xù)的探索中尋找答案。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-14 06:00:00

多模態(tài)人工智能

2024-03-29 14:03:00

數(shù)據(jù)分析人工智能情境智能

2024-08-12 11:57:09

2019-04-11 13:00:40

人工智能AI醫(yī)療領(lǐng)域

2021-01-20 17:05:48

物聯(lián)網(wǎng)智慧城市網(wǎng)絡(luò)安全

2020-11-05 14:53:51

人工智能

2025-09-26 09:27:47

2025-01-21 08:11:24

2017-03-19 10:03:10

機(jī)器視覺人工智能

2023-06-12 10:42:39

人工智能機(jī)器學(xué)習(xí)

2018-05-20 15:54:22

2024-01-15 11:46:39

2022-04-02 21:34:43

人工智能自然語言機(jī)器學(xué)習(xí)

2023-09-05 15:02:12

人工智能電子商務(wù)

2021-04-08 11:26:20

NFT加密貨幣互聯(lián)網(wǎng)

2020-11-16 10:59:33

云計(jì)算IT技術(shù)

2022-09-09 10:44:42

數(shù)據(jù)中心循環(huán)經(jīng)濟(jì)

2021-08-20 14:35:56

物聯(lián)網(wǎng)邊緣計(jì)算IoT

2023-01-30 14:09:51

物聯(lián)網(wǎng)網(wǎng)絡(luò)存儲(chǔ)

2021-03-21 23:04:45

5G6G網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)