偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

當(dāng)GPT-4學(xué)會(huì)看圖文,一場生產(chǎn)力革命已勢不可擋

人工智能 新聞
來自學(xué)界和業(yè)界的多位研究者圍繞「 圖文智能處理技術(shù)與多場景應(yīng)用技術(shù)」展開了深入探討,

「太卷了!」

在經(jīng)歷了 GPT-4 和微軟 ?Microsoft 365 Copilot ?的連續(xù)轟炸后,相信很多人都有這樣的感想。

與 GPT-3.5 相比,GPT-4 在很多方面都實(shí)現(xiàn)了大幅提升,比如在模擬律師考試中,它從原來的倒數(shù) 10% 進(jìn)化到了正數(shù) 10%。當(dāng)然,普通人對(duì)于這些專業(yè)考試可能沒什么概念。但如果給你看一張圖,你就明白它的提升有多么恐怖了:

圖片

圖源:清華大學(xué)計(jì)算機(jī)系教授唐杰微博。鏈接:https://m.weibo.cn/detail/4880331053992765

這是一道物理題,GPT-4 被要求根據(jù)圖文逐步解題,這是 GPT-3.5(此處指升級(jí)之前的 ChatGPT 所依賴的模型)所不具備的能力。一方面,GPT-3.5 只被訓(xùn)練用來理解文字,題中的圖它是看不懂的。另一方面,GPT-3.5 的解題能力也很薄弱,雞兔同籠都能把它難倒。但這一次,兩個(gè)問題似乎都被解決得非常漂亮。

當(dāng)所有人都以為這就是王炸的時(shí)候,微軟又放出了一個(gè)重磅炸彈:GPT-4 這些能力已經(jīng)被整合到一個(gè)名為 Microsoft 365 Copilot 的新應(yīng)用中。憑借強(qiáng)大的圖文處理能力,Microsoft 365 Copilot 不僅可以幫你寫各種文檔,還能輕松地將文檔轉(zhuǎn)換成 PPT、將 Excel 數(shù)據(jù)自動(dòng)總結(jié)成圖表……

圖片

從技術(shù)亮相到產(chǎn)品落地,OpenAI 和微軟只給了大眾兩天的反應(yīng)時(shí)間。似乎在一夜之間,一場新的生產(chǎn)力革命已經(jīng)到來。

由于變革來得太快,學(xué)界和業(yè)界都或多或少地處于一種迷茫和「FOMO(fear of missing out,怕錯(cuò)過)」的狀態(tài)。當(dāng)前,所有人都想知道一個(gè)答案:在這場浪潮中,我們能做些什么?有哪些機(jī)會(huì)可以抓?。慷鴱奈④洶l(fā)布的 demo 中,我們可以找到一個(gè)清晰的突破口:圖文智能處理。

在現(xiàn)實(shí)場景中,各行各業(yè)的很多工作都和圖文處理有關(guān)系,比如把非結(jié)構(gòu)化數(shù)據(jù)整理成圖表、根據(jù)圖表寫報(bào)告、從海量的圖文信息中抽取出有用信息等等。也正因如此,這場革命的影響可能遠(yuǎn)比很多人想象得還要深遠(yuǎn)。OpenAI 和沃頓商學(xué)院最近發(fā)布的一篇??重磅論文???對(duì)這種影響做了預(yù)測:約 80% 的美國勞動(dòng)力至少有 10% 的工作任務(wù)可能會(huì)受到 GPT 引入的影響,而約 19% 的工人可能會(huì)看到至少 50% 的任務(wù)受到影響??梢灶A(yù)見,這里面很大一部分工作是涉及圖文智能的。

在這樣一個(gè)切入點(diǎn)上,哪些研究工作或工程努力是值得探索的呢?在近期中國圖象圖形學(xué)學(xué)會(huì)(CSIG)主辦,合合信息、CSIG 文檔圖像分析與識(shí)別專業(yè)委員會(huì)聯(lián)合承辦的 CSIG 企業(yè)行活動(dòng)中,來自學(xué)界和業(yè)界的多位研究者圍繞「 圖文智能處理技術(shù)與多場景應(yīng)用技術(shù)」展開了深入探討,或許能給關(guān)注圖文智能處理領(lǐng)域的研究者、從業(yè)者提供一些啟發(fā)。

處理圖文,從做好底層視覺開始

前面提到,GPT-4 的圖文處理能力是非常令人震撼的。除了上面那個(gè)物理題,OpenAI 的技術(shù)報(bào)告里還舉了其他例子,比如讓 GPT-4 讀論文圖:

圖片

不過,要想讓這樣的技術(shù)廣泛落地,可能還有很多基礎(chǔ)工作要做,底層視覺便是其中之一。

底層視覺的特征非常明顯:輸入是圖像,輸出也是圖像。圖像預(yù)處理、濾波、恢復(fù)和增強(qiáng)等都屬于這一范疇。

「底層視覺的理論和方法在眾多領(lǐng)域都有著廣泛的應(yīng)用,如手機(jī)、醫(yī)療圖像分析、安防監(jiān)控等。重視圖像、視頻內(nèi)容質(zhì)量的企業(yè)、機(jī)構(gòu)不能不關(guān)注底層視覺方向的研究。如果底層視覺沒做好,很多 high-level 視覺系統(tǒng)(如檢測、識(shí)別、理解)無法真正落地。」合合信息圖像算法研發(fā)總監(jiān)郭豐俊在 CSIG 企業(yè)行活動(dòng)分享中表示。

這句話要怎么理解?我們可以看一些例子:

圖片

和 OpenAI、微軟 demo 中所展示的理想情況不同,現(xiàn)實(shí)世界的圖文總是以充滿挑戰(zhàn)的形式存在,比如存在形變、陰影、摩爾紋,這會(huì)加大后續(xù)識(shí)別、理解等工作的難度。郭豐俊團(tuán)隊(duì)的目標(biāo)就是在初始階段把這些問題解決好。

為此,他們將這項(xiàng)任務(wù)分成了幾個(gè)模塊,包括感興趣區(qū)域(RoI)的提取、形變矯正、圖像恢復(fù)(如去除陰影、摩爾紋)、質(zhì)量增強(qiáng)(如增強(qiáng)銳化、清晰度)等。

這些技術(shù)組合起來可以打造一些非常有意思的應(yīng)用。經(jīng)過多年的摸索,這些模塊已經(jīng)實(shí)現(xiàn)了相當(dāng)不錯(cuò)的效果,相關(guān)技術(shù)已被應(yīng)用于公司旗下的智能文字識(shí)別產(chǎn)品「掃描全能王」里。

從字到表,再到篇章,一步步讀懂圖文

圖像處理好之后,接下來的工作就是識(shí)別上面的圖文內(nèi)容。這也是一個(gè)非常細(xì)致的工作,甚至可能以「字」為單位。

在很多現(xiàn)實(shí)場景中,字不一定會(huì)以規(guī)范的印刷體的形式出現(xiàn),這就給字的識(shí)別帶來了挑戰(zhàn)。

圖片

以教育場景為例。假設(shè)你是一位老師,你肯定想讓 AI 直接幫你把學(xué)生作業(yè)全部批改好,同時(shí)把學(xué)生對(duì)各部分知識(shí)的掌握情況匯總一下,最好還能把錯(cuò)題、錯(cuò)別字及改正建議給出來。中國科學(xué)技術(shù)大學(xué)語音及語言信息處理國家工程實(shí)驗(yàn)室副教授杜俊就在做這方面的工作。 

具體來說,他們創(chuàng)建了一套基于部首的漢字識(shí)別、生成與評(píng)測系統(tǒng),因?yàn)榕c整字建模相比,部首的組合要少得多。其中,識(shí)別與生成是聯(lián)合優(yōu)化的,這有點(diǎn)像學(xué)生學(xué)習(xí)時(shí)識(shí)字與寫字互相強(qiáng)化的過程。評(píng)測的工作以往大多聚焦在語法層面,而杜俊的團(tuán)隊(duì)設(shè)計(jì)了一種可以直接從圖像中找出錯(cuò)別字并詳細(xì)說明錯(cuò)誤之處的方法。這種方法在智能閱卷等場景中將非常有用。

圖片

文字之外,表格的識(shí)別與處理其實(shí)也是一大難點(diǎn),因?yàn)槟悴粌H要識(shí)別里面的內(nèi)容,還要理清這些內(nèi)容之間的結(jié)構(gòu)關(guān)系,而且有些表可能連線框都沒有。為此,杜俊團(tuán)隊(duì)設(shè)計(jì)了一種「先分割,后合并」的方法,即先把表格圖像拆分成一系列基礎(chǔ)網(wǎng)格,然后再通過合并的方式做進(jìn)一步糾正。

圖片

杜俊團(tuán)隊(duì)「先分割,后合并」的表格識(shí)別方法。

當(dāng)然,所有這些工作最后都會(huì)在篇章級(jí)別的文檔結(jié)構(gòu)化和理解方面發(fā)揮作用。在現(xiàn)實(shí)環(huán)境中,模型所面臨的文檔大多不止一頁(比如一篇論文)。在這一方向,杜俊團(tuán)隊(duì)的工作聚焦于跨頁文檔要素分類、跨頁文檔結(jié)構(gòu)恢復(fù)等。不過,這些方法在多版式的場景下還存在局限性。

圖片

大模型、多模態(tài)、世界模型…… 未來路在何方?

聊到篇章級(jí)別的圖文處理與理解,其實(shí)我們離 GPT-4 就不遠(yuǎn)了?!付嗄B(tài)的 GPT-4 出來后,我們也在想能不能在這些方面做些事情」,杜俊在活動(dòng)現(xiàn)場說到。相信很多圖文處理領(lǐng)域的研究者或從業(yè)者都有此想法。

一直以來,GPT 系列模型的目標(biāo)都是努力提高通用性,最終實(shí)現(xiàn)通用人工智能(AGI)。此次 GPT-4 所展現(xiàn)出的強(qiáng)大的圖文理解能力是這種通用能力的重要組成部分。要想做出一個(gè)擁有類似能力的模型,OpenAI 給出了一些借鑒,也留下了不少謎團(tuán)和未解決的問題。

首先,GPT-4 的成功表明,大模型 + 多模態(tài)的做法是可行的。但大模型要研究哪些問題,多模態(tài)的夸張算力需求如何解決都是擺在研究者眼前的挑戰(zhàn)。

對(duì)于第一個(gè)問題,復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授邱錫鵬給出了一些值得參考的方向。根據(jù) OpenAI 之前透露的一些信息,我們知道 ChatGPT 離不開幾項(xiàng)關(guān)鍵技術(shù),包括情景學(xué)習(xí)(in-context learning)、思維鏈(chain of thought)和指令學(xué)習(xí)(learn from instructions)等。邱錫鵬在分享中指出,這幾個(gè)方向都還有很多待探討的問題,比如這些能力從哪里來、如何繼續(xù)提高、如何利用它們?nèi)ジ脑煲延械膶W(xué)習(xí)范式等。此外,他還分享了對(duì)話式大型語言模型構(gòu)建時(shí)應(yīng)該考慮的能力以及將這些模型與現(xiàn)實(shí)世界對(duì)齊可以考慮的研究方向。

圖片

對(duì)于第二個(gè)問題,廈門大學(xué)南強(qiáng)特聘教授紀(jì)榮嶸貢獻(xiàn)了一個(gè)重要思路。他認(rèn)為,語言和視覺存在著天然的聯(lián)系,二者的聯(lián)合學(xué)習(xí)已經(jīng)是大勢所趨。但面對(duì)這波浪潮,任何一個(gè)高?;?qū)嶒?yàn)室的力量都顯得微不足道。所以他現(xiàn)在從自己就職的廈大開始,嘗試說服研究人員將算力整合起來,形成一個(gè)網(wǎng)絡(luò)去做多模態(tài)大模型。其實(shí),在前段時(shí)間的一個(gè)活動(dòng)上,專注于 AI for Science 的??鄂維南???院士也發(fā)表了類似看法,希望各界「敢于在原始創(chuàng)新方向上集中資源」。

不過,GPT-4 所走的路就一定會(huì)通向通用人工智能嗎?對(duì)此,有些研究者是存疑的,圖靈獎(jiǎng)得主 Yann LeCun 便是其中之一。他認(rèn)為,當(dāng)前的這些大模型對(duì)于數(shù)據(jù)、算力的需求大得驚人,但學(xué)習(xí)效率卻很低(比如自動(dòng)駕駛汽車)。因此,他創(chuàng)立了一套名為「世界模型」(即世界如何運(yùn)作的內(nèi)部模型)的理論,認(rèn)為學(xué)習(xí)世界模型(可以理解為為真實(shí)世界跑個(gè)模擬)可能是實(shí)現(xiàn) AGI 的關(guān)鍵。在活動(dòng)現(xiàn)場,上海交通大學(xué)教授楊小康分享了他們?cè)谶@個(gè)方向上的工作。具體來說,他的團(tuán)隊(duì)著眼于視覺直覺的世界模型(因?yàn)橐曈X直覺信息量大),試圖把視覺、直覺以及對(duì)時(shí)間、空間的感知建模好。最后,他還強(qiáng)調(diào)了數(shù)學(xué)、物理、信息認(rèn)知與計(jì)算機(jī)學(xué)科交叉對(duì)這類研究的重要性。

「毛毛蟲從食物中提取營養(yǎng),然后變成蝴蝶。人們已經(jīng)提取了數(shù)十億條理解的線索,GPT-4 是人類的蝴蝶?!乖?GPT-4 發(fā)布的第二天,深度學(xué)習(xí)之父 Geoffrey Hinton 發(fā)了這樣一條推文。

圖片

目前,還沒有人能夠斷定這只蝴蝶將掀起多大的颶風(fēng)。但可以肯定的是,這還不是一只完美的蝴蝶,整個(gè) AGI 世界的拼圖也尚未完成。每位研究者、從業(yè)者都還有機(jī)會(huì)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2016-02-23 11:39:47

Adobe數(shù)字化營銷

2015-09-06 10:23:46

谷歌云GCE容器技術(shù)

2021-01-01 14:56:22

加密貨幣數(shù)字貨幣比特幣

2016-01-22 16:53:32

云計(jì)算云應(yīng)用云趨勢

2017-01-06 16:01:51

全閃存IBM

2015-04-13 17:15:11

模塊化UPS華為

2016-12-16 14:18:54

2013-09-01 20:31:23

每周新聞回顧

2015-04-03 09:48:21

SaaS云服務(wù)模式企業(yè)IT

2012-07-10 10:04:51

IDC行業(yè)云計(jì)算

2016-10-26 08:36:16

2022-01-08 07:25:53

2G3G退網(wǎng)

2021-08-01 22:42:57

區(qū)塊鏈互聯(lián)網(wǎng)技術(shù)

2009-04-21 08:47:46

WiMAXVoip移動(dòng)OS

2011-04-25 09:43:01

數(shù)據(jù)中心綠色

2022-01-24 15:36:14

汽車新能源

2019-06-12 15:27:53

加密貨幣幣市互聯(lián)網(wǎng)

2011-03-08 11:42:56

2023-07-07 12:57:33

人工智能張鈸院士昇騰 AI

2023-06-21 09:07:59

智慧礦山工業(yè)互聯(lián)網(wǎng)礦鴻
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)