國(guó)產(chǎn)GPTs來(lái)了,基于智譜第4代大模型!模型性能均達(dá)GPT-4九成以上
國(guó)產(chǎn)大模型玩家智譜AI,交出最新成績(jī)單——
發(fā)布全自研第四代基座大模型GLM-4,且所有更新迭代的能力全量上線。

作為國(guó)內(nèi)唯一一個(gè)產(chǎn)品線全對(duì)標(biāo)OpenAI的大模型公司,智譜年前攢了波大的:
按官方說(shuō)法,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果)。
而同時(shí)推出的GLM-4-All Tools,能夠完成用戶意圖理解-復(fù)雜指令規(guī)劃-自由調(diào)用GLM生態(tài)的多種模型能力。
值得一提的是,智譜發(fā)布了GLMs,為所有開(kāi)發(fā)者提供AI智能體定制能力,簡(jiǎn)單prompt指令就能創(chuàng)建個(gè)性化GLM智能體。

之前,智譜CEO張鵬就明確過(guò):
OpenAI摸著石頭過(guò)河,我們摸著OpenAI過(guò)河。
摸來(lái)摸去摸了一年,以每3-4個(gè)月升級(jí)一次基座模型的速度,智譜摸著OpenAI過(guò)河的最新成績(jī)到底怎么樣?真如所說(shuō)嗎?
當(dāng)官方用上“可對(duì)比”“對(duì)標(biāo)”“追平”等字眼后,智譜接下來(lái)的路又會(huì)怎么走?
好奇,感興趣,想知道。
(我猜你們也是)。

所以,發(fā)布GLM-4的智譜AI技術(shù)開(kāi)放日現(xiàn)場(chǎng),我們替沒(méi)到場(chǎng)的小伙伴聽(tīng)了、看了;滿肚子的問(wèn)題,我們也幫大家抓住張鵬問(wèn)了。
GO——
“摸著OpenAI”,路走成什么樣了?
智譜為什么敢喊出“逼近”甚至部分超過(guò)GPT-4?
老規(guī)矩,直接一起看GLM-4的現(xiàn)場(chǎng)演示:
首先來(lái)看整體性能。
基礎(chǔ)能力方面,張鵬在現(xiàn)場(chǎng)介紹了GLM-4在各項(xiàng)評(píng)測(cè)集上的最終得分。
- MMLU:81.5,達(dá)到GPT-4的94%水平;
 - GSM8K:87.6 ,達(dá)到GPT-4的95%水平;
 - MATH :47.9,達(dá)到GPT-4的91%水平;
 - BBH :82.3,達(dá)到GPT-4的99%水平;
 - HellaSwag :85.4,達(dá)到GPT-4 的90%水平;
 - HumanEval:72,達(dá)到GPT-4的100%水平。
 

指令跟隨能力方面,和GPT-4相比,IFEval在Prompt提示詞跟隨(中文)方面達(dá)到88%,指令跟隨(中文)方面達(dá)到 90%水平,超過(guò)GPT-3.5。

對(duì)齊能力上,基于AlignBench數(shù)據(jù)集,GLM-4超過(guò)了GPT-4的6月13日版本,逼近GPT-4最新(11月6日版本)效果。
在專業(yè)能力、中文理解、角色扮演方面,GLM-4超過(guò)GPT-4精度。
不過(guò)張鵬也表示,GLM-4在中文推理方面的能力,還有待進(jìn)一步提升。

其次,在大模型的“內(nèi)存”能力方面,GLM-4系列支持128k上下文窗口長(zhǎng)度,單次提示詞可處理文本300頁(yè),比前作有所提升。
在needle test大海撈針測(cè)試中,GLM-4在128K文本長(zhǎng)度內(nèi)均可做到幾乎百分之百精度召回。

除此之外,GLM-4系列集成了一些新能力在身上,主要是Agent能力和多模態(tài)能力。
多模態(tài)能力方面,GLM-4則是把原本就有的文生圖(CogView3)、代碼能力做了升級(jí)。
智譜強(qiáng)調(diào),CogView3效果超過(guò)開(kāi)源最佳的Stable Diffusion XL,逼近DALLE·3。

至于Agent能力方面,此前智譜發(fā)布過(guò)AgentLM系列并開(kāi)源。
這次是把Agent能力整合進(jìn)了GLM-4,有了GLM-4-All Tools。
它可以根據(jù)用戶意圖,自動(dòng)理解、規(guī)劃復(fù)雜指令,自由調(diào)用文生圖、代碼解釋器、網(wǎng)頁(yè)瀏覽能力,以完成復(fù)雜任務(wù)。

對(duì)GLM-4的發(fā)布,綜合下來(lái)給人一種這樣的感覺(jué):
去年10月底第3代基座大模型,該公司在模型產(chǎn)品線上和OpenAI逐一對(duì)齊;第4代是在拉齊模型能力和OpenAI GPT-4的能力水平線。
明顯能感覺(jué)到,智譜的基座模型越往后升級(jí),越開(kāi)始不強(qiáng)調(diào)模型參數(shù)大小,轉(zhuǎn)而開(kāi)始盡可能地向外界展示可用能力。
為什么不想強(qiáng)調(diào)參數(shù)規(guī)模了?會(huì)像OpenAI一樣逐漸close起來(lái)嗎?
量子位打聽(tīng)了一番,聽(tīng)到的消息是,現(xiàn)在的技術(shù)主流路線已經(jīng)發(fā)現(xiàn)并不是參數(shù)量越大越好——當(dāng)然,模型越“大”,肯定能帶來(lái)能力涌現(xiàn)的好處,但模型越大,成本就越高,成本高自然不是市場(chǎng)想要追求的。
同時(shí),現(xiàn)在的技術(shù)演進(jìn)和發(fā)展已經(jīng)表明,追求更好的能力,可以用一些更精細(xì)的方法,在保證模型無(wú)需十倍級(jí)提升參數(shù)的情況下,大幅提升性能。
以上兩個(gè)原因相加,是智譜也不再?gòu)?qiáng)調(diào)基座模型參數(shù)的背后原因。
參數(shù)不強(qiáng)調(diào)了,外界的目光自然更加緊盯這一代基座模型的性能——這確實(shí)是智譜這回想要強(qiáng)調(diào)的東西。
接下來(lái)將主要發(fā)力三個(gè)方向
“大模型的技術(shù),不是說(shuō)把原來(lái)系統(tǒng)里的小模型扔掉,換上大模型的接口就行了。這只是在局部做了替換,本質(zhì)上并無(wú)改變?!睆堸i解釋道,“但我們大家潛意識(shí)里期待的,是完全的革新和創(chuàng)新,是不需要原來(lái)的那套結(jié)構(gòu)?!?/p>
他補(bǔ)充解釋,從新技術(shù)出發(fā),改造整個(gè)生產(chǎn)流程、提升生產(chǎn)效率和生產(chǎn)力,這就是擁有大模型能力后,“AI原生”會(huì)完成的任務(wù)?!澳茿I原生的應(yīng)用前提條件是什么?還是得回到模型本身的能力?!?/p>
張鵬表示,模型能力足夠強(qiáng)、維度足夠多、能力要能融合產(chǎn)生化學(xué)反應(yīng)從而擴(kuò)大能力空間,本質(zhì)上還是看模型能力的事兒。
我們想得很清楚,還是要做好我們最擅長(zhǎng)、最喜歡的事情,然后大家一起來(lái)做這個(gè)生態(tài)。
為了把GLM的生態(tài)圈建起來(lái)、建好,摸著OpenAI過(guò)河的智譜,這會(huì)推出了可定制化的GLM。
也就是GLMs。
無(wú)論任何用戶,只要用簡(jiǎn)單的prompt指令,就能創(chuàng)建屬于自己的GLM個(gè)性化智能體。
張鵬還在現(xiàn)場(chǎng)宣布,智譜智能體中心也同時(shí)上線。
等等……既然GLMs有了,GLM Store是不是也不遠(yuǎn)了?!
好問(wèn)題。量子位當(dāng)然第一時(shí)間拿這個(gè)問(wèn)題問(wèn)了張鵬。
得到的答案是:

緊接著,我們鍥而不舍地拋出了新的問(wèn)題:
如果說(shuō)之前的行為都是在摸著OpenAI過(guò)河,那么現(xiàn)在,智譜的基座模型喊出對(duì)標(biāo)GPT-4,接下來(lái)的路會(huì)怎么走?
張鵬稍稍透露了那么一點(diǎn),主要是在三個(gè)方向發(fā)力。
- 超級(jí)智能
 - 超級(jí)對(duì)齊
 - 具身智能
 
其中比較值得拿出來(lái)說(shuō)道說(shuō)道的,是“超級(jí)對(duì)齊”這一點(diǎn)。
這里回顧一下有關(guān)超級(jí)對(duì)齊的前情提要:去年7月,OpenAI首次提出超級(jí)對(duì)齊這一概念,宣布成了一個(gè)新的研究團(tuán)隊(duì),在未來(lái)4年投入20%算力,用AI監(jiān)督AI的方式,解決超級(jí)智能AI與人類(lèi)意圖對(duì)齊的問(wèn)題。
“我個(gè)人覺(jué)得,在(超級(jí)對(duì)齊)這件事情上,可能我們認(rèn)知還沒(méi)有那么深,或者說(shuō)大家對(duì)這事情的認(rèn)知不太一致?!睆堸i說(shuō)。
在他看來(lái),OpenAI創(chuàng)始人之一Ilya想做到的超級(jí)對(duì)齊,是想要在AI從誕生之時(shí)起,就從底層保持著對(duì)人類(lèi)最大限度的愛(ài),“他是要去探尋本源。自訓(xùn)練、自學(xué)習(xí)這樣的能力實(shí)際上是對(duì)世界知識(shí)的一種壓縮和表示,所以實(shí)現(xiàn)這個(gè)目標(biāo),需要從知識(shí)或數(shù)據(jù)層面來(lái)解決。”
簡(jiǎn)單來(lái)說(shuō),Ilya有關(guān)超級(jí)對(duì)齊的研究,可以等價(jià)為嘗試開(kāi)黑盒,然后設(shè)法從AI智能產(chǎn)生的那一刻起,就和人類(lèi)意圖對(duì)齊。

而張鵬表示,他個(gè)人在現(xiàn)階段更傾向于另一派的觀點(diǎn),即從行為主義角度出發(fā)。
“超級(jí)對(duì)齊究竟是什么?想要對(duì)齊一個(gè)東西,這東西都還不存在,咋對(duì)齊?對(duì)齊啥呢?”
從行為學(xué)角度考慮,就不用考慮開(kāi)黑盒的問(wèn)題,研究者只需要像教育孩子一樣,先觀察小孩的行為??吹紸I行為是錯(cuò)的,就給一巴掌;行為是對(duì)的,就給一顆糖。
想要成為“AGI元年”,2024需要面對(duì)什么?
2024年,短短半個(gè)月期間,GPT上線了GPT Store,智譜推出了GLM-4……
而這一年才剛剛開(kāi)始。
熱鬧非凡的百模大戰(zhàn)打了一年,有的玩家已經(jīng)偃旗息鼓了,但可以肯定,OpenAI會(huì)帶領(lǐng)GPT繼續(xù)迭代,智譜或許也會(huì)繼續(xù)以3-4月更新一次基座模型的速度向前推進(jìn),國(guó)外的Anthropic、Mistral AI、Google,國(guó)內(nèi)的零一萬(wàn)物、MiniMax等都會(huì)如此。
那么,如果按照業(yè)界默認(rèn),稱剛剛過(guò)去的2023年為大模型元年的話,2024想要“化身”AGI元年,正面臨哪些挑戰(zhàn)?
去年3月,在量子位舉辦的AIGC峰會(huì)上,張鵬認(rèn)為外界環(huán)境帶來(lái)的三大挑戰(zhàn)是人力、成本和算法。
當(dāng)現(xiàn)在把這個(gè)問(wèn)題丟到張鵬面前時(shí),他的看法是,加入到大模型研究中的人已經(jīng)極大豐富了,困境有所緩解;取代它位列新三大困境之一的則是“環(huán)境”。
一方面,挑戰(zhàn)者能不能有足夠的敏銳度,從環(huán)境中尋找并掌握突破口?
張鵬用他前段時(shí)間在某群里刷到的一個(gè)視頻作為形象的例子,那個(gè)視頻展示的是許多人小時(shí)候玩兒過(guò)的小球消磚塊游戲。
最佳情況是把球從正好的角度打進(jìn)磚塊包圍的缺口,然后形成數(shù)次拐彎,消滅掉所有的磚塊。
實(shí)際上這個(gè)機(jī)率很小,很多次都會(huì)和“正好”的角度擦肩而過(guò);或者看似瞄準(zhǔn)了缺口,又不幸地被擋住彈了回來(lái)。
終于有一天,你打進(jìn)了缺口,然后什么都不用干,自然而然所有的磚塊都被消除了。
另一方面,在不斷試錯(cuò)、不斷失敗的過(guò)程中,市場(chǎng)乃至整個(gè)社會(huì)對(duì)技術(shù)的耐心能夠持續(xù)多長(zhǎng)時(shí)間?
如果市場(chǎng)失去耐心,大模型這樣一個(gè)消耗很大資源要做的事,立刻會(huì)陷入玩不下去的窘境。
然而玩彈球磚塊游戲,很多人并不能堅(jiān)持到磚塊全部消除。
“前面的試錯(cuò)、鋪墊是難以忍受的。就像面對(duì)科技創(chuàng)新,大家期待的都是最后的爆發(fā)時(shí)刻?!?/p>















 
 
 



















 
 
 
 