偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上斯坦福

人工智能 新聞
OpenAI的GPT-4在萬(wàn)眾矚目中閃亮登場(chǎng),多模態(tài)功能太炸裂,簡(jiǎn)直要閃瞎人類(lèi)的雙眼。李飛飛高徒、斯坦福博士Jim Fan表示,GPT4憑借如此強(qiáng)大的推理能力,已經(jīng)可以自己考上斯坦福了!

果然,能打敗昨天的OpenAI的,只有今天的OpenAI。

剛剛,OpenAI震撼發(fā)布了大型多模態(tài)模型GPT-4,支持圖像和文本的輸入,并生成文本結(jié)果。

號(hào)稱(chēng)史上最先進(jìn)的AI系統(tǒng)!

圖片

GPT-4不僅有了眼睛可以看懂圖片,而且在各大考試包括GRE幾乎取得了滿(mǎn)分成績(jī),橫掃各種benchmark,性能指標(biāo)爆棚。

OpenAI 花了 6 個(gè)月的時(shí)間使用對(duì)抗性測(cè)試程序和 ChatGPT 的經(jīng)驗(yàn)教訓(xùn)對(duì) GPT-4 進(jìn)行迭代調(diào)整 ,從而在真實(shí)性、可控性等方面取得了有史以來(lái)最好的結(jié)果。

圖片

大家都還記得,2月初時(shí)微軟和谷歌鏖戰(zhàn)三天,2月8日微軟發(fā)布ChatGPT必應(yīng)時(shí),說(shuō)法是必應(yīng)「基于類(lèi)ChatGPT技術(shù)」。

今天,謎底終于解開(kāi)了——它背后的大模型,就是GPT-4!

圖片

圖靈獎(jiǎng)三巨頭之一Geoffrey Hinton對(duì)此贊嘆不已,「毛蟲(chóng)吸取了營(yíng)養(yǎng)之后,就會(huì)化繭為蝶。而人類(lèi)提取了數(shù)十億個(gè)理解的金塊,GPT-4,就是人類(lèi)的蝴蝶?!?/span>

順便提一句,ChatGPT Plus用戶(hù)現(xiàn)在可以先上手了。

圖片

考試幾乎滿(mǎn)分,性能躍遷炸天

在隨意談話(huà)中,GPT-3.5和GPT-4之間的區(qū)別是很微妙的。只有當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),差異就出現(xiàn)了,GPT-4比GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。

為了了解這兩種模型之間的差異,OpenAI在各種基準(zhǔn)測(cè)試和一些為人類(lèi)設(shè)計(jì)的模擬考試上進(jìn)行了測(cè)試。

GPT-4在各種考試中,有幾個(gè)測(cè)試幾乎接近了滿(mǎn)分:

  • USABO Semifinal 2020(美國(guó)生物奧林匹克競(jìng)賽)
  • GRE Writing

圖片

以美國(guó) BAR律師執(zhí)照統(tǒng)考為例,GPT3.5可以達(dá)到 10%水平,GPT4可以達(dá)到90%水平。生物奧林匹克競(jìng)賽從GPT3.5的31%水平,直接飆升到 99%水平。

此外,OpenAI 還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上評(píng)估了 GPT-4。從實(shí)驗(yàn)結(jié)果來(lái)看,GPT-4 大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型,以及大多數(shù) SOTA 模型:

另外,GPT-4在不同語(yǔ)種上的能力表現(xiàn):中文的準(zhǔn)確度大概在 80% 左右,已經(jīng)要優(yōu)于GPT-3.5的英文表現(xiàn)了。

許多現(xiàn)有的 ML 基準(zhǔn)測(cè)試都是用英語(yǔ)編寫(xiě)的。為了初步了解GPT-4其他語(yǔ)言的能力,研究人員使用 Azure翻譯將 MMLU 基準(zhǔn)(一套涵蓋57個(gè)主題的14000個(gè)多項(xiàng)選擇題)翻譯成多種語(yǔ)言。

在測(cè)試的 26 種語(yǔ)言的 24 種中,GPT-4 優(yōu)于 GPT-3.5 和其他大語(yǔ)言模型(Chinchilla、PaLM)的英語(yǔ)語(yǔ)言性能:

圖片

OpenAI表示在內(nèi)部使用 GPT-4,因此也關(guān)注大型語(yǔ)言模型在內(nèi)容生成、銷(xiāo)售和編程等方面的應(yīng)用效果。另外,內(nèi)部人員還使用它來(lái)幫助人類(lèi)評(píng)估人工智能輸出。

對(duì)此,李飛飛高徒、英偉達(dá)AI科學(xué)家Jim Fan點(diǎn)評(píng)道:「GPT-4最強(qiáng)的其實(shí)就是推理能力。它在GRE、SAT、法學(xué)院考試上的得分,幾乎和人類(lèi)考生沒(méi)有區(qū)別。也就是說(shuō),GPT-4可以全靠自己考進(jìn)斯坦福了?!?/span>

(Jim Fan自己就是斯坦福畢業(yè)的?。?/span>

網(wǎng)友:完了,GPT-4一發(fā)布,就不需要我們?nèi)祟?lèi)了……

讀圖做題小case,甚至比網(wǎng)友還懂梗

GPT-4此次升級(jí)的亮點(diǎn),當(dāng)然就是多模態(tài)。

GPT-4不僅能分析匯總圖文圖標(biāo),甚至還能讀懂梗圖,解釋梗在哪里,為什么好笑。從這個(gè)意義上說(shuō),它甚至能秒殺許多人類(lèi)。

OpenAI稱(chēng),GPT-4比以往模型都更具創(chuàng)造力和協(xié)作性。它可以生成、編輯和迭代用戶(hù)進(jìn)行創(chuàng)意和技術(shù)寫(xiě)作任務(wù),例如創(chuàng)作歌曲、編寫(xiě)劇本或?qū)W習(xí)用戶(hù)的寫(xiě)作風(fēng)格。

圖片

GPT-4可以將圖像作為輸入,并生成標(biāo)題、分類(lèi)和分析。比如給它一張食材圖,問(wèn)它用這些食材能做什么。

圖片

圖片

另外,GPT-4能夠處理超過(guò)25,000字的文本,允許用長(zhǎng)形式的內(nèi)容創(chuàng)建、擴(kuò)展會(huì)話(huà)、文檔搜索和分析。

GPT-4在其先進(jìn)的推理能力方面超過(guò)了ChatGPT。如下:

梗圖識(shí)別

比如,給它看一張奇怪的梗圖,然后問(wèn)圖中搞笑在哪里。

GPT-4拿到之后,會(huì)先分析一波圖片的內(nèi)容,然后給出答案。

比如,逐圖分析下面這個(gè)。

圖片

GPT-4立馬反應(yīng)過(guò)來(lái):圖里的這個(gè)「Lighting充電線(xiàn)」,看起來(lái)就是個(gè)又大又過(guò)氣的VGA接口,插在這個(gè)又小又現(xiàn)代的智能手機(jī)上,反差強(qiáng)烈。

圖片

再給出這么一個(gè)梗圖,問(wèn)問(wèn)GPT-4梗在哪里?

圖片

它流利地回答說(shuō):這個(gè)梗搞笑的地方在于「圖文不符」。

文字明明說(shuō)是從太空拍攝的地球照片,然而,圖里實(shí)際上只是一堆排列起來(lái)像地圖的雞塊。

GPT-4還能看懂漫畫(huà):為什么要給神經(jīng)網(wǎng)絡(luò)加層數(shù)?

圖片

它一針見(jiàn)血地點(diǎn)出,這副漫畫(huà)諷刺了統(tǒng)計(jì)學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)在提高模型性能方法上的差異。

圖片

圖表分析

格魯吉亞和西亞的平均每日肉類(lèi)消費(fèi)量總和是多少?在給出答案前,請(qǐng)?zhí)峁┭驖u進(jìn)的推理。

果然,GPT-4清楚地列出了自己的解題步驟——

1. 確定格魯吉亞的平均每日肉類(lèi)消費(fèi)量。

2. 確定西亞的平均每日肉類(lèi)消費(fèi)量。

3. 添加步驟1和2中的值。

圖片

做物理題

要求GPT-4解出巴黎綜合理工的一道物理題,測(cè)輻射熱計(jì)的輻射檢測(cè)原理。值得注意的是,這還是一道法語(yǔ)題。

圖片

GPT-4開(kāi)始解題:要回答問(wèn)題 I.1.a,我們需要每個(gè)點(diǎn)的溫度 T(x),用導(dǎo)電棒的橫坐標(biāo)x表示。

隨后解題過(guò)程全程高能。

圖片

你以為這就是GPT-4能力的全部?

老板Greg Brockman直接上線(xiàn)進(jìn)行了演示,通過(guò)這個(gè)視頻你可以很直觀的感受到 GPT-4的能力。

最驚艷的是,GPT-4對(duì)代碼的超強(qiáng)的理解能力,幫你生成代碼。

Greg直接在紙上畫(huà)了一個(gè)潦草的示意圖,拍個(gè)照,發(fā)給 GPT說(shuō),給我按照這個(gè)布局寫(xiě)網(wǎng)頁(yè)代碼,就寫(xiě)出來(lái)了。

圖片

另外,如果運(yùn)行出錯(cuò)了把錯(cuò)誤信息,甚至錯(cuò)誤信息截圖,扔給GPT-4都能幫你給出相應(yīng)的提示。

網(wǎng)友直呼:GPT-4發(fā)布會(huì),手把手教你怎么取代程序員。

圖片

順便提一句,用GPT-4還可以進(jìn)行報(bào)稅 。要知道,每年美國(guó)人要花好多時(shí)間金錢(qián)在報(bào)稅上面。

圖片

訓(xùn)練過(guò)程

和以前的GPT模型一樣,GPT-4基礎(chǔ)模型的訓(xùn)練使用的是公開(kāi)的互聯(lián)網(wǎng)數(shù)據(jù)以及OpenAI授權(quán)的數(shù)據(jù),目的是為了預(yù)測(cè)文檔中的下一個(gè)詞。

這些數(shù)據(jù)是一個(gè)基于互聯(lián)網(wǎng)的語(yǔ)料庫(kù),其中包括對(duì)數(shù)學(xué)問(wèn)題的正確/錯(cuò)誤的解決方案,薄弱/強(qiáng)大的推理,自相矛盾/一致的聲明,足以代表了大量的意識(shí)形態(tài)和想法。

當(dāng)用戶(hù)給出提示進(jìn)行提問(wèn)時(shí),基礎(chǔ)模型可以做出各種各樣的反應(yīng),然而答案可能與用戶(hù)的意圖相差甚遠(yuǎn)。

因此,為了使其與用戶(hù)的意圖保持一致,OpenAI使用基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)對(duì)模型的行為進(jìn)行了微調(diào)。

不過(guò),模型的能力似乎主要來(lái)自于預(yù)訓(xùn)練過(guò)程,RLHF并不能提高考試成績(jī)(如果不主動(dòng)進(jìn)行強(qiáng)化,它實(shí)際上會(huì)降低考試成績(jī))。

基礎(chǔ)模型需要提示工程,才能知道它應(yīng)該回答問(wèn)題,所以說(shuō),對(duì)模型的引導(dǎo)主要來(lái)自于訓(xùn)練后的過(guò)程。

GPT-4模型的一大重點(diǎn)是建立了一個(gè)可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)棧。因?yàn)閷?duì)于像GPT-4這樣的大型訓(xùn)練,進(jìn)行廣泛的特定模型調(diào)整是不可行的。

因此,OpenAI團(tuán)隊(duì)開(kāi)發(fā)了基礎(chǔ)設(shè)施和優(yōu)化,在多種規(guī)模下都有可預(yù)測(cè)的行為。

為了驗(yàn)證這種可擴(kuò)展性,研究人員提前準(zhǔn)確地預(yù)測(cè)了GPT-4在內(nèi)部代碼庫(kù)(不屬于訓(xùn)練集)上的最終損失,方法是通過(guò)使用相同的方法訓(xùn)練的模型進(jìn)行推斷,但使用的計(jì)算量為1/10000。

圖片

現(xiàn)在,OpenAI 可以準(zhǔn)確地預(yù)測(cè)在訓(xùn)練過(guò)程中優(yōu)化的指標(biāo)損失。例如從計(jì)算量為1/1000的模型中推斷并成功地預(yù)測(cè)了HumanEval數(shù)據(jù)集的一個(gè)子集的通過(guò)率:

圖片

還有些能力仍然難以預(yù)測(cè)。比如,Inverse Scaling競(jìng)賽旨在找到一個(gè)隨著模型計(jì)算量的增加而變得更糟的指標(biāo),而 hindsight neglect任務(wù)是獲勝者之一。但是GPT-4 扭轉(zhuǎn)了這一趨勢(shì):

圖片

OpenAI認(rèn)為能夠準(zhǔn)確預(yù)測(cè)未來(lái)的機(jī)器學(xué)習(xí)能力對(duì)于技術(shù)安全來(lái)說(shuō)至關(guān)重要,但它并沒(méi)有得到足夠的重視。

而現(xiàn)在,OpenAI正在投入更多精力開(kāi)發(fā)相關(guān)方法,并呼吁業(yè)界共同努力。

貢獻(xiàn)名單

就在GPT-4發(fā)布的同時(shí),Open AI還公開(kāi)了GPT-4這份組織架構(gòu)及人員清單。

圖片

上下滑動(dòng)查看全部?

北大陳寶權(quán)教授稱(chēng),

再好看的電影,最后的演職員名單也不會(huì)有人從頭看到尾。Open AI的這臺(tái)戲連這個(gè)也不走尋常路。毫無(wú)疑問(wèn)這將是一份不僅最被人閱讀,也被人仔細(xì)研究的「演職員」(貢獻(xiàn)者) 名單,而最大的看頭,是詳細(xì)的貢獻(xiàn)分類(lèi),幾乎就是一個(gè)粗略的部門(mén)設(shè)置架構(gòu)了。

這個(gè)很「大膽」的公開(kāi)其實(shí)意義挺深遠(yuǎn)的,體現(xiàn)了Open AI背后的核心理念,也一定程度預(yù)示了未來(lái)進(jìn)步的走向。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-06-05 15:44:15

GPT-4AI

2024-01-03 13:37:00

模型數(shù)據(jù)

2023-10-17 13:33:00

AI數(shù)據(jù)

2023-12-26 14:56:59

模型訓(xùn)練

2025-03-12 10:38:05

2023-09-21 12:31:54

AI數(shù)據(jù)

2023-10-06 12:48:43

AI論文

2024-01-29 12:49:00

AI模型

2025-01-17 10:26:19

模型開(kāi)發(fā)ChatGPT

2024-03-25 07:15:00

AI模型

2024-09-02 09:25:00

AI研究

2023-03-14 12:45:32

2023-10-12 14:18:06

2024-04-07 13:40:20

2023-07-21 12:55:07

2023-06-15 14:00:00

研究模型

2023-07-21 14:28:54

2023-06-19 08:19:50

2024-04-28 00:00:00

GPT-5GPT-6GPT-4

2023-03-15 10:26:00

模型開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)