偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌數(shù)學(xué)版Gemini解開奧賽難題,堪比人類數(shù)學(xué)家!

人工智能 新聞
I/O大會上,谷歌Gemini 1.5 Pro一系列更新讓開發(fā)者們再次沸騰。最新技術(shù)報(bào)告中,最引人注目的一點(diǎn)是,數(shù)學(xué)專業(yè)版1.5 Pro性能碾壓GPT-4 Turbo、Claude 3 Opus,成為全球最強(qiáng)的數(shù)學(xué)模型。

四個月的迭代,讓Gemini 1.5 Pro成為了全球最強(qiáng)的LLM(幾乎)。

谷歌I/O發(fā)布會上,劈柴宣布了Gemini 1.5 Pro一系列升級,包括支持更長上下文200k,超過35種語言。

與此同時,新成員Gemini 1.5 Flash推出,設(shè)計(jì)體積更小,運(yùn)行更快,還支持100k上下文。

最近,Gemini 1.5 Pro最新版的技術(shù)報(bào)告新鮮出爐了。

論文地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

報(bào)告顯示,升級后的模型Gemini 1.5 Pro,在所有關(guān)鍵基準(zhǔn)測試中,都取得了顯著進(jìn)展。

簡單來說,1.5 Pro的性能超越了「超大杯」1.0 Ultra,而1.5 Flash(最快的模型)性能則接近1.0 Ultra。

甚至,新的Gemini 1.5 Pro和Gemini 1.5 Flash在大多數(shù)文本和視覺測試中,其性能還優(yōu)于GPT-4 Turbo。

Jeff Dean發(fā)文稱,Gemini 1.5 Pro「數(shù)學(xué)定制版」在基準(zhǔn)測試中,取得了破記錄91.1%成績。

而三年前的今天,SOTA僅為6.9%。

而且,數(shù)學(xué)專業(yè)版的 Gemini 1.5 Pro在數(shù)學(xué)基準(zhǔn)上的成績,與人類專家的表現(xiàn)不相上下。

數(shù)學(xué)評測3年暴漲84.2%

對于這個「數(shù)學(xué)定制版」模型,團(tuán)隊(duì)使用了多個由數(shù)學(xué)競賽衍生的基準(zhǔn)測試評估Gemini的能力,包括MATH、AIME、Math Odyssey和團(tuán)隊(duì)內(nèi)部開發(fā)的測試HidemMath、IMO-Bench等。

結(jié)果發(fā)現(xiàn),在所有測試中,Gemini 1.5 Pro「數(shù)學(xué)定制版」都明顯優(yōu)于Claude 3 Opus和GPT-4 Turbo,并且相比通用版本的1.5 Pro有顯著改進(jìn)。

特別是MATH測試中取得了91.1%的突破性成績,而且不需要使用任何定理證明庫或者谷歌搜索等任何外部工具,這與人類專家的水平相當(dāng)。

圖片

此外,在AIME測試集中,Gemini 1.5 Pro「數(shù)學(xué)定制版」能解決的問題數(shù)量是其他模型的4倍。

以下是兩道曾讓之前的模型束手無策的亞太數(shù)學(xué)奧林匹克競賽(APMO)題。

其中,上面的這個例子很有代表性,因?yàn)樗且坏雷C明題,而不是計(jì)算題。

對此,Gemini給出的解法不僅直切要害,而且非常「漂亮」。

Gemini 1.5 Pro核心性能全面提升

文本評估

除了數(shù)學(xué)之外,升級后的1.5 Pro在推理、編碼、多模態(tài)多項(xiàng)基準(zhǔn)測試中,取得了顯著的優(yōu)勢。

甚至就連主打輸出速度的1.5 Flash,在性能上也不輸1.0 Ultra。

尤其是,在MMLU通用語言理解基準(zhǔn)測試中,Gemini 1.5 Pro在正常的5個樣本設(shè)置中得分為85.9%,在多數(shù)投票設(shè)置中得分為91.7%,超過了GPT-4 Turbo。

與2月出版技術(shù)報(bào)告對比來看,新升級1.5 Pro在代碼兩項(xiàng)基準(zhǔn)中,有了非常明顯的提升,從71.9%上漲到84.1%(HumanEval),從77.7%上漲到82.6%(Natural2Code)。

在多語種基準(zhǔn)測試中,新升級1.5 Pro的能力略微下降。

此外,5月報(bào)告中,將數(shù)學(xué)和推理能力分開評測,在數(shù)學(xué)基準(zhǔn)上,新升級1.5 Pro有所下降,從91.7%下降到90.8%。

在推理測試中,MMLU上的性能從81.9%提升到85.9%。

2月版

針對函數(shù)調(diào)用,1.5 Pro在多項(xiàng)任務(wù)中,除了多項(xiàng)函數(shù),都拿下了最高分。1.5 Flash在多項(xiàng)函數(shù)任務(wù)中,取得了領(lǐng)先優(yōu)勢。

圖片

在指令調(diào)優(yōu)上,1.5 Pro面對更長指令1326提示時,回應(yīng)準(zhǔn)確率最高。而406更短指令,1.0 Ultra的表現(xiàn)更優(yōu)秀。

圖片

涉及到更專業(yè)的知識問答時,1.5 Pro準(zhǔn)確率幾乎與1.5 Flah持平,僅差0.6%,但都顯著優(yōu)于1.0 Pro和1.0 Ultra。

針對STEM上下文問答任務(wù)中,在Qasper數(shù)據(jù)集上,Gemini 1.0和1.5準(zhǔn)確率提升,與此同時不準(zhǔn)確率顯著下降。

圖片

再來看偏好結(jié)果,針對不同提示,與1.0 Pro比起來,1.5 Pro和1.5 Flash相對得分更高。

圖片

多模態(tài)評估

針對多模態(tài)性能,技術(shù)報(bào)告中涉及了眾多基準(zhǔn)測試,包括多模態(tài)推理、圖表與文檔、自然圖像以及視頻理解四個方面,共15個圖像理解任務(wù)以及6個視頻理解任務(wù)。

總體來看,除了一項(xiàng)測試之外,1.5 Pro的表現(xiàn)均能超過或者與1.0 Ultra相當(dāng),且輕量的1.5 Flash在幾乎所有測試中都超過了1.0 Pro。

可以看到1.5 Pro在多模態(tài)推理的4個基準(zhǔn)測試上都有所提高。

在公認(rèn)較為困難的MMMU測試中,1.5 Pro實(shí)現(xiàn)了從47.9%到62.2%的提升,在研究生水平的Ai2D測試上甚至達(dá)到了94.4%,1.5 Flash也有91.7%的高分。

對于多模態(tài)大模型,圖表和文檔的理解比較有挑戰(zhàn)性,因?yàn)樾枰獙D像信息進(jìn)行準(zhǔn)確的解析和推理。

Gemini 1.5 Pro在ChartQA取得了87.2%的SOTA結(jié)果。

在TAT-DQA測試上,分?jǐn)?shù)從1.0 Pro的9.9%升至37.8%,1.5 Flash相比1.0 Ultra也有將近10%的提高。

此外,團(tuán)隊(duì)創(chuàng)建了BetterQA等9個互不相交的能力測試。結(jié)果顯示,相比上一代的1.0 Pro,1.5 Pro總體達(dá)到了20%以上的提升。

自然圖像理解方面的測試,重點(diǎn)關(guān)注模型的對物理世界的理解以及空間推理能力。

在專門的V*測試中,1.5 Pro和測試提出者所發(fā)表的模型SEAL幾乎表現(xiàn)相當(dāng)。

在人類擅長而模型不擅長的Blink測試中,1.5 Pro實(shí)現(xiàn)了從45.1%(1.0 Pro)到61.4%的提升,F(xiàn)lash分?jǐn)?shù)相近(56.5%),依舊高于1.0 Ultra(51.7%)。

除了「大海撈針」,團(tuán)隊(duì)也為Gemini 1.5 Pro進(jìn)行了其他視頻理解方面的基準(zhǔn)測試,但提升不如前三個方面那樣顯著。

在VATEX英文和中文的兩個測試中,對比2月份發(fā)布的Gemini 1.5 Pro的技術(shù)報(bào)告,三個月訓(xùn)練后的提升不超過2分。

在YouCook2測試中,1.5 Pro似乎始終不能達(dá)到1.0 Ultra的135.4分,而且相比2月技術(shù)報(bào)告中的134.2下降到了最新的106.5。

有趣的是,在OpenEQA的零樣本測試上,1.5 Flash得分63.1,甚至超過了1.5 Pro的57.9。技術(shù)報(bào)告中解釋,這是由于1.5 Pro拒絕回答某些問題造成的。

圖片

圖片

2月版

對比GPT-4、Claude 3優(yōu)勢明顯

接下來,再看看橫向?qū)Ρ?,新升級?.5 Pro與GPT-4、Claude模型相較下的性能如何。

模型診斷能力改進(jìn)

如下展示的是,在2000個MRCR任務(wù)實(shí)例中,字符串相似度累積平均得分與上下文長度的函數(shù)關(guān)系。

在與GPT-4 Turbo和Claude 2.1進(jìn)行比較時,研究人員發(fā)現(xiàn)分別在8K和20K個詞組之后,1.5 Pro和1.5 Flash的性能大大優(yōu)于這兩個模型。

隨著上下文長度的增加,1.5 Pro和1.5 Flash的性能下降幅度大大縮小,最高可達(dá)100萬個token。

圖片

在將小語種Kalamang翻譯成英語的量化結(jié)果如下所示。

新升級的1.5 Pro在喂了半本書,甚至全本書的數(shù)據(jù)之后,性能得到大幅提升,并優(yōu)于GPT-4 Turbo和Claude 3的表現(xiàn)。

圖片

而在將英語翻譯成Kalamang語言的量化結(jié)果中,1.5 Pro的勝率也是最高的。

圖片

低資源機(jī)器翻譯的長上下文擴(kuò)展

再來看,在「低資源」機(jī)器翻譯中,模型的上下文學(xué)習(xí)擴(kuò)展(Scaling)表現(xiàn)。

隨著樣本數(shù)量不斷增加,1.5 Pro的翻譯性能越來越好,大幅超越了GPT-4 Turbo。

圖片

長上下文文本QA

針對長文本的問答,1.5 Pro在710k上下文文中,表現(xiàn)顯著優(yōu)于GPT-4 Turbo。并且,超越了沒有上下文,以及在RAG加持下,支持4k上下文的1.5 Pro。

圖片

長上下文音頻

在音頻長上下文的測試中,每個模型的單詞錯誤率表現(xiàn)又如何?

可以看到,1.5 Pro僅有5.5%,而OpenAI的Whisper模型的錯誤率高達(dá)12.5%。

圖片

但與2月版的報(bào)告相比,1.5 Pro的音頻長下文單詞錯誤率還是有所下降。

圖片

2月版

長上下文視頻QA

針對1個小時的視頻問答任務(wù),1.5 Pro在不同基準(zhǔn)上準(zhǔn)確率實(shí)現(xiàn)與3分鐘視頻任務(wù)準(zhǔn)確率,基本持平一致。

圖片

再來看去年2月版的對比,1.5 Pro在1小時任務(wù)中的準(zhǔn)確率有了很大提升,從最高0.643上漲到0.722。還有在3分鐘視頻QA任務(wù)中,從0.636上漲到0.727。

圖片

2月版

在1H-VideoQA測試中,團(tuán)隊(duì)在時長1小時的視頻中每秒取1幀畫面,最終線性下采樣至16幀或150幀,分別輸入給GPT-4V與Gemini 1.5進(jìn)行問答。

無論幀數(shù)多少,Gemini 1.5 Pro的表現(xiàn)均強(qiáng)于GPT-4V,其中在16幀測試的優(yōu)勢最為明顯(36.5% vs. 45.2%)。

在觀看整個視頻后進(jìn)行回答時,Gemini 1.5 Pro從2月的64.3%提升至72.2%。

圖片

圖片

2月版

長上下文規(guī)劃

「推理」和「規(guī)劃」技能對解決問題都很重要,雖然LLM在推理上進(jìn)展顯著,但規(guī)劃依舊很難。

這篇報(bào)告專門呈現(xiàn)了Gemini 1.5的規(guī)劃能力測試,涉及到移動積木、安排物流路線、室內(nèi)導(dǎo)航、規(guī)劃日程和旅行路線等任務(wù)場景。

測試中,模型必須根據(jù)給定任務(wù),一次性地快速生成解決方案,類似于人類的「頭腦風(fēng)暴」過程。

總體上,Gemini 1.5 Pro在絕大多數(shù)情況下的表現(xiàn)優(yōu)于GPT 4 Turbo,不僅能在少樣本時較好進(jìn)行規(guī)劃,還能更有效地利用額外的上下文信息。

更輕量的Gemini 1.5 Flash表現(xiàn)始終不敵Gemini 1.5 Pro,但在幾乎一半的情況下可以與GPT-4 Turbo的表現(xiàn)相當(dāng)。

圖片

GPT-4 Turbo的在BlocksWorld中的零樣本表現(xiàn)接近于零,而Gemini 1.5 Pro和Flash分別達(dá)到了35%和26%。

Calendar Scheduling也是如此,GPT的1-shot準(zhǔn)確率低于10%,而1.5 Pro達(dá)到33%。

隨著樣本數(shù)量逐漸增多,1.5 Pro的表現(xiàn)基本持續(xù)提升,但GPT-4 Turbo在樣本增加到一定程度時會出現(xiàn)下降趨勢,在Logistics中甚至持續(xù)下降。

比如Calendar Scheduling中,當(dāng)樣本數(shù)量逐漸增加至80-shot時,GPT-4 Turbo和1.5 Flash只有38%的準(zhǔn)確率,比Gemini 1.5 Pro低了32%。

之后增加至400-shot時,1.5 Pro達(dá)到了77%的準(zhǔn)確率,GPT卻依舊徘徊在50%左右。

非結(jié)構(gòu)化多模態(tài)數(shù)據(jù)分析任務(wù)

現(xiàn)實(shí)世界中的大多數(shù)數(shù)據(jù),比如圖像和對話,仍然是非結(jié)構(gòu)化的。

研究人員向LLM展示了一組1024張圖像,目的是將圖像中包含的信息提取到結(jié)構(gòu)化數(shù)據(jù)表中。

圖17展示了從圖像中提取不同類型信息的準(zhǔn)確性結(jié)果。

Gemini 1.5 Pro在所有屬性提取上的準(zhǔn)確性提高了9%(絕對值)。同時,相較于GPT-4 Turbo,1.5 Pro提升了27%。

然而,在評估時,Claude 3 API無法分析超過20張圖像,因此Claude 3 Opus的結(jié)果被限制了。

此外,結(jié)果顯示,1.5 Pro在處理更多的圖像時會帶來持續(xù)更好的結(jié)果。這表明該模型可以有效利用額外和更長的上下文。

而對于GPT-4 Turbo來說,隨著提供的圖像增多,其準(zhǔn)確性反而下降

更多細(xì)節(jié)參見最新技術(shù)報(bào)告。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-07-29 14:39:39

2024-11-04 14:20:00

AI訓(xùn)練

2022-05-16 15:23:46

人工智能工具科學(xué)計(jì)算

2025-06-10 09:09:00

2024-08-26 09:15:00

數(shù)學(xué)黑洞

2011-06-20 09:15:20

面向?qū)ο?/a>算法數(shù)學(xué)

2012-10-22 10:36:29

數(shù)學(xué)家輪盤程序

2015-04-02 16:20:05

2019-11-14 21:32:51

計(jì)算機(jī)數(shù)據(jù)科學(xué)數(shù)據(jù)

2025-05-28 10:30:41

AI陶哲軒模型

2020-06-10 09:55:04

AI 數(shù)據(jù)人工智能

2025-04-01 09:17:00

2024-02-26 08:30:00

2023-12-15 12:52:32

模型數(shù)據(jù)

2024-12-30 08:30:00

AI模型數(shù)據(jù)

2013-05-29 10:44:11

2009-06-08 09:59:24

谷歌俄羅斯方塊版權(quán)

2019-01-14 11:10:43

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-08-09 10:24:21

技術(shù)分類數(shù)學(xué)

2020-08-31 12:36:27

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號