偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Gemini Pro還不如GPT-3.5,CMU深入對(duì)比研究:保證公平透明可重復(fù)

人工智能
目前Gemini最高版本Ultra版尚未發(fā)布,到時(shí)CMU團(tuán)隊(duì)也有意繼續(xù)這項(xiàng)研究。你覺得Gemini Ultra能達(dá)到GPT-4水平么?

谷歌Gemini實(shí)力到底如何?卡耐基梅隆大學(xué)來了場(chǎng)專業(yè)客觀第三方比較。

為保證公平,所有模型使用相同的提示和生成參數(shù),并且提供可重復(fù)的代碼和完全透明的結(jié)果

圖片

不會(huì)像谷歌官方發(fā)布會(huì)那樣,用CoT@32對(duì)比5-shot了。

一句話結(jié)果:Gemini Pro版本接近但略遜于GPT-3.5 Turbo,GPT-4還是遙遙領(lǐng)先。

圖片

在深入分析中還發(fā)現(xiàn)Gemini一些奇怪特性,比如選擇題喜歡選D……

圖片

不少研究者表示,太卷了,Gemini剛發(fā)布沒幾天就搞出這么詳細(xì)的測(cè)試。

圖片

六大任務(wù)深入測(cè)試

這項(xiàng)測(cè)試具體比較了6大任務(wù),分別選用相應(yīng)的數(shù)據(jù)集:

  • 知識(shí)問答:MMLU
  • 推理:BIG-Bench Hard
  • 數(shù)學(xué):GSM8k、SVAMP、ASDIV、MAWPS
  • 代碼:HumanEval、ODEX
  • 翻譯:FLORES
  • 上網(wǎng)沖浪:WebArena

知識(shí)問答:喜歡選D

從結(jié)果可以看出,使用思維鏈提示在這類任務(wù)上不一定能帶來提升。

圖片

MMLU數(shù)據(jù)集里都是多選題,對(duì)結(jié)果進(jìn)一步分析還發(fā)現(xiàn)奇怪現(xiàn)象:Gemini更喜歡選D。

GPT系列在4個(gè)選項(xiàng)上的分布就要平衡很多,團(tuán)隊(duì)提出這可能是Gemini沒針對(duì)多選題做大量指令微調(diào)造成的。

圖片

另外Gemini的安全過濾比較嚴(yán)重,涉及道德問題只回答了85%,到了人類性行為相關(guān)問題只回答了28%。

圖片

Gemini Pro表現(xiàn)超過GPT-3.5的兩個(gè)科目是安全研究和高中微觀經(jīng)濟(jì)學(xué),但差距也不大,團(tuán)隊(duì)表示分析不出來什么特別的。

圖片

推理:長(zhǎng)問題不擅長(zhǎng)

圖片

Gemini Pro在更長(zhǎng)、更復(fù)雜的問題上表現(xiàn)不佳,而GPT系列對(duì)此更穩(wěn)健。

GPT-4 Turbo尤其如此,即使在較長(zhǎng)的問題上也幾乎沒有性能下降,表明它具有理解復(fù)雜問題的強(qiáng)大能力。

圖片

如果按問題類型來分析,Gemini特別不擅長(zhǎng)“tracking_shuffled_objects”這類問題,也就人們交換物品,最后讓AI判斷誰(shuí)擁有哪些物品。

圖片

Gemini比較擅長(zhǎng)的任務(wù)是,需要世界知識(shí)的體育運(yùn)動(dòng)理解、操作符號(hào)堆棧、按字母順序排序單詞,解析表格。

圖片

數(shù)學(xué):復(fù)雜任務(wù)反超

圖片

這一次問題本身太長(zhǎng)Gemini Pro和GPT-3.5表現(xiàn)就一起下降,只有GPT-4還能保持一貫水準(zhǔn)。

圖片

但使用的思維鏈提示長(zhǎng)度最長(zhǎng)時(shí),Gemini反超GPT-3.5。

圖片

代碼:擅長(zhǎng)matplotlib

對(duì)于代碼問題,Gemini在參考答案長(zhǎng)的問題上表現(xiàn)很差。

圖片

按調(diào)用的庫(kù)來分類,GPT系列在大多數(shù)類型更強(qiáng),但matplotlib就完全不行。

圖片

翻譯:只要回答了,質(zhì)量就很高

翻譯任務(wù)上,有12種類型Gemini拒絕回答,但是只要回答了的翻譯質(zhì)量都很高,整體表現(xiàn)超過GPT-4。

圖片

Gemini拒絕翻譯的類型主要涉及拉丁語(yǔ)、阿拉伯語(yǔ)。

圖片

網(wǎng)絡(luò)導(dǎo)航:擅長(zhǎng)跨站點(diǎn)沖浪

WebArena給AI模擬了一個(gè)互聯(lián)網(wǎng)環(huán)境,包括電子商務(wù)、社交論壇、GitLab協(xié)作開發(fā)、內(nèi)容管理系統(tǒng)和在線地圖等,需要AI查找信息或跨站點(diǎn)完成任務(wù)。

Gemini在整體表現(xiàn)不如GPT-3.5 Turbo,但在跨多個(gè)站點(diǎn)的任務(wù)中表現(xiàn)稍好。

圖片

網(wǎng)友:但是它免費(fèi)啊

最后,CMU副教授Graham Neubig承認(rèn)了這項(xiàng)研究的一些局限性。

  • 基于API的模型行為可能隨時(shí)變化
  • 只嘗試了有限數(shù)量的提示,對(duì)不同模型來說適用的提示詞可能不一樣
  • 無法控制測(cè)試集是否泄露

圖片

谷歌大模型推理團(tuán)隊(duì)負(fù)責(zé)人周登勇指出,對(duì)于推理任務(wù)把Gemini的溫度設(shè)置為0可以提高5-10個(gè)百分點(diǎn)。

圖片

這項(xiàng)測(cè)試中除了Gemini與GPT系列,還搭上了最近很受關(guān)注的開源MoE模型Mixtral。

不過強(qiáng)化學(xué)習(xí)專家Noam Brown認(rèn)為可以忽略其中Mixtral的結(jié)果,因?yàn)橛玫氖堑谌紸PI而非官方實(shí)現(xiàn)。

圖片

圖片

Mistral AI創(chuàng)始人也來給團(tuán)隊(duì)提供了官方版調(diào)用權(quán)限,認(rèn)為能得到一個(gè)更好的結(jié)果。

圖片

總得來,雖然Gemini Pro還是不如GPT-3.5,但是它勝在每分鐘調(diào)用不超過60次就免費(fèi)。

所以還是有不少個(gè)人開發(fā)者已經(jīng)轉(zhuǎn)換了陣營(yíng)。

圖片

目前Gemini最高版本Ultra版尚未發(fā)布,到時(shí)CMU團(tuán)隊(duì)也有意繼續(xù)這項(xiàng)研究。

你覺得Gemini Ultra能達(dá)到GPT-4水平么?

論文:https://arxiv.org/abs/2312.11444。

參考鏈接:
[1]https://twitter.com/gneubig/status/1737108977954251216。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2023-12-20 15:32:02

模型數(shù)據(jù)

2023-12-24 13:56:37

2023-04-28 09:07:28

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2023-09-25 09:58:25

AI框架

2024-02-05 09:00:00

2023-08-23 08:54:59

OpenAIGPT-3.5

2023-09-06 16:44:03

2023-12-14 13:04:00

訓(xùn)練數(shù)據(jù)

2024-01-02 14:07:00

2023-05-05 09:42:12

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-10-31 15:26:02

阿里云通義千問

2023-07-10 15:22:29

OpenAIGPT-3.5

2024-05-29 11:36:44

2023-08-23 12:17:26

OpenAIChatGPT

2023-06-21 13:37:41

模型研究

2024-07-19 09:26:12

2023-08-23 12:02:49

數(shù)據(jù)OpenAIGPT-3.5

2024-02-27 11:46:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)