偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

^{<blockquote id="kfjhr"></blockquote>}

<var id="kfjhr"></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Gemini Pro還不如GPT-3.5，CMU深入對比研究：保證公平透明可重復(fù)

2023-12-20 22:17:19

目前Gemini最高版本Ultra版尚未發(fā)布，到時CMU團(tuán)隊也有意繼續(xù)這項研究。你覺得Gemini Ultra能達(dá)到GPT-4水平么？

谷歌Gemini實力到底如何？卡耐基梅隆大學(xué)來了場專業(yè)客觀第三方比較。

為保證公平，所有模型使用相同的提示和生成參數(shù)，并且提供可重復(fù)的代碼和完全透明的結(jié)果。

不會像谷歌官方發(fā)布會那樣，用CoT@32對比5-shot了。

一句話結(jié)果：Gemini Pro版本接近但略遜于GPT-3.5 Turbo，GPT-4還是遙遙領(lǐng)先。

在深入分析中還發(fā)現(xiàn)Gemini一些奇怪特性，比如選擇題喜歡選D……

不少研究者表示，太卷了，Gemini剛發(fā)布沒幾天就搞出這么詳細(xì)的測試。

六大任務(wù)深入測試

這項測試具體比較了6大任務(wù)，分別選用相應(yīng)的數(shù)據(jù)集：

知識問答：MMLU
推理：BIG-Bench Hard
數(shù)學(xué)：GSM8k、SVAMP、ASDIV、MAWPS
代碼：HumanEval、ODEX
翻譯：FLORES
上網(wǎng)沖浪：WebArena

知識問答：喜歡選D

從結(jié)果可以看出，使用思維鏈提示在這類任務(wù)上不一定能帶來提升。

MMLU數(shù)據(jù)集里都是多選題，對結(jié)果進(jìn)一步分析還發(fā)現(xiàn)奇怪現(xiàn)象：Gemini更喜歡選D。

GPT系列在4個選項上的分布就要平衡很多，團(tuán)隊提出這可能是Gemini沒針對多選題做大量指令微調(diào)造成的。

另外Gemini的安全過濾比較嚴(yán)重，涉及道德問題只回答了85%，到了人類性行為相關(guān)問題只回答了28%。

Gemini Pro表現(xiàn)超過GPT-3.5的兩個科目是安全研究和高中微觀經(jīng)濟(jì)學(xué)，但差距也不大，團(tuán)隊表示分析不出來什么特別的。

推理：長問題不擅長

Gemini Pro在更長、更復(fù)雜的問題上表現(xiàn)不佳，而GPT系列對此更穩(wěn)健。

GPT-4 Turbo尤其如此，即使在較長的問題上也幾乎沒有性能下降，表明它具有理解復(fù)雜問題的強(qiáng)大能力。

如果按問題類型來分析，Gemini特別不擅長“tracking_shuffled_objects”這類問題，也就人們交換物品，最后讓AI判斷誰擁有哪些物品。

Gemini比較擅長的任務(wù)是，需要世界知識的體育運動理解、操作符號堆棧、按字母順序排序單詞，解析表格。

數(shù)學(xué)：復(fù)雜任務(wù)反超

這一次問題本身太長Gemini Pro和GPT-3.5表現(xiàn)就一起下降，只有GPT-4還能保持一貫水準(zhǔn)。

但使用的思維鏈提示長度最長時，Gemini反超GPT-3.5。

代碼：擅長matplotlib

對于代碼問題，Gemini在參考答案長的問題上表現(xiàn)很差。

按調(diào)用的庫來分類，GPT系列在大多數(shù)類型更強(qiáng)，但matplotlib就完全不行。

翻譯：只要回答了，質(zhì)量就很高

翻譯任務(wù)上，有12種類型Gemini拒絕回答，但是只要回答了的翻譯質(zhì)量都很高，整體表現(xiàn)超過GPT-4。

Gemini拒絕翻譯的類型主要涉及拉丁語、阿拉伯語。

網(wǎng)絡(luò)導(dǎo)航：擅長跨站點沖浪

WebArena給AI模擬了一個互聯(lián)網(wǎng)環(huán)境，包括電子商務(wù)、社交論壇、GitLab協(xié)作開發(fā)、內(nèi)容管理系統(tǒng)和在線地圖等，需要AI查找信息或跨站點完成任務(wù)。

Gemini在整體表現(xiàn)不如GPT-3.5 Turbo，但在跨多個站點的任務(wù)中表現(xiàn)稍好。

網(wǎng)友：但是它免費啊

最后，CMU副教授Graham Neubig承認(rèn)了這項研究的一些局限性。

基于API的模型行為可能隨時變化
只嘗試了有限數(shù)量的提示，對不同模型來說適用的提示詞可能不一樣
無法控制測試集是否泄露

谷歌大模型推理團(tuán)隊負(fù)責(zé)人周登勇指出，對于推理任務(wù)把Gemini的溫度設(shè)置為0可以提高5-10個百分點。

這項測試中除了Gemini與GPT系列，還搭上了最近很受關(guān)注的開源MoE模型Mixtral。

不過強(qiáng)化學(xué)習(xí)專家Noam Brown認(rèn)為可以忽略其中Mixtral的結(jié)果，因為用的是第三方API而非官方實現(xiàn)。

Mistral AI創(chuàng)始人也來給團(tuán)隊提供了官方版調(diào)用權(quán)限，認(rèn)為能得到一個更好的結(jié)果。

總得來，雖然Gemini Pro還是不如GPT-3.5，但是它勝在每分鐘調(diào)用不超過60次就免費。

所以還是有不少個人開發(fā)者已經(jīng)轉(zhuǎn)換了陣營。

目前Gemini最高版本Ultra版尚未發(fā)布，到時CMU團(tuán)隊也有意繼續(xù)這項研究。

你覺得Gemini Ultra能達(dá)到GPT-4水平么？

論文：https://arxiv.org/abs/2312.11444。

參考鏈接：
[1]https://twitter.com/gneubig/status/1737108977954251216。

責(zé)任編輯：姜華來源：量子位

Gemini GPT-3.5 谷歌

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="39afk"><code id="39afk"></code></abbr>