CMU權(quán)威對(duì)比Gemini,GPT-3和Mistral8×7B!GPT-3.5依舊拿捏Gemini,開源模型差距依然不小
谷歌最近發(fā)布的Gemini掀起了不小的波瀾。
畢竟,大語(yǔ)言模型領(lǐng)域幾乎是OpenAI的GPT一家獨(dú)大的局面。
不過(guò)作為吃瓜群眾,當(dāng)然希望科技公司都卷起來(lái),大模型都打起來(lái)!
所以,作為科技巨無(wú)霸谷歌的親兒子,Gemini自然承受了很高的期待。
雖然Gemini發(fā)布之后發(fā)生了一些奇奇怪怪的事情吧,什么視頻造假啦,認(rèn)為自己是文心一言啦。
不過(guò)問(wèn)題不大,咱們不看廣告看療效。
最近在CMU,研究人員進(jìn)行了一組公正、深入和可重復(fù)的實(shí)驗(yàn)測(cè)試,重點(diǎn)比較了Gemini和GPT在各項(xiàng)任務(wù)中的優(yōu)劣,另外還加入了開源的競(jìng)爭(zhēng)對(duì)手Mixtral。
論文地址:https://arxiv.org/abs/2312.11444
代碼地址:https://github.com/neulab/gemini-benchmark
研究人員在論文中對(duì)Google Gemini的語(yǔ)言能力進(jìn)行了深入地探索,
從第三方的角度,對(duì)OpenAI GPT和Google Gemini模型的能力進(jìn)行了客觀比較,公開了代碼和比較結(jié)果。
我們可以從中發(fā)現(xiàn)兩個(gè)模型分別擅長(zhǎng)的領(lǐng)域。
研究人員比較了6種不同任務(wù)的準(zhǔn)確性:
- 基于知識(shí)的QA(MMLU)
- 推理(BIG-Bench Hard)
- 數(shù)學(xué)(GSM8k、SVAMP、ASDIV、MAWPS)
- 代碼生成(HumanEval,ODEX)
- 翻譯 (FLORES)
- Web指令跟蹤(WebArena)
為了公平起見,實(shí)驗(yàn)中嘗試控制所有變量,對(duì)所有模型使用相同的提示、生成參數(shù)和評(píng)估。
評(píng)測(cè)中使用了LiteLLM以統(tǒng)一的方式查詢模型,使用try_zeno做全面深入的分析。
測(cè)試模型
研究比較了Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo以及Mixtral,指出了他們?cè)谀芰ι系牟煌?/span>
特點(diǎn):Gemini Pro是多模態(tài)的,通過(guò)視頻、文本和圖像進(jìn)行訓(xùn)練。GPT-3.5 Turbo和GPT-4 Turbo則主要基于文本訓(xùn)練,其中GPT-4 Turbo是多模態(tài)的。
測(cè)試復(fù)現(xiàn)方法
更方便的復(fù)現(xiàn)方法:點(diǎn)擊下文測(cè)試任務(wù)的鏈接即可進(jìn)入CMU集成好的基于Zeno的AI評(píng)估平臺(tái)進(jìn)行驗(yàn)證
GitHub鏈接:
https://github.com/neulab/gemini-benchmark]
具體測(cè)試任務(wù)
基于知識(shí)的問(wèn)答(Knowledge-based QA)
基于UC伯克利2020年提出的MMLU(Massive Multitask Language Understanding)大模型評(píng)測(cè)進(jìn)行評(píng)測(cè)
該測(cè)試涵蓋57項(xiàng)任務(wù),包括初等數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等。任務(wù)涵蓋的知識(shí)很廣泛,語(yǔ)言是英文,用以評(píng)測(cè)大模型基本的知識(shí)覆蓋范圍和理解能力。
用5-shot和思維鏈提示詞的MMLU任務(wù)總體準(zhǔn)確率如下圖,Gemini Pro均略微落后GPT-3.5 Turbo
文章也指出使用思維鏈提示的性能差異不大,可能是因?yàn)?MMLU 主要是基于知識(shí)的問(wèn)答任務(wù),可能不會(huì)從更強(qiáng)的面向推理的提示中顯著受益。
下圖顯示Gemini-pro、gpt3.5-turbo、gpt-4-turbo對(duì)于多選題答案輸出的比例,結(jié)果顯示Gemini-pro、gpt3.5-turbo都有一些答案偏見,尤其Gemini-pro十分偏向D選項(xiàng)
表明 Gemini 尚未針對(duì)解決多選題問(wèn)題,進(jìn)行大量指令調(diào)整,這可能導(dǎo)致模型在答案排序方面存在偏差
MMLU的57個(gè)子任務(wù)中只有兩項(xiàng)Gemini-pro超過(guò)GPT3.5-turbo。
下圖顯示gpt3.5最領(lǐng)先Gemini-pro的前四個(gè)任務(wù)的準(zhǔn)確性,和Gemini-pro超過(guò)gpt3.5的兩個(gè)任務(wù)
通用推理(General-purpose Reasoning)
基于BBH(BIG-Bench Harch)這一通用推理數(shù)據(jù)集進(jìn)行測(cè)試,其中包括算術(shù)、符號(hào)和多語(yǔ)言推理以及事實(shí)只是理解任務(wù)。
首先,從如下總體精度圖中可以看到Gemini Pro實(shí)現(xiàn)的精度略低于GPT 3.5 Turbo,并且遠(yuǎn)低于GPT 4 Turbo。相比之下,Mixtral 模型的精度要低得多。
接下來(lái)進(jìn)行一些細(xì)節(jié)分析,首先根據(jù)問(wèn)題的長(zhǎng)度測(cè)試一下準(zhǔn)確性,結(jié)果如下圖。
作者發(fā)現(xiàn)Gemini Pro在更長(zhǎng)、更復(fù)雜的問(wèn)題上表現(xiàn)不佳,而GPT模型對(duì)此更穩(wěn)健。
GPT-4 Turbo的情況尤其如此,即使在較長(zhǎng)的問(wèn)題上,它也幾乎沒(méi)有表現(xiàn)出性能下降,這表明它具有強(qiáng)大能力來(lái)理解更長(zhǎng)和更復(fù)雜的查詢。
GPT-3.5 Turbo的穩(wěn)健性處于中間位置。Mixtral在問(wèn)題長(zhǎng)度方面特別穩(wěn)定,但總體準(zhǔn)確率較低。
下圖再具體列出了GPT-3.5 Turbo表現(xiàn)優(yōu)于Gemini Pro最多的任務(wù)。
Gemini Pro在tracking_shuffled_objects任務(wù)上表現(xiàn)很糟糕
在某些任務(wù)中,即multistep_arithmetic_two、salient_translation_error_detection、snarks、disambiguition_qa和兩個(gè)tracking_shuffled_objects任務(wù)中,Gemini Pro的表現(xiàn)甚至比Mixtral模型還要差。
當(dāng)然,有一些任務(wù)Gemini Pro優(yōu)于GPT3.5。
下圖顯示了 Gemini Pro 比 GPT 3.5 Turbo 表現(xiàn)優(yōu)秀的六項(xiàng)任務(wù)。這些任務(wù)需要世界知識(shí)(sports_understanding)、操作符號(hào)堆棧(dyck_languages)、按字母順序排序單詞(word_sorting)和解析表(penguins_in_a_table)等。
文章在此部分最后表示,對(duì)于通用推理任務(wù),似乎沒(méi)有Gemini和GPT都沒(méi)有絕對(duì)優(yōu)勢(shì),所以可以都嘗試一下
數(shù)學(xué)問(wèn)題
基于四個(gè)數(shù)學(xué)應(yīng)用題評(píng)測(cè)進(jìn)行:
- GSM8K,小學(xué)數(shù)學(xué)基準(zhǔn)
- SVAMP 數(shù)據(jù)集,通過(guò)不同的詞序生成問(wèn)題來(lái)檢查穩(wěn)健的推理能力,
- ASDIV 數(shù)據(jù)集,具有不同的語(yǔ)言模式和問(wèn)題類型
- MAWPS 基準(zhǔn),由算術(shù)和代數(shù)應(yīng)用題組成。
下圖顯示四項(xiàng)數(shù)學(xué)推理任務(wù)的總體準(zhǔn)確性
從圖中可以看出,在 GSM8K、SVAMP 和 ASDIV 任務(wù)上,Gemini Pro的精度略低于 GPT-3.5 Turbo,并且遠(yuǎn)低于 GPT-4 Turbo,這些任務(wù)都包含多樣化的語(yǔ)言模式。
對(duì)于 MAWPS 任務(wù),所有模型都達(dá)到了 90% 以上的準(zhǔn)確率,盡管 Gemini Pro 仍然比GPT模型稍差。
有趣的是,在此任務(wù)中,GPT-3.5 Turbo的表現(xiàn)以微弱優(yōu)勢(shì)勝過(guò)GPT-4 Turbo。
相比之下,Mixtral模型的準(zhǔn)確率比其他模型要低得多。
和之前在BBH上的推理任務(wù)一樣,我們可以看到較長(zhǎng)任務(wù)推理性能會(huì)下降。
并且和以前一樣,GPT 3.5 Turbo 在較短的問(wèn)題上優(yōu)于 Gemini Pro,但下降得更快,Gemini Pro 在較長(zhǎng)的問(wèn)題上實(shí)現(xiàn)了類似(但仍稍差)的準(zhǔn)確度。
不過(guò)在思維鏈(CoT)長(zhǎng)度超過(guò)100的最復(fù)雜例子中,Gemini Pro優(yōu)于GPT 3.5 Turbo,但在較短示例中表現(xiàn)不佳。
最后,文章研究了比較模型在生成不同位數(shù)答案時(shí)的準(zhǔn)確性。
根據(jù)答案中的位數(shù)創(chuàng)建三個(gè)類別,一位數(shù)、兩位數(shù)、三位數(shù)答案(MAWPS 任務(wù)除外,其答案不超過(guò)兩位數(shù))。
如下圖所示,GPT-3.5 Turbo似乎對(duì)于多位數(shù)數(shù)學(xué)問(wèn)題更加穩(wěn)健,而Gemini Pro在位數(shù)較多的問(wèn)題上性能下降更多。
代碼生成
在此類別中,文章使用兩個(gè)代碼生成數(shù)據(jù)集HumanEval和ODEX檢查模型的編碼能力。
前者測(cè)試對(duì)Python標(biāo)準(zhǔn)庫(kù)中一組有限函數(shù)的基本代碼理解。
后者測(cè)試使用整個(gè)Python生態(tài)系統(tǒng)中更廣泛的庫(kù)的能力。
它們都將人工編寫的英語(yǔ)任務(wù)描述(通常帶有測(cè)試用例)作為輸入。這些問(wèn)題用來(lái)評(píng)估對(duì)語(yǔ)言、算法和初等數(shù)學(xué)的理解。
總體而言,HumanEval有164個(gè)測(cè)試樣本,ODEX有439個(gè)測(cè)試樣本。
代碼生成的總體情況如下圖:
Gemini Pro在兩項(xiàng)任務(wù)上的Pass@1 成績(jī)都低于GPT-3.5 Turbo,遠(yuǎn)低于GPT-4 Turbo。
接下來(lái),分析最佳解決方案長(zhǎng)度與模型性能之前的關(guān)系,因?yàn)榻鉀Q方案長(zhǎng)度可以一定程度上表明相應(yīng)代碼生成的任務(wù)的難度。
本文發(fā)現(xiàn),當(dāng)解決方案長(zhǎng)度低于100(即代表處理簡(jiǎn)單問(wèn)題)時(shí),Gemini Pro 可以達(dá)到與 GPT-3.5 相當(dāng)?shù)?Pass@1,但當(dāng)解決方案變得更長(zhǎng)(即處理更難的問(wèn)題時(shí))時(shí),它會(huì)大幅落后。
文章還分析了每個(gè)解決方案所需的庫(kù)如何影響模型性能,結(jié)果如下圖顯示:
根據(jù)結(jié)果分析,在大多數(shù)使用庫(kù)的情況下,例如mock、pandas、numpy和datetime,Gemini Pro的表現(xiàn)比GPT-3.5差。
然而,它在 matplotlib 情況下優(yōu)于 GPT-3.5 和 GPT-4,在通過(guò)代碼執(zhí)行繪圖可視化時(shí)顯示出更強(qiáng)的功能。
下面展示幾個(gè)具體的失敗案例:
首先, Gemini在從Python API中正確選擇函數(shù)和參數(shù)方面稍差一些
比如,當(dāng)你給出如下指令時(shí)
def f_3283984():
"""decode a hex string '4a4b4c' to UTF-8."""
Gemini Pro 生成以下代碼,導(dǎo)致類型不匹配錯(cuò)誤。
bytes(bytearray.fromhex('4a4b4c'), 'utf-8')
相比之下,GPT 3.5 Turbo 使用以下代碼,達(dá)到了預(yù)期的結(jié)果:
hex_string = '4a4b4c'
decoded_string = bytes.fromhex(hex_string).decode('utf-8')
return decoded_string
此外,Gemini Pro的錯(cuò)誤比例較高,所實(shí)現(xiàn)的代碼在語(yǔ)法上是正確的,但與復(fù)雜的意圖不正確匹配。
例如,對(duì)于以下指令
from typing import List
def remove_duplicates(numbers: List[int]) -> List[int]:
"""From a list of integers, remove all elements that occur more than once.
Keep order of elements left the same as in the input.
>>> remove_duplicates([1, 2, 3, 2, 4])
[1, 3, 4]
"""
Gemini Pro 給的代碼,只提取唯一的數(shù)字,而不刪除那些出現(xiàn)多次的數(shù)字。
seen_numbers = set()
unique_numbers = []
for number in numbers:
if number not in seen_numbers:
unique_numbers.append(number)
seen_numbers.add(number)
return unique_numbers
機(jī)器翻譯(Machine Translation)
基于FLORES-200 機(jī)器翻譯基準(zhǔn)評(píng)估模型的多語(yǔ)言能力,特別是在各種語(yǔ)言對(duì)之間翻譯的能力。
針對(duì)所有選定的語(yǔ)言對(duì),對(duì)測(cè)試集中的1012個(gè)句子進(jìn)行評(píng)估。作為這項(xiàng)研究的第一步,本文將范圍限制為僅從英語(yǔ)到其他語(yǔ)言(ENG→X)的翻譯。
結(jié)果顯示如下圖,Gemini Pro在翻譯任務(wù)上,總體優(yōu)于其他模型,在 20 種語(yǔ)言中的 8 種語(yǔ)言上均優(yōu)于 GPT-3.5 Turbo 和 GPT-4 Turbo,并在4種語(yǔ)言上取得了最高性能。
雖然在非英語(yǔ)語(yǔ)言翻譯方面尚未超越專用機(jī)器翻譯系統(tǒng),但通用語(yǔ)言模型也顯示出了強(qiáng)競(jìng)爭(zhēng)力的性能
零樣本提示和5樣本提示Gemini Pro在翻譯任務(wù)上均優(yōu)于其他模型
網(wǎng)頁(yè)代理(Web Agents)
最后,本文驗(yàn)證每個(gè)模型充當(dāng)網(wǎng)絡(luò)導(dǎo)航代理(web navigation agent)的能力,這是一項(xiàng)需要長(zhǎng)期規(guī)劃和復(fù)雜數(shù)據(jù)理解的任務(wù)。
使用 WebArena ,這是一個(gè)基于命令執(zhí)行的模擬環(huán)境,其中成功標(biāo)準(zhǔn)基于執(zhí)行結(jié)果。分配給代理的任務(wù)包括信息查找、站點(diǎn)導(dǎo)航以及內(nèi)容和配置操作。
這些任務(wù)跨越各種網(wǎng)站,包括電子商務(wù)平臺(tái)、社交論壇、協(xié)作軟件開發(fā)平臺(tái)(例如 gitlab)、內(nèi)容管理系統(tǒng)和在線地圖。
如下圖文章從總體結(jié)果可以看出,Gemini-Pro 的性能與 GPT-3.5-Turbo 相當(dāng),但稍差。
與 GPT-3.5-Turbo 類似,當(dāng)Prompts提到任務(wù)可能無(wú)法完成時(shí)(UA 提示),Gemini-Pro 的表現(xiàn)會(huì)更好。通過(guò) UA 提示,Gemini-Pro 的總體成功率達(dá)到 7.09%。
之后文章又按照網(wǎng)絡(luò)進(jìn)行細(xì)分,如下圖,可以看到 Gemini-Pro 在 gitlab 和地圖上的表現(xiàn)比 GPT-3.5-Turbo 差,而在購(gòu)物管理、reddit 和 Shopping 上則接近 GPT-3.5-Turbo 。它在多站點(diǎn)任務(wù)上的表現(xiàn)比 GPT-3.5-Turbo 更好。
測(cè)試結(jié)果總覽
在本文中,作者對(duì) Google 的 Gemini 模型進(jìn)行了第一次公正、深入的研究,并將其與 OpenAI 的 GPT 3.5 和 4 模型以及開源 Mixtral 模型進(jìn)行了比較。
CMU評(píng)測(cè)的主要結(jié)果展示,黑色粗體表示最佳模型,下劃線為第二
在最后,作者疊了一些甲:
指出他們工作是針對(duì)不斷變化且不穩(wěn)定的API,所有結(jié)果均為截至 2023 年 12 月 19 日撰寫本文時(shí)的最新結(jié)果,但隨著模型和周圍系統(tǒng)的升級(jí),未來(lái)可能會(huì)發(fā)生變化。
結(jié)果可能取決于其選擇的特定提示和生成參數(shù)
作者測(cè)試時(shí)沒(méi)有像谷歌意義使用多個(gè)樣本和自我一致性(self-consistency),不過(guò)作者認(rèn)為對(duì)不同模型使用一致的prompts的多項(xiàng)任務(wù)上進(jìn)行的測(cè)試,恰恰可以合理地展示被測(cè)模型的穩(wěn)健性和廣義指令的遵循能力
作者指出數(shù)據(jù)泄露對(duì)當(dāng)前大模型評(píng)測(cè)任務(wù)的困擾,雖然他們沒(méi)有明確測(cè)量這種泄露,但他們也嘗試過(guò)各種方法來(lái)緩解這個(gè)問(wèn)題
在展望中,作者也提出建議,希望大家在使用Gemini Pro之前,根據(jù)這篇論文,自己評(píng)估Gemini Pro是否如宣傳所說(shuō)與GPT 3.5 Turbo相媲美。作者也表示Gemini的Ultra版本尚未發(fā)布,等其發(fā)布后也會(huì)驗(yàn)證其是否如報(bào)道所說(shuō)與GPT4相當(dāng)。