偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ChatGPT vs Google Bard:哪個(gè)更好?測試結(jié)果告訴你!

人工智能
我們對(duì)ChatGPT和Bard進(jìn)行了七個(gè)關(guān)鍵類別的測試:冷笑話、辯論對(duì)話、數(shù)學(xué)應(yīng)用題、總結(jié)、事實(shí)檢索、創(chuàng)意寫作和編碼。對(duì)于每個(gè)測試,我們將完全相同的指令(稱為“提示,prompt”)輸入ChatGPT(使用GPT-4)和Google Bard,并選取它們給出的第一個(gè)結(jié)果進(jìn)行比較。

在當(dāng)今生成式AI聊天機(jī)器人的世界里,我們目睹了ChatGPT(OpenAI于2022年11月推出)的突然崛起,隨后是今年2月推出的Bing Chat和3月推出的Google Bard。我們決定讓這些聊天機(jī)器人完成各種任務(wù),以確定哪一個(gè)在AI聊天機(jī)器人領(lǐng)域占據(jù)主導(dǎo)地位。由于Bing Chat使用的是與最新的ChatGPT模型類似的GPT-4技術(shù),所以我們此次的關(guān)注重點(diǎn)是AI聊天機(jī)器人技術(shù)的兩大巨頭:OpenAI和谷歌。

我們對(duì)ChatGPT和Bard進(jìn)行了七個(gè)關(guān)鍵類別的測試:冷笑話、辯論對(duì)話、數(shù)學(xué)應(yīng)用題、總結(jié)、事實(shí)檢索、創(chuàng)意寫作和編碼。對(duì)于每個(gè)測試,我們將完全相同的指令(稱為“提示,prompt”)輸入ChatGPT(使用GPT-4)和Google Bard,并選取它們給出的第一個(gè)結(jié)果進(jìn)行比較。

值得注意的是,基于早期GPT-3.5模型的ChatGPT版本也可用,但我們在測試中沒有使用該版本。由于我們只使用GPT-4,為了避免混淆,我們在本文中將ChatGPT稱為“ChatGPT-4”。

顯然,這不是一項(xiàng)科學(xué)研究,只是為了對(duì)聊天機(jī)器人的能力進(jìn)行有趣的比較。由于隨機(jī)元素,不同會(huì)話之間的輸出可能不同,使用不同提示符的進(jìn)一步評(píng)估將產(chǎn)生不同的結(jié)果。此外,隨著谷歌和OpenAI的不斷升級(jí),這些模型的功能將隨著時(shí)間的推移而迅速變化。但就目前而言,以下是2023年4月初的對(duì)比情況。

冷笑話

為了讓我們的斗智比賽升溫,我們請ChatGPT和Bard寫了一些笑話。由于喜劇的精髓往往存在于冷笑話中,所以我們想看看這兩個(gè)聊天機(jī)器人能否創(chuàng)作出一些獨(dú)特的笑話。

指令/提示:寫5個(gè)原創(chuàng)冷笑話

Bard給出的5個(gè)冷笑話中,我們用谷歌搜索到了其中三個(gè)。另外2個(gè)冷笑話中,一個(gè)是部分借用米奇·赫德伯格(Mitch Hedberg)在推特上發(fā)布的一個(gè)笑話,但它只是無趣的文字游戲,效果不佳。令人驚訝的是,有一個(gè)看似原創(chuàng)的笑話(關(guān)于蝸牛),我們在其他地方都找不到,但遺憾地是它也同樣無趣。

與此同時(shí),ChatGPT-4的5個(gè)冷笑話百分百?zèng)]有原創(chuàng),都完全是從其他渠道抄襲來的,但表達(dá)得很準(zhǔn)確。Bard似乎在這一點(diǎn)上勝過了ChatGPT-4,它在試圖創(chuàng)造原創(chuàng)的笑話(按照我們的指示),盡管有些笑話以一種令人尷尬的方式嚴(yán)重失敗(但這正是冷笑話的風(fēng)格),甚至可以說,以一種無意的方式說錯(cuò)話(也是冷笑話的風(fēng)格)。

優(yōu)勝者:Bard

辯論對(duì)話

測試現(xiàn)代AI聊天機(jī)器人的一種方法是讓它扮演某個(gè)主題的辯論者。在這種情況下,我們?yōu)锽ard和ChatGPT-4提供了我們這個(gè)時(shí)代最關(guān)鍵的主題之一:PowerPC vs.英特爾。

指令/提示:寫5行PowerPC處理器愛好者和英特爾處理器愛好者之間的辯論對(duì)話。

首先,我們來看看Bard的回復(fù)。它生成的五行對(duì)話并沒有特別深入,除了泛泛的侮辱之外,沒有提到任何針對(duì)PowerPC或英特爾芯片的技術(shù)細(xì)節(jié)。此外,對(duì)話以“英特爾粉絲”同意各自持有不同意見而結(jié)束,這在一個(gè)引發(fā)了一百萬場口水仗的主題中似乎非常不現(xiàn)實(shí)。

相比之下,ChatGPT-4的回應(yīng)提到了PowerPC芯片被用于蘋果Macintosh電腦,并拋出了諸如“英特爾的x86架構(gòu)”和PowerPC的“基于RISC架構(gòu)”之類的術(shù)語。它甚至提到了奔騰III,這是2000年的一個(gè)現(xiàn)實(shí)細(xì)節(jié)??偟膩碚f,這段論述比Bard的回復(fù)要詳細(xì)得多,而且最準(zhǔn)確的一點(diǎn)是,這段對(duì)話并沒有得出結(jié)論——這暗示著在互聯(lián)網(wǎng)的某些領(lǐng)域,這場永無止境的戰(zhàn)斗可能仍在激烈進(jìn)行。

優(yōu)勝者:ChatGPT-4

數(shù)學(xué)應(yīng)用題

傳統(tǒng)上,數(shù)學(xué)題并不是大型語言模型(LLMs)——比如ChatGPT——的強(qiáng)項(xiàng)。因此,我們沒有給每個(gè)機(jī)器人布置一系列復(fù)雜的方程和算術(shù),而是給每個(gè)機(jī)器人布置了一個(gè)老式的小學(xué)生風(fēng)格的應(yīng)用題。

指令/提示:如果微軟Windows 11使用的是3.5英寸軟盤(floppy disk),那么它需要多少軟盤?

為了解決這個(gè)問題,每個(gè)AI模型都需要知道微軟Windows 11安裝的數(shù)據(jù)大小以及3.5英寸軟盤的數(shù)據(jù)容量。它們還必須假設(shè)提問者最可能使用哪種密度的軟盤。然后他們需要做一些基本的數(shù)學(xué)運(yùn)算來把這些概念組合在一起。

在我們的評(píng)估中,Bard正確地指出了這三個(gè)關(guān)鍵點(diǎn)(足夠接近——Windows 11的安裝大小估計(jì)通常在20-30GB左右),但在數(shù)學(xué)計(jì)算方面卻慘敗,它認(rèn)為需要“15.11”張軟盤,然后說這“只是一個(gè)理論數(shù)字”,最后承認(rèn)需要超過15張軟盤,它仍然沒有接近正確的值。

相比之下,ChatGPT-4包含了一些與Windows 11安裝大小相關(guān)的細(xì)微差別(正確地引用了64GB的最小值,并將其與現(xiàn)實(shí)世界的基本安裝大小進(jìn)行了比較),正確地解釋了軟盤容量,然后進(jìn)行了一些正確的乘除,最終得出了14222個(gè)磁盤。有人可能會(huì)爭論1GB是1024還是1000MB,但這個(gè)數(shù)字是合理的。它還正確地提到,實(shí)際數(shù)字可能會(huì)根據(jù)其他因素而變化。

優(yōu)勝者:ChatGPT-4

總結(jié)

AI語言模型以其總結(jié)復(fù)雜信息并將文本歸結(jié)為關(guān)鍵元素的能力而聞名。為了評(píng)估每種語言模型總結(jié)文本的能力,我們從Ars Technica最近的一篇文章中復(fù)制并粘貼了三個(gè)段落。

指令/提示:用一段話總結(jié)【文章正文三段】

Bard和ChatGPT-4都收集了這些信息,并將其精簡到重要的細(xì)節(jié)。然而,Bard的版本更像是一個(gè)真正的總結(jié),將信息合成新的措辭,而ChatGPT-4的版本讀起來更像一個(gè)串聯(lián),砍掉了句子,留下了一些片段。雖然兩個(gè)都很不錯(cuò),但我們不得不承認(rèn)Bard在這次測試中勝過了ChatGPT-4。

優(yōu)勝者:Google Bard

事實(shí)檢索

目前已知,大型語言模型會(huì)犯自以為是的錯(cuò)誤(研究人員通常稱之為“幻覺”),這使得它們成為不可靠的事實(shí)參考,除非有外部信息來源的補(bǔ)充。有趣的是,Bard可以在線查詢信息,而ChatGPT-4目前還不能(盡管該功能很快就會(huì)隨插件一起推出)。

為了測試這種能力,我們向Bard和ChatGPT-4提出挑戰(zhàn),讓他們表達(dá)關(guān)于一個(gè)困難和微妙主題的歷史知識(shí)。

指令/提示:誰發(fā)明了電子游戲?

誰發(fā)明了電子游戲這個(gè)問題很難回答,因?yàn)檫@取決于你如何定義“電子游戲”這個(gè)詞,不同的歷史學(xué)家對(duì)這個(gè)詞的定義也不盡相同。有些人認(rèn)為早期的電腦游戲是電子游戲,有些人認(rèn)為應(yīng)該一直包含電視機(jī),等等。沒有一個(gè)公認(rèn)的答案。

我們本以為Bard在網(wǎng)上查找信息的能力會(huì)給它帶來優(yōu)勢,但在這種情況下,這可能會(huì)適得其反,因?yàn)樗x擇了一個(gè)谷歌最流行的答案,稱Ralph Baer為“電子游戲之父”。關(guān)于Baer的所有事實(shí)都是正確的,盡管它可能應(yīng)該把最后一句話寫成過去時(shí),因?yàn)樨悹栐?014年就已經(jīng)去世了。但Bard并沒有提及其他早期的“首個(gè)電子游戲”頭銜競爭者,如《Tennis for Two》和《Spacewar!》,所以它的答案可能具有誤導(dǎo)性,而且不完整。

ChatGPT-4給出了一個(gè)更全面、更細(xì)致的答案,代表了許多早期電子游戲歷史學(xué)家目前的感受,他說,“電子游戲的發(fā)明不能歸功于一個(gè)人”,它呈現(xiàn)了隨著時(shí)間推移的“一系列創(chuàng)新”。它唯一的錯(cuò)誤就是稱《Spacewar!》是“第一款數(shù)字電腦游戲”,但事實(shí)并非如此。我們可以將答案擴(kuò)大到包括更多利基邊緣案例,但ChatGPT-4很好地概述了重要的早期先驅(qū)。

優(yōu)勝者:ChatGPT-4

創(chuàng)意寫作

在奇思妙想的話題上不受約束的創(chuàng)造力應(yīng)該是大型語言模型的強(qiáng)項(xiàng)。我們通過讓Bard和ChatGPT-4寫一個(gè)短小的異想天開的故事來進(jìn)行測試。

指令/提示:寫一篇關(guān)于亞伯拉罕·林肯(Abraham Lincoln)發(fā)明籃球的兩段創(chuàng)意故事。

Bard的輸出結(jié)果在幾個(gè)方面都不盡如人意。首先,它是10段,而不是2段,而且是短小、不連貫的段落。此外,它還分享了一些在提示符的上下文中沒有多大意義的細(xì)節(jié)。例如,為什么亞伯拉罕·林肯的白宮在伊利諾斯州的斯普林菲爾德?除此之外,這算得上是一個(gè)有趣而簡單的故事。

ChatGPT-4也將故事設(shè)定在伊利諾斯州,但更準(zhǔn)確地說,它沒有提到那段時(shí)期的總統(tǒng)或白宮。然而,后來它說“來自北部和南部的球員”拋開他們的分歧一起打籃球,這意味著它發(fā)生在籃球發(fā)明后不久。

總的來說,我們認(rèn)為ChatGPT-4略勝一籌,因?yàn)樗妮敵龃_實(shí)分為兩個(gè)段落——盡管它似乎通過盡可能拓展每個(gè)段落來繞過這個(gè)限制。盡管如此,我們還是很喜歡ChatGPT-4版故事中富有創(chuàng)意的細(xì)節(jié)。

優(yōu)勝者:ChatGPT-4

編碼

如果說這一代的大型語言模型有什么“殺手锏”的話,那可能就是把它們用作編程助手了。OpenAI在Codex模型上的早期工作使GitHub的CoPilot成為可能,ChatGPT本身也作為一個(gè)相當(dāng)稱職的簡單程序編碼員和調(diào)試器而聞名。所以Google Bard的表現(xiàn)也應(yīng)該很有趣。

指令/提示:寫一個(gè)說“Hello World”的python腳本,然后無限地創(chuàng)建一個(gè)隨機(jī)重復(fù)的字符串。

看起來Google Bard根本不會(huì)寫代碼。谷歌目前還不支持這一功能,但該公司表示很快就會(huì)進(jìn)行編碼。目前,Bard拒絕了我們的提示,并表示,“看起來你想讓我?guī)兔幋a,但我還沒有接受過這樣的訓(xùn)練?!?/p>

與此同時(shí),ChatGPT-4不僅直接給出了代碼,還將其格式化在一個(gè)帶有“復(fù)制代碼”按鈕的花哨代碼框中,該按鈕可以將代碼復(fù)制到系統(tǒng)剪貼板中,以便輕松粘貼到IDE或文本編輯器中。但這段代碼有用嗎?我們將代碼粘貼到rand_string.py文件中,并在Windows 10的控制臺(tái)中運(yùn)行它,它沒有任何問題。

優(yōu)勝者:ChatGPT-4

贏家:ChatGPT-4,但一切并未結(jié)束

總的來說,ChatGPT-4贏得了我們7次試驗(yàn)中的5次(這里指的是使用GPT-4的ChatGPT,以防你忽略上文直接跳過這里)。但這并不是故事的全部。還有其他因素需要考慮,比如速度、上下文長度、成本和未來的升級(jí)。

就速度而言,ChatGPT-4目前比較慢,寫關(guān)于林肯和籃球的故事花了52秒,而Bard只花了6秒。值得注意的是,OpenAI以GPT-3.5的形式提供了比GPT-4快得多的AI模型。這個(gè)模型寫林肯與籃球的故事只需要12秒,但可以說它不太適合做有深度、有創(chuàng)造性的任務(wù)。

每種語言模型都有單次可以處理的最大標(biāo)記數(shù)(單詞的片段)。這有時(shí)被稱為“上下文窗口”,但它幾乎類似于短期記憶。在對(duì)話式聊天機(jī)器人的情況下,上下文窗口包含到目前為止的整個(gè)對(duì)話歷史。當(dāng)它被填滿時(shí),它要么達(dá)到了一個(gè)硬極限,要么繼續(xù)前進(jìn)但抹去了之前討論部分的“記憶”。ChatGPT-4則保持滾動(dòng)內(nèi)存,擦去先前的上下文,據(jù)報(bào)道有大約4000個(gè)令牌的限制。據(jù)悉,Bard將其總輸出限制在1000個(gè)左右,當(dāng)超過這個(gè)限制時(shí),它就會(huì)抹去之前討論的“記憶”。

最后,還有成本問題。ChatGPT(并不特指GPT-4)目前可通過ChatGPT網(wǎng)站在有限的基礎(chǔ)上免費(fèi)使用,但想要優(yōu)先訪問GPT-4,則需每月支付20美元。精通編程的用戶可以通過API以更便宜的價(jià)格訪問早期的ChatGPT-3.5模型,但在撰寫本文時(shí),GPT-4 API仍處于有限的測試中。與此同時(shí),Google Bard作為谷歌部分用戶的限量試用版是免費(fèi)的。目前,Google沒有計(jì)劃在它變得更廣泛可用時(shí)對(duì)Bard訪問收費(fèi)。

最后,正如我們之前提到的,兩種模型都在不斷升級(jí)。例如,Bard在上周五剛剛收到了一個(gè)更新,使它在數(shù)學(xué)方面做得更好,它可能很快就能編碼了。OpenAI也在繼續(xù)完善其GPT-4模型。Google目前保留了它最強(qiáng)大的語言模型(可能是計(jì)算成本的原因),所以我們可以看到一個(gè)更強(qiáng)大的競爭者Google迎頭趕上。

總而言之,生成式AI業(yè)務(wù)仍處于早期階段,乾坤未定,你我皆是黑馬!

責(zé)任編輯:姜華 來源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2023-06-12 08:00:00

聊天機(jī)器人ChatGPT人工智能

2023-06-08 10:02:50

ChatGPTBardGoogle

2023-12-08 13:11:58

2020-04-15 10:21:43

云計(jì)算AWSAzure

2021-04-12 08:01:21

GridFlexbox網(wǎng)格

2018-12-11 12:38:23

UbuntuMint發(fā)行版

2023-03-23 09:25:05

Bard機(jī)器人

2023-03-23 08:00:00

人工智能ChatGPTGoogle Bar

2022-01-25 19:36:46

ChromeBrave瀏覽器

2022-01-26 10:26:57

ChromeBrave網(wǎng)頁瀏覽器

2020-07-09 08:08:02

JavaPython編程語言

2022-02-09 10:03:22

VivaldiBrave瀏覽器

2020-10-14 10:45:15

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)算法

2015-02-03 14:28:43

騰訊投資團(tuán)隊(duì)

2013-10-10 17:22:51

開源開源軟件

2023-03-15 15:56:09

新華三

2023-09-07 16:18:50

網(wǎng)絡(luò)方案

2023-08-02 10:17:06

谷歌AI

2023-07-26 13:11:21

ChatGPT平臺(tái)工具

2025-07-01 02:18:00

if-elif 鏈通配符代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)