偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌再雪前恥,新Bard逆襲GPT-4沖上LLM排行榜第二!Jeff Dean高呼我們回來了

人工智能 新聞
谷歌Bard又行了?在第三方LLM「排位賽」排行榜上,Bard擊敗GPT-4成為第二名。Jeff Dean興奮宣布:谷歌回來了!

一夜之間,Bard逆襲GPT-4,性能直逼最強GPT-4 Turbo!

這個聽起來似乎像夢里的事情,確確實實地發(fā)生了。

就在昨天,谷歌首席Jeff Dean發(fā)推提前透露了谷歌的最新版模型——Gemini Pro-scale。

基于此,Bard相較于3月份的首次亮相,不僅在表現(xiàn)上有了顯著的提升,而且還具備了更多的能力。

圖片

可以看到,在最新的Gemini Pro-scale加持下,Bard直接躥升到了排行榜第二名的位置。

一口氣把之前的兩款GPT-4模型斬于馬下,甚至和排名第一的GPT-4 Turbo的差距也非常小。

圖片

雖然Jeff Dean并沒有具體闡述「scale」的含義,但從名稱上推測,很可能是一個比初代Gemini Pro規(guī)模更大的版本。

而根據(jù)前段時間外媒曝出的內(nèi)部郵件,搭載Gemini Ultra的Bard Advanced已經(jīng)全面開放給谷歌員工試用。

也就是說,距離谷歌最強模型的上線,已經(jīng)不遠了。

圖片

隨著谷歌對Gemini Pro更新后不斷大幅上漲的表現(xiàn),也讓所有人對完全體Gemini Ultra的能力有了更多的期待。

不過,新推出的Bard目前只接受了約3,000次評價,而GPT-4的評價次數(shù)已高達30,000次。因此,這個結(jié)果后續(xù)很可能還會發(fā)生變動。

但不管怎樣,這對于谷歌來說是一項令人矚目的成就,也讓人對即將發(fā)布的、預(yù)期將超過Gemini Pro-Scale性能的最強AI模型Gemini Ultra充滿期待。

谷歌Bard超越GPT-4躍居第二

簡單介紹一下,這個由UC伯克利主導(dǎo),CMU,UCSD等頂級高校共同參與創(chuàng)建的聊天機器人競技場「Chatbot Arena」,是學術(shù)圈內(nèi)一個很權(quán)威的大模型對話能力排行榜。

榜單通過類似Moba游戲中的「排位賽」機制,讓各家大模型通過PvP的方式來排出性能高低。

期間,用戶會與模型(不知道具體型號)進行互動,并選擇他們更喜歡的回答。而這些投票將會決定模型在排行榜上的名次。

這種方式能夠有效地避免很多PvE基準測試中可能出現(xiàn)的,通過「刷題」來提高成績的問題,被業(yè)界認為是一個比較客觀的大模型能力排行榜。

圖片

為了便于區(qū)分,LMSYS Org指出,目前Gemini Pro市面上總共有3個版本:

- Gemini Pro API:用戶可以通過谷歌云的Vertex AI API進行訪問

- Gemini Pro(dev)API:開發(fā)者API可以通過谷歌 AI Studio進行訪問

- Bard(1月4日更新的Gemini Pro):是目前唯一可以訪問到1月24日更新的Gemini Pro的方式

圖片

同時,谷歌Bard項目的高級總監(jiān)Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是兩個在微調(diào)層面不同的模型,而且Bard可以檢索互聯(lián)網(wǎng)上的信息。

圖片

在ChatBot Arena中,1月24號更新的Bard由于支持檢索互聯(lián)網(wǎng),相比于之前放出的Gemini Pro(API)對于實時信息問題的回復(fù)提升巨大。

圖片

從谷歌的這波更新可以看出,Gemini Pro的潛力似乎遠遠沒有被完全釋放,希望谷歌能再接再厲,對OpenAI一家獨大的格局形成挑戰(zhàn)。

圖片

以下是1月14號更新的Bard在ChatBot Arena中的成績的明細:

圖片

模型A相對于模型B在所有非平局對決中獲勝的比例

圖片

不同模型組合間對決的次數(shù)統(tǒng)計(排除平局情況)

圖片

通過1000輪隨機抽樣對Elo評分進行的自舉法(Bootstrap)估計

圖片

在假設(shè)等概率抽樣和不存在平局的情況下,相對于所有其他模型的平均勝率

Elo評分系統(tǒng)

Elo等級分制度(Elo rating system)是一種計算玩家相對技能水平的方法,廣泛應(yīng)用在競技游戲和各類運動當中。其中,Elo評分越高,那么就說明這個玩家越厲害。

比如英雄聯(lián)盟、Dota 2以及吃雞等等,系統(tǒng)給玩家進行排名的就是這個機制。

舉個例子,當你在英雄聯(lián)盟里面打了很多場排位賽后,就會出現(xiàn)一個隱藏分。這個隱藏分不僅決定了你的段位,也決定了你打排位時碰到的對手基本也是類似水平的。

而且,這個Elo評分的數(shù)值是絕對的。也就是說,當未來加入新的聊天機器人時,我們依然可以直接通過Elo的評分來判斷哪個聊天機器人更厲害。

具體來說,如果玩家A的評分為Ra,玩家B的評分為Rb,玩家A獲勝概率的精確公式(使用以10為底的logistic曲線)為:

圖片

然后,玩家的評分會在每場對戰(zhàn)后線性更新。

假設(shè)玩家A(評分為Ra)預(yù)計獲得Ea分,但實際獲得Sa分。更新該玩家評分的公式為:

圖片

網(wǎng)友熱議

對此,網(wǎng)友提問:現(xiàn)在能夠訪問的Bard就是這個排名第二的Bard了嗎?

谷歌官方回復(fù),是的,而且現(xiàn)在訪問的Bard比排行榜的上的Bard還能支持更多的像地圖擴展等應(yīng)用。

圖片

不過還是有網(wǎng)友吐槽,即使在PvP排行榜上Bard已經(jīng)取得了很好的成績,但是對于理解用戶需求和解決實際問題的能力,Bard和GPT-4依然還有很大差距。

圖片

也有網(wǎng)友認為,用能聯(lián)網(wǎng)的Bard和離線的GPT-4打有失公平。甚至,就這樣還沒打過……

圖片

而最有意思的,還要數(shù)網(wǎng)友在排行榜中發(fā)現(xiàn)的「華點」了:號稱是GPT-4最大競品的Claude居然越更新越弱了。

對此,之前有分析認為,Anthropic一直在大力發(fā)展的與人類對齊,會嚴重影響模型的性能。

圖片

圖片

GPT-4 Turbo超長上下文A/B測試

有趣的是,這個連Jeff Dean都親自下場的「刷榜」,正巧就在OpenAI連發(fā)5款新模型的第二天。

根據(jù)OpenAI的介紹,新版GPT-4 Turbo——gpt-4-0125-preview,不僅大幅改善了模型「偷懶」的情況,而且還極大地提升了代碼生成的能力。

不過,正如大家對Bard的懷疑,GPT-4這次到底有沒有變強也有待驗證。

圖片

對此,AI公司Smol的創(chuàng)始人Shawn Wang,就在超過100k單詞的超長上下文中,對比測試了新舊GPT4-Turbo的總結(jié)能力。

Wang表示,兩次測試使用的是完全相同提示詞,以及基本相同的語料庫。

雖然沒有嚴格嚴格,但每個模型都進行了超過300次的API調(diào)用,因此對于總結(jié)任務(wù)而言,這一結(jié)果還是具有一定參考價值的。

圖片

結(jié)果顯示,2024年1月的GPT4-Turbo花費了19分鐘來生成20,265個單詞,相比之下,2023年11月的用16分鐘生成了18,884個單詞。

也就是說,新模型的生成速度大約慢了 18%,且生成文本的長度平均偏長約7%。

質(zhì)量方面:

- 2024年1月的模型在主題選擇上略有改善,但仍存在問題

- 2023年11月的模型會產(chǎn)生更多錯誤信息

- 2024年1月的模型在總結(jié)中添加小標題的能力略有提升

- 2024年1月的模型出現(xiàn)了一次嚴重的格式錯誤,而這在之前是極為罕見的

- 2023年11月的模型文本詳情更加豐富

總體而言,新版GPT4-Turbo在總結(jié)這一應(yīng)用場景上有所退步。

圖片

圖片

圖片

圖片

左側(cè):2023年11月;右側(cè):2024年1月(左右滑動查看全部)

OpenAI最后的「開源遺作」兩周年

不得不說,AI領(lǐng)域的發(fā)展過于迅猛,甚至讓人對時間的流速都產(chǎn)生了錯覺。

今天,英偉達高級科學家Jim Fan發(fā)推紀念了InstructGPT發(fā)布二周年。

圖片

在這里,OpenAI定義了一套標準流程:預(yù)訓練 -> 監(jiān)督式微調(diào) -> RLHF。直到今天,這依然是大家遵循的基本策略(盡管有些許變化,比如DPO)。

它不僅僅是大語言模型從學術(shù)探索(GPT-3)到轉(zhuǎn)化為具有實際影響力的產(chǎn)品(ChatGPT)的關(guān)鍵轉(zhuǎn)折點,而且也是最后一篇OpenAI詳細說明他們?nèi)绾斡柧毲把啬P偷恼撐摹?/span>

圖片

論文地址:https://arxiv.org/abs/2203.02155

- InstructGPT在2022年的NeurIPS會議上首次亮相,但它并不是RLHF的發(fā)明者。實際上,相關(guān)博客將讀者引向了OpenAI團隊在2017年完成的原始RLHF研究。

這項研究最初的目的是解決模擬機器人領(lǐng)域中難以明確定義的任務(wù)——通過一名人類標注者提供的900個二選一偏好,RLHF讓一個簡單的「跳躍」機器人在模擬環(huán)境中學會了后空翻。

圖片

論文地址:https://arxiv.org/abs/1706.03741v4

- 模型提供了三種規(guī)模:1.3B、6B、175B。與舊的、需要復(fù)雜提示設(shè)計的GPT-3-175B相比,標注者明顯更喜歡Instruct-1.3B。微軟最知名的「小模型」Phi-1也是1.3B。

- InstructGPT展示了如何精彩地呈現(xiàn)研究成果。三個步驟的圖表清晰易懂,并且成為AI領(lǐng)域最標志性的圖像之一。引言部分直接了當,用粗體突出了8個核心觀點。對局限性和偏見的討論實事求是、坦誠直接。

圖片

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-06-15 14:00:00

研究模型

2023-05-16 13:32:23

模型排行

2023-10-09 19:00:00

編程語言Python

2023-05-30 13:29:25

2020-03-07 22:01:58

編程語言JavaPython

2023-11-03 11:08:03

PhindAI搜索工具

2018-04-04 08:50:02

PythonSQL Javascript

2023-03-16 19:17:57

2023-05-26 14:10:00

模型AI

2017-04-10 09:04:14

編程語言排行榜Hack五十

2024-01-30 20:08:07

谷歌GPT-4Bard

2020-05-07 10:02:46

編程語言JavaC語言

2022-12-07 10:54:20

港股編程語言

2021-05-06 23:11:20

編程語言數(shù)據(jù)Python

2023-11-15 09:23:00

模型AI

2015-12-17 10:30:44

2019-10-15 11:11:02

游戲顯卡NVIDIA

2013-08-23 09:41:19

2023-03-28 08:23:38

2023-12-11 19:08:59

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號