偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="ze4zz"><strike id="ze4zz"><input id="ze4zz"></input></strike></pre><sub id="ze4zz"><i id="ze4zz"></i></sub>

<legend id="ze4zz"><track id="ze4zz"></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

UC伯克利LLM準(zhǔn)中文排行榜來(lái)了！GPT-4穩(wěn)居第一，國(guó)人開(kāi)源RNN模型沖進(jìn)前六

作者：新智元 2023-05-16 13:32:23

人工智能新聞

現(xiàn)在大語(yǔ)言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了！

前段時(shí)間，來(lái)自LMSYS Org（UC伯克利主導(dǎo)）的研究人員搞了個(gè)大新聞——大語(yǔ)言模型版排位賽！

這次，團(tuán)隊(duì)不僅帶來(lái)了4位新玩家，而且還有一個(gè)（準(zhǔn)）中文排行榜。

OpenAI GPT-4
OpenAI GPT-3.5-turbo
Anthropic Claude-v1
RWKV-4-Raven-14B（開(kāi)源）

毫無(wú)疑問(wèn)，只要GPT-4參戰(zhàn)，必定是穩(wěn)居第一。

不過(guò)，出乎意料的是，Claude不僅超過(guò)了把OpenAI帶上神壇的GPT-3.5位列第二，而且只比GPT-4差了50分。

相比之下，排名第三的GPT-3.5只比130億參數(shù)的最強(qiáng)開(kāi)源模型Vicuna高了72分。

而140億參數(shù)的「純RNN模型」RWKV-4-Raven-14B憑借著卓越的表現(xiàn)，超越一眾Transformer模型排到了第6——除Vicuna模型外，RWKV在與所有其他開(kāi)源模型的非平局比賽中贏得了超過(guò)50%的比賽。

此外，團(tuán)隊(duì)還分別制作了「僅英語(yǔ)」和「非英語(yǔ)」（其中大部分是中文）這兩個(gè)單獨(dú)的排行榜。

可以看到，不少模型的排位都出現(xiàn)了明顯的變化。

比如，用更多中文數(shù)據(jù)訓(xùn)練的ChatGLM-6B確實(shí)表現(xiàn)更好，而GPT-3.5也成功超越Claude排到了第二的位置。

本次更新的主要貢獻(xiàn)者是盛穎、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛穎是LMSYS Org的3個(gè)創(chuàng)始人之一（另外兩位是Lianmin Zheng和Hao Zhang），斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的博士生。

她也是之前爆火的、可以在單GPU上可以跑175B模型推理的系統(tǒng)FlexGen的一作，目前已獲8k星。

論文地址：https://arxiv.org/abs/2303.06865

項(xiàng)目地址：https://github.com/FMInference/FlexGen

個(gè)人主頁(yè)：https://sites.google.com/view/yingsheng/home

「開(kāi)源」VS「閉源」

在社區(qū)的幫助下，團(tuán)隊(duì)共收集了13k條匿名投票，并且有了一些有趣的發(fā)現(xiàn)。

專有與開(kāi)源的差距

在三個(gè)專有模型中，Anthropic的Claude模型比GPT-3.5-turbo更受用戶歡迎。

而且，Claude在與最強(qiáng)大的GPT-4競(jìng)爭(zhēng)時(shí)，也表現(xiàn)得非常有競(jìng)爭(zhēng)力。

從下面這個(gè)勝率圖來(lái)看，GPT-4和Claude之間的66場(chǎng)非平局比賽中，Claude贏得了32場(chǎng)（48%）比賽。

所有非平局A vs B對(duì)戰(zhàn)中，模型A勝利的比例

然而，其他開(kāi)源模型與這三個(gè)專有模型之間，依然存在著很大的差距。

特別是，GPT-4以1274的Elo分?jǐn)?shù)領(lǐng)跑排行榜。這比榜單上最好的開(kāi)源替代——Vicuna-13B——要高出近200分。

在去掉平局后，GPT-4在與Vicuna-13B對(duì)戰(zhàn)時(shí)贏得了82%的比賽，甚至在與前一代GPT-3.5-turbo對(duì)戰(zhàn)時(shí)贏得了79%的比賽。

然而，值得注意的是，排行榜上的這些開(kāi)源模型通常具有比專有模型更少的參數(shù)，范圍在30億 - 140億之間。

實(shí)際上，最近在LLM和數(shù)據(jù)策劃方面的進(jìn)展使得使用較小模型取得顯著性能改進(jìn)成為可能。

谷歌的最新PaLM 2就是一個(gè)很好的例子：我們知道PaLM 2在使用較小模型大小時(shí)，比其前一代實(shí)現(xiàn)了更好的性能。

因此，團(tuán)隊(duì)對(duì)開(kāi)源語(yǔ)言模型迎頭趕上充滿樂(lè)觀。

GPT-4在何時(shí)會(huì)「翻車」？

在下圖中，用戶提出了一個(gè)需要仔細(xì)推理和規(guī)劃的棘手問(wèn)題。雖然Claude和GPT-4提供了類似的答案，但Claude的回應(yīng)稍微好一些。

然而，由于采樣的隨機(jī)性，團(tuán)隊(duì)發(fā)現(xiàn)這種情況并不能總能復(fù)刻。有時(shí)GPT-4也能像Claude一樣給出相同的順序，但在這次生成試驗(yàn)中失敗了。

另外，團(tuán)隊(duì)注意到，當(dāng)使用OpenAI API和ChatGPT接口時(shí)，GPT-4的行為略有不同，這可能是由于不同的提示、采樣參數(shù)或其他未知因素導(dǎo)致的。

用戶更喜歡Claude而不是GPT-4的一個(gè)例子

在下圖中，盡管Claude和GPT-4都具有驚人的能力，但它們?nèi)栽谔幚磉@類復(fù)雜的推理問(wèn)題上掙扎。

一個(gè)用戶認(rèn)為Claude和GPT-4都錯(cuò)了的例子

除了這些棘手的情況，還有許多并不需要復(fù)雜推理或知識(shí)的簡(jiǎn)單問(wèn)題。

在這種情況下，像Vicuna這樣的開(kāi)源模型可以與GPT-4表現(xiàn)相當(dāng)，因此我們可能可以使用稍微弱一些（但更小或更便宜）的大型語(yǔ)言模型（LLM）來(lái)替代像GPT-4這樣更強(qiáng)大的模型。

Elo分?jǐn)?shù)的變化

自從三個(gè)強(qiáng)大的專有模型參與以來(lái)，聊天機(jī)器人競(jìng)技場(chǎng)的競(jìng)爭(zhēng)從未如此激烈。

由于在與專有模型對(duì)戰(zhàn)時(shí)，開(kāi)源模型輸?shù)袅瞬簧俦荣?，因此它們的Elo分?jǐn)?shù)都有所下降。

最后，團(tuán)隊(duì)還計(jì)劃開(kāi)放一些API，讓用戶可以注冊(cè)自己的聊天機(jī)器人來(lái)參加排位賽。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)