偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ChatGPT上下文碾壓64K開(kāi)源模型!UC伯克利:開(kāi)源模型能力嚴(yán)重「虛標(biāo)」|最新硬核評(píng)測(cè)曝光

人工智能
最近,來(lái)自LMSYS Org的研究人員不僅一次發(fā)了兩個(gè)支持16k token上下文長(zhǎng)度的開(kāi)源大模型LongChat-7B和LongChat-13B。而且,他們還測(cè)試了號(hào)稱支持長(zhǎng)上下文能力的幾個(gè)大模型的實(shí)際表現(xiàn),發(fā)現(xiàn)開(kāi)源模型虛標(biāo)嚴(yán)重。

早先發(fā)布Vicuna模型和大語(yǔ)言模型排位賽的LMSYS Org(UC伯克利主導(dǎo))的研究人員又開(kāi)始搞事情了。

這次,他們開(kāi)發(fā)出了一個(gè)支持長(zhǎng)上下文的開(kāi)源大模型家族LongChat-7B和LongChat-13B,支持高達(dá)16K token的上下文長(zhǎng)度。

但是吧,其實(shí)市面上早已出現(xiàn)支持65K(MPT-7B-storyteller)和32K(CHatGLM2-6B)token的選手了。

圖片圖片

抱著一邊向他們虛心學(xué)習(xí)一邊質(zhì)疑的研究者心態(tài),他們?cè)O(shè)計(jì)一個(gè)專門(mén)評(píng)估大語(yǔ)言模型處理長(zhǎng)上下文任務(wù)的性能的工具,測(cè)了測(cè)一眾號(hào)稱支持長(zhǎng)上下文的模型們性能到底怎么樣。

不測(cè)不知道,一測(cè)發(fā)現(xiàn)之前宣稱能支持長(zhǎng)上下的開(kāi)源模型幾乎水平都不怎么樣,而自家的LongChat在一眾「開(kāi)源李鬼」里才是真的李逵。

而商業(yè)閉源大模型的長(zhǎng)上下文能力,是真的不錯(cuò),各個(gè)都很能打。

圖片圖片

在長(zhǎng)距離主題檢索任務(wù)上比較LongChat和其他模型

長(zhǎng)上下文「打假」

根據(jù)研究人員測(cè)試的結(jié)果,閉源的商業(yè)長(zhǎng)上下文模型確實(shí)能兌現(xiàn)它們的承諾:gpt-3.5-16k和Anthropic Claude在基準(zhǔn)測(cè)試中幾乎都達(dá)到了完美的性能。

然而,現(xiàn)有的開(kāi)源模型在長(zhǎng)上下文長(zhǎng)度方面的表現(xiàn)卻比自己「聲稱」的要差很多。

圖片圖片

大語(yǔ)言模型支持長(zhǎng)上下文能力的等級(jí)

全新LongChat開(kāi)源模型,支持16k上下文

LongChat模型不僅可以處理高達(dá)16k token的上下文長(zhǎng)度,而且還能準(zhǔn)確地遵循對(duì)話中的人類指令,并在人類偏好基準(zhǔn)MT-Bench中展示出強(qiáng)大的性能。

預(yù)覽版本可在HuggingFace上獲得:

  • lmsys/longchat-13b-16k
  • lmsys/longchat-7b-16k

感興趣的同學(xué)可以在命令行界面或Web界面中使用FastChat來(lái)跑一下試試:

Python
python3 -m fastchat.serve.cli --model-path lmsys/longchat-7b-16k

在研究團(tuán)隊(duì)的LongChat存儲(chǔ)庫(kù)中可以找到用于重現(xiàn)研究結(jié)果結(jié)果的數(shù)據(jù)和代碼,研究人員還貼心地提供了可視化效果展示。

那么我們來(lái)看看LongChat是怎么一步一步從LLaMA的2048個(gè)token的上下文長(zhǎng)度訓(xùn)練到16K的。

第一步:壓縮旋轉(zhuǎn)嵌入( Rotary embedding)

旋轉(zhuǎn)位置嵌入是一種將位置信息注入Transformer的位置嵌入方法。

在Hugging Face的Transformer庫(kù)中,它的實(shí)現(xiàn)方式如下:

Python
query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)

其中position_ids是索引,如1、2、3等,用于表示句子中token的位置。

例如,在句子「today is a good day」中,token「today」的position_ids為1。apply_rotary_pos_emb()函數(shù)根據(jù)提供的position_ids應(yīng)用變換。

LLaMA模型使用旋轉(zhuǎn)嵌入在序列長(zhǎng)度2048上進(jìn)行預(yù)訓(xùn)練的。

這就意味著在預(yù)訓(xùn)練階段就觀察不到position_ids > 2048的情況。

研究團(tuán)隊(duì)沒(méi)有強(qiáng)制LLaMA模型適應(yīng)position_ids > 2048,而是將position_ids > 2048的部分壓縮到0到2048之間。

直觀地說(shuō),研究人員假設(shè)這種壓縮可以最大程度地重用在預(yù)訓(xùn)練階段學(xué)到的模型權(quán)重。

他們通過(guò)將目標(biāo)新上下文長(zhǎng)度y除以2048來(lái)定義壓縮比率。

然后將每個(gè)position_ids除以這個(gè)比率,并將其輸入apply_rotary_pos_emb()函數(shù)。

Python
query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids / ratio)

在此版本中,研究人員將模型微調(diào)到上下文長(zhǎng)度為16384,壓縮率設(shè)為8。

例如,把position_ids = 10000的token變?yōu)閜osition_ids = 10000 / 8 = 1250,而相鄰的token10001變?yōu)?0001 / 8 = 1250.125。

這個(gè)技術(shù)最先由開(kāi)源社區(qū)的一個(gè)叫Kaiokendev的開(kāi)源愛(ài)好者發(fā)現(xiàn)(https://kaiokendev.github.io/context)并傳播和討論。LMSys Org的研究人員發(fā)現(xiàn)這個(gè)技術(shù)確實(shí)很好使,而且這一步只需要改一行代碼,不需要進(jìn)行訓(xùn)練。

第二步:微調(diào)精選的對(duì)話數(shù)據(jù)庫(kù)

在壓縮嵌入之后,研究人員使用他們精心挑選的對(duì)話數(shù)據(jù)集執(zhí)行微調(diào)過(guò)程。

研究團(tuán)隊(duì)重新使用了先前用來(lái)訓(xùn)練Vicuna的用戶分享對(duì)話數(shù)據(jù)。

使用FastChat數(shù)據(jù)處理流程清理數(shù)據(jù),截?cái)嗔诉@些對(duì)話,使其長(zhǎng)度不超過(guò)16K。

然后再使用標(biāo)準(zhǔn)下一個(gè)token預(yù)測(cè)損失對(duì)模型進(jìn)行微調(diào)。

最后他們分別使用80,000個(gè)和18,000個(gè)對(duì)話對(duì)7B和13B模型進(jìn)行微調(diào)。

假設(shè)在云上使用A100花費(fèi)每小時(shí)3美元,7B模型的成本約為300美元,而13B模型的成本約為700美元。

上下文能力驗(yàn)證工具:LongEval

為了驗(yàn)證商業(yè)閉源和開(kāi)源模型宣傳支持的長(zhǎng)上下文能力(從8K、32K到100K)到底有多強(qiáng),研究團(tuán)隊(duì)開(kāi)發(fā)了一套驗(yàn)證工具包。

不同的模型作者可能對(duì)所謂的「長(zhǎng)上下文能力」對(duì)有著不同的理解。

舉個(gè)例子,MPT-7B-StoryWriter所宣稱的65K上下文長(zhǎng)度是否與OpenAI的ChatGPT在16K上下文長(zhǎng)度下具有相同的性能?

在LongChat開(kāi)發(fā)過(guò)程中,同樣的問(wèn)題也困擾著研究團(tuán)隊(duì)。

如何迅速有效地確認(rèn)一個(gè)新訓(xùn)練的模型是否能夠真地有效處理預(yù)期的上下文長(zhǎng)度?

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)可以基于需要LLM處理長(zhǎng)上下文的任務(wù)進(jìn)行評(píng)估。

例如文本生成、檢索、摘要和長(zhǎng)文本序列中的信息關(guān)聯(lián)。

受最近的研究啟發(fā),研究人員們?cè)O(shè)計(jì)了一個(gè)名為L(zhǎng)ongEval的長(zhǎng)上下文測(cè)試套件。

這個(gè)套件包括兩個(gè)難度不同的任務(wù),提供了一種簡(jiǎn)單快捷的方式來(lái)衡量和比較長(zhǎng)上下文的性能。

任務(wù)一:粗粒度主題檢索

在現(xiàn)實(shí)世界的長(zhǎng)對(duì)話中,用戶通常與聊天機(jī)器人的討論會(huì)在多個(gè)主題間跳轉(zhuǎn)。

研究團(tuán)隊(duì)使用主題檢索任務(wù)來(lái)模擬這種場(chǎng)景。

這個(gè)任務(wù)會(huì)要求聊天機(jī)器人檢索由多個(gè)主題組成的長(zhǎng)對(duì)話中的第一個(gè)主題,來(lái)模擬這種情景。

示例任務(wù)如下:

Python
… (instruction of the task)
USER: I would like to discuss <TOPIC-1>
ASSISTANT: Sure! What about xxx of <TOPIC-1>?
… (a multi-turn conversation of <TOPIC-1>)
USER: I would like to discuss  <TOPIC-2>
…
USER: I would like to discuss <TOPIC-k>
…
USER: What is the first topic we discussed?
ASSISTANT:

這個(gè)任務(wù)測(cè)試模型是否能夠定位長(zhǎng)下文中的一段文本并將其與正確的主題名稱相關(guān)聯(lián)。

研究人員設(shè)計(jì)了很多個(gè)由400到600個(gè)token組成的對(duì)話,并隨機(jī)組合它們達(dá)到到想要測(cè)試的長(zhǎng)度,將組合出來(lái)的長(zhǎng)文本作為 Prompt.

所以,這是一個(gè)粗粒度的對(duì)話,因?yàn)楫?dāng)模型能夠定位到距離正確位置不太遠(yuǎn)(<500個(gè)token距離)的位置時(shí),它可能會(huì)給出正確的預(yù)測(cè)。

任務(wù)二:細(xì)粒度檢索

為了進(jìn)一步測(cè)試模型在長(zhǎng)對(duì)話中定位和關(guān)聯(lián)文本的能力,研究人員引入了更精細(xì)的行檢索測(cè)試(Line Retrieval test)。

在這個(gè)測(cè)試中,聊天機(jī)器人需要精確地從長(zhǎng)文檔中檢索一個(gè)數(shù)字,而不是從長(zhǎng)對(duì)話中檢索一個(gè)主題。

以下是一個(gè)示例:

Python
line torpid-kid: REGISTER_CONTENT is <24169>
line moaning-conversation: REGISTER_CONTENT is <10310>
…
line tacit-colonial: REGISTER_CONTENT is <14564>
What is the <REGISTER_CONTENT> in line moaning-conversation?

這個(gè)任務(wù)最初是在「Little Retrieval Test」中被設(shè)計(jì)出來(lái)的。

原始的測(cè)試中,是使用數(shù)字來(lái)表示一行,但研究人員發(fā)現(xiàn)較小的LLM通常無(wú)法很好地理解數(shù)字。

為了解開(kāi)這些因素并使其更適合測(cè)試不同大小的開(kāi)源聊天機(jī)器人,他們通過(guò)使用隨機(jī)的自然語(yǔ)言(例如「torpid-kid」)進(jìn)行改進(jìn)。

研究人員發(fā)現(xiàn)這兩個(gè)任務(wù)都具有這幾預(yù)期的特點(diǎn):

1. 任務(wù)可以有效捕捉到文本生成、檢索和長(zhǎng)上下文信息關(guān)聯(lián)的能力,最終反映在檢索準(zhǔn)確性上。

2. 可以輕松將測(cè)試擴(kuò)展到任意長(zhǎng)度,以測(cè)試模型在不同上下文長(zhǎng)度下的能力。

3. 研究人員已經(jīng)對(duì)這兩個(gè)任務(wù)進(jìn)行了檢查,并觀察到了預(yù)期的結(jié)果。

例如,對(duì)于使用2K上下文進(jìn)行預(yù)訓(xùn)練的原始LLaMA模型,在測(cè)試輸入長(zhǎng)度小于2K時(shí)可以實(shí)現(xiàn)完美的準(zhǔn)確性。

但對(duì)于超過(guò)2K的測(cè)試輸入,準(zhǔn)確性幾乎為零。

研究人員通過(guò)這個(gè)原理,就能檢測(cè)不同模型對(duì)于不同上下文長(zhǎng)度時(shí),執(zhí)行信息檢索和關(guān)聯(lián)相關(guān)信息的能力。

測(cè)評(píng)結(jié)果

圖片圖片

根據(jù)粗粒度的主題檢索測(cè)試結(jié)果,團(tuán)隊(duì)觀察到開(kāi)源的長(zhǎng)上下文模型的性能似乎沒(méi)有自己宣稱得那么好。

例如,Mpt-7b-storywriter聲稱具有84K的上下文長(zhǎng)度,但即使在它聲稱的上下文長(zhǎng)度的四分之一(16K)處,準(zhǔn)確率也僅達(dá)到50%。

Chatglm2-6B在長(zhǎng)度為6K(46%準(zhǔn)確率)時(shí)無(wú)法可靠地檢索第一個(gè)主題。

當(dāng)在大于10K的上下文長(zhǎng)度上進(jìn)行測(cè)試時(shí),其準(zhǔn)確率幾乎為0%。

另一方面,研究人員觀察到LongChat-13B-16K模型可靠地檢索到第一個(gè)主題,并且準(zhǔn)確率與gpt-3.5-turbo相當(dāng)。

圖片圖片

在更細(xì)粒度的行檢索測(cè)試中,Mpt-7b-storywriter的表現(xiàn)甚至比粗粒度情況下更差,準(zhǔn)確率從約50%下降到約30%。

Chatglm2-6B也出現(xiàn)了下降,在研究人員測(cè)試的最短長(zhǎng)度(5K上下文長(zhǎng)度)上表現(xiàn)也不太好。

相比之下,LongChat-13B-16K表現(xiàn)可靠,在12K的上下文長(zhǎng)度內(nèi)接近gpt-3.5/Anthropic-claude的能力。

解開(kāi)LongEval中與LLM能力無(wú)關(guān)的因素

在主題和行檢索測(cè)試中,研究人員觀察到一些錯(cuò)誤是由與長(zhǎng)上下文能力無(wú)關(guān)的因素引起的,比如指令跟隨能力。

例如,在行檢索測(cè)試中,模型可能會(huì)簡(jiǎn)單地回答「當(dāng)然,我會(huì)告訴你這個(gè)數(shù)字」,而不是按照要求回答實(shí)際的數(shù)字。

為了進(jìn)行公平比較,研究人員采取了兩個(gè)措施來(lái)避免與長(zhǎng)上下文能力無(wú)關(guān)的因素:

1)設(shè)計(jì)適當(dāng)?shù)奶崾驹~

2)僅在模型按照研究人員的指令執(zhí)行的情況下計(jì)算準(zhǔn)確率。

人類偏好基準(zhǔn)(MT-bench)

在前面的部分中,研究人員觀察到LongChat模型在長(zhǎng)距離檢索任務(wù)上表現(xiàn)良好,但這是否會(huì)導(dǎo)致人類偏好顯著下降呢?

為了測(cè)試它是否仍然符合人類的偏好,研究人員使用了GPT-4評(píng)分的MT-bench,這是一組具有挑戰(zhàn)性的多輪對(duì)話問(wèn)題。

研究人員發(fā)現(xiàn),LongChat-13B-16K與其最接近的替代模型Vicuna-13B相比,確實(shí)在MT-Bench分?jǐn)?shù)上略有下降,但在可接受的范圍內(nèi),這表明這種長(zhǎng)距離能力并沒(méi)有顯著犧牲其短距離能力。

同時(shí),LongChat-13B-16K與其他相同規(guī)模的模型相比也具有競(jìng)爭(zhēng)力。

圖片圖片

討論分析

研究人員發(fā)現(xiàn),當(dāng)上下文長(zhǎng)度接近16K時(shí),LongChat-13B-16K在細(xì)粒度的行檢索任務(wù)上出現(xiàn)了準(zhǔn)確率下降的情況。

在他們的初步嘗試中,研究人員猜測(cè)這是因?yàn)榻咏畲蟮奈⒄{(diào)長(zhǎng)度。

例如,使用更大的長(zhǎng)度(例如32K)進(jìn)行訓(xùn)練可以緩解這個(gè)問(wèn)題。

研究人員正在積極努力解決這個(gè)問(wèn)題,并計(jì)劃在不久的將來(lái)發(fā)布中解決。

研究人員用表格形式定性地說(shuō)明了性能水平,并且希望提出他們的最終思考:能夠在一個(gè)上下文范圍內(nèi)生成文本,和真正的具備在宣稱的上下文長(zhǎng)度上能進(jìn)行reasoning和檢索,這兩種能力是有很大差距的。

模型提供者通暢需要對(duì)模型進(jìn)行良好的訓(xùn)練(例如使用高質(zhì)量的長(zhǎng)序列數(shù)據(jù),或者像研究人員探索過(guò)的進(jìn)行壓縮),以實(shí)現(xiàn)良好的長(zhǎng)上下文文本生成、檢索和推理能力。

雖然閉源模型基本在研究人員設(shè)計(jì)出的檢索測(cè)試上都能達(dá)到要求,但開(kāi)源模型提供者在自己宣傳支持的長(zhǎng)下文長(zhǎng)度上,水分很大。

研究人員呼吁社區(qū)為長(zhǎng)上下文聊天機(jī)器人貢獻(xiàn)更多的評(píng)估基準(zhǔn),并進(jìn)一步理解和填補(bǔ)這一差距。

團(tuán)隊(duì)介紹

共同一作Dacheng Li

Dacheng Li目前是加州大學(xué)伯克利分校的博士生。本科畢業(yè)于加州大學(xué)圣地亞哥分校,碩士畢業(yè)于卡耐基梅隆大學(xué)機(jī)器學(xué)習(xí)專業(yè)。他的主要研究方向是機(jī)器學(xué)習(xí)和分布式系統(tǒng)的交叉領(lǐng)域。

共同一作Rulin Shao

Rulin Shao 目前就職于亞馬遜AWS人工智能研究和教育中心,被錄取為華盛頓大學(xué)博士。她本科畢業(yè)于西安交通大學(xué),碩士畢業(yè)于CMU機(jī)器學(xué)習(xí)專業(yè)。

Anze Xie

Anze Xie目前就讀于加州大學(xué)圣地亞哥分校計(jì)算機(jī)專業(yè),本科畢業(yè)于維斯康星大學(xué)麥迪遜分校。

Xuezhe Ma

Xuezhe Ma目前是南加州大學(xué)計(jì)算機(jī)系的助理教授,本科和研究生畢業(yè)于上海交通大學(xué),博士畢業(yè)于卡耐基梅隆大學(xué)。他的研究方向是提高表征學(xué)習(xí)的效率,有效性等。

團(tuán)隊(duì)的其他幾位成員就是LMSYS Org發(fā)起人和老熟人了:盛穎,鄭憐憫,Ion Stoica和張昊等。

參考資料:

https://lmsys.org/blog/2023-06-29-longchat/

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-04-07 00:45:00

開(kāi)源模型

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2025-04-30 09:09:00

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2023-04-07 13:54:37

模型AI

2023-04-04 13:17:00

GPUCMU開(kāi)源

2024-12-02 08:20:00

2023-07-18 15:02:50

論文AI

2023-08-14 08:04:13

2025-10-13 09:03:00

2025-04-18 08:42:52

模型推理AI

2023-04-07 09:28:31

模型訓(xùn)練

2023-06-21 13:20:14

系統(tǒng)模型

2023-04-11 14:16:53

模型AI

2025-08-21 10:14:18

2023-08-05 13:45:46

模型AI

2023-05-04 14:55:02

模型AI

2025-10-11 18:05:23

AI智能體模型

2024-06-03 14:24:00

2023-05-16 13:32:23

模型排行
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)