偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

ChatGPT上下文碾壓64K開(kāi)源模型！UC伯克利：開(kāi)源模型能力嚴(yán)重「虛標(biāo)」｜最新硬核評(píng)測(cè)曝光

作者：新智元 2023-07-01 13:27:55

最近，來(lái)自LMSYS Org的研究人員不僅一次發(fā)了兩個(gè)支持16k token上下文長(zhǎng)度的開(kāi)源大模型LongChat-7B和LongChat-13B。而且，他們還測(cè)試了號(hào)稱支持長(zhǎng)上下文能力的幾個(gè)大模型的實(shí)際表現(xiàn)，發(fā)現(xiàn)開(kāi)源模型虛標(biāo)嚴(yán)重。

早先發(fā)布Vicuna模型和大語(yǔ)言模型排位賽的LMSYS Org（UC伯克利主導(dǎo)）的研究人員又開(kāi)始搞事情了。

這次，他們開(kāi)發(fā)出了一個(gè)支持長(zhǎng)上下文的開(kāi)源大模型家族LongChat-7B和LongChat-13B，支持高達(dá)16K token的上下文長(zhǎng)度。

但是吧，其實(shí)市面上早已出現(xiàn)支持65K（MPT-7B-storyteller）和32K（CHatGLM2-6B）token的選手了。

圖片

抱著一邊向他們虛心學(xué)習(xí)一邊質(zhì)疑的研究者心態(tài)，他們?cè)O(shè)計(jì)一個(gè)專門評(píng)估大語(yǔ)言模型處理長(zhǎng)上下文任務(wù)的性能的工具，測(cè)了測(cè)一眾號(hào)稱支持長(zhǎng)上下文的模型們性能到底怎么樣。

不測(cè)不知道，一測(cè)發(fā)現(xiàn)之前宣稱能支持長(zhǎng)上下的開(kāi)源模型幾乎水平都不怎么樣，而自家的LongChat在一眾「開(kāi)源李鬼」里才是真的李逵。

而商業(yè)閉源大模型的長(zhǎng)上下文能力，是真的不錯(cuò)，各個(gè)都很能打。

圖片

在長(zhǎng)距離主題檢索任務(wù)上比較LongChat和其他模型

長(zhǎng)上下文「打假」

根據(jù)研究人員測(cè)試的結(jié)果，閉源的商業(yè)長(zhǎng)上下文模型確實(shí)能兌現(xiàn)它們的承諾：gpt-3.5-16k和Anthropic Claude在基準(zhǔn)測(cè)試中幾乎都達(dá)到了完美的性能。

然而，現(xiàn)有的開(kāi)源模型在長(zhǎng)上下文長(zhǎng)度方面的表現(xiàn)卻比自己「聲稱」的要差很多。

圖片

大語(yǔ)言模型支持長(zhǎng)上下文能力的等級(jí)

全新LongChat開(kāi)源模型，支持16k上下文

LongChat模型不僅可以處理高達(dá)16k token的上下文長(zhǎng)度，而且還能準(zhǔn)確地遵循對(duì)話中的人類指令，并在人類偏好基準(zhǔn)MT-Bench中展示出強(qiáng)大的性能。

預(yù)覽版本可在HuggingFace上獲得：

lmsys/longchat-13b-16k
lmsys/longchat-7b-16k

感興趣的同學(xué)可以在命令行界面或Web界面中使用FastChat來(lái)跑一下試試：

Python
python3 -m fastchat.serve.cli --model-path lmsys/longchat-7b-16k

在研究團(tuán)隊(duì)的LongChat存儲(chǔ)庫(kù)中可以找到用于重現(xiàn)研究結(jié)果結(jié)果的數(shù)據(jù)和代碼，研究人員還貼心地提供了可視化效果展示。

那么我們來(lái)看看LongChat是怎么一步一步從LLaMA的2048個(gè)token的上下文長(zhǎng)度訓(xùn)練到16K的。

第一步：壓縮旋轉(zhuǎn)嵌入（ Rotary embedding）

旋轉(zhuǎn)位置嵌入是一種將位置信息注入Transformer的位置嵌入方法。

在Hugging Face的Transformer庫(kù)中，它的實(shí)現(xiàn)方式如下：

Python
query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)

其中position_ids是索引，如1、2、3等，用于表示句子中token的位置。

例如，在句子「today is a good day」中，token「today」的position_ids為1。apply_rotary_pos_emb()函數(shù)根據(jù)提供的position_ids應(yīng)用變換。

LLaMA模型使用旋轉(zhuǎn)嵌入在序列長(zhǎng)度2048上進(jìn)行預(yù)訓(xùn)練的。

這就意味著在預(yù)訓(xùn)練階段就觀察不到position_ids > 2048的情況。

研究團(tuán)隊(duì)沒(méi)有強(qiáng)制LLaMA模型適應(yīng)position_ids > 2048，而是將position_ids > 2048的部分壓縮到0到2048之間。

直觀地說(shuō)，研究人員假設(shè)這種壓縮可以最大程度地重用在預(yù)訓(xùn)練階段學(xué)到的模型權(quán)重。

他們通過(guò)將目標(biāo)新上下文長(zhǎng)度y除以2048來(lái)定義壓縮比率。

然后將每個(gè)position_ids除以這個(gè)比率，并將其輸入apply_rotary_pos_emb()函數(shù)。

Python
query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids / ratio)

在此版本中，研究人員將模型微調(diào)到上下文長(zhǎng)度為16384，壓縮率設(shè)為8。

例如，把position_ids = 10000的token變?yōu)閜osition_ids = 10000 / 8 = 1250，而相鄰的token10001變?yōu)?0001 / 8 = 1250.125。

這個(gè)技術(shù)最先由開(kāi)源社區(qū)的一個(gè)叫Kaiokendev的開(kāi)源愛(ài)好者發(fā)現(xiàn)（https://kaiokendev.github.io/context）并傳播和討論。LMSys Org的研究人員發(fā)現(xiàn)這個(gè)技術(shù)確實(shí)很好使，而且這一步只需要改一行代碼，不需要進(jìn)行訓(xùn)練。

第二步：微調(diào)精選的對(duì)話數(shù)據(jù)庫(kù)

在壓縮嵌入之后，研究人員使用他們精心挑選的對(duì)話數(shù)據(jù)集執(zhí)行微調(diào)過(guò)程。

研究團(tuán)隊(duì)重新使用了先前用來(lái)訓(xùn)練Vicuna的用戶分享對(duì)話數(shù)據(jù)。

使用FastChat數(shù)據(jù)處理流程清理數(shù)據(jù)，截?cái)嗔诉@些對(duì)話，使其長(zhǎng)度不超過(guò)16K。

然后再使用標(biāo)準(zhǔn)下一個(gè)token預(yù)測(cè)損失對(duì)模型進(jìn)行微調(diào)。

最后他們分別使用80,000個(gè)和18,000個(gè)對(duì)話對(duì)7B和13B模型進(jìn)行微調(diào)。

假設(shè)在云上使用A100花費(fèi)每小時(shí)3美元，7B模型的成本約為300美元，而13B模型的成本約為700美元。

上下文能力驗(yàn)證工具：LongEval

為了驗(yàn)證商業(yè)閉源和開(kāi)源模型宣傳支持的長(zhǎng)上下文能力（從8K、32K到100K）到底有多強(qiáng)，研究團(tuán)隊(duì)開(kāi)發(fā)了一套驗(yàn)證工具包。

不同的模型作者可能對(duì)所謂的「長(zhǎng)上下文能力」對(duì)有著不同的理解。

舉個(gè)例子，MPT-7B-StoryWriter所宣稱的65K上下文長(zhǎng)度是否與OpenAI的ChatGPT在16K上下文長(zhǎng)度下具有相同的性能？

在LongChat開(kāi)發(fā)過(guò)程中，同樣的問(wèn)題也困擾著研究團(tuán)隊(duì)。

如何迅速有效地確認(rèn)一個(gè)新訓(xùn)練的模型是否能夠真地有效處理預(yù)期的上下文長(zhǎng)度？

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)可以基于需要LLM處理長(zhǎng)上下文的任務(wù)進(jìn)行評(píng)估。

例如文本生成、檢索、摘要和長(zhǎng)文本序列中的信息關(guān)聯(lián)。

受最近的研究啟發(fā)，研究人員們?cè)O(shè)計(jì)了一個(gè)名為L(zhǎng)ongEval的長(zhǎng)上下文測(cè)試套件。

這個(gè)套件包括兩個(gè)難度不同的任務(wù)，提供了一種簡(jiǎn)單快捷的方式來(lái)衡量和比較長(zhǎng)上下文的性能。

任務(wù)一：粗粒度主題檢索

在現(xiàn)實(shí)世界的長(zhǎng)對(duì)話中，用戶通常與聊天機(jī)器人的討論會(huì)在多個(gè)主題間跳轉(zhuǎn)。

研究團(tuán)隊(duì)使用主題檢索任務(wù)來(lái)模擬這種場(chǎng)景。

這個(gè)任務(wù)會(huì)要求聊天機(jī)器人檢索由多個(gè)主題組成的長(zhǎng)對(duì)話中的第一個(gè)主題，來(lái)模擬這種情景。

示例任務(wù)如下：

Python
… (instruction of the task)
USER: I would like to discuss <TOPIC-1>
ASSISTANT: Sure! What about xxx of <TOPIC-1>?
… (a multi-turn conversation of <TOPIC-1>)
USER: I would like to discuss  <TOPIC-2>
…
USER: I would like to discuss <TOPIC-k>
…
USER: What is the first topic we discussed?
ASSISTANT:

這個(gè)任務(wù)測(cè)試模型是否能夠定位長(zhǎng)下文中的一段文本并將其與正確的主題名稱相關(guān)聯(lián)。

研究人員設(shè)計(jì)了很多個(gè)由400到600個(gè)token組成的對(duì)話，并隨機(jī)組合它們達(dá)到到想要測(cè)試的長(zhǎng)度，將組合出來(lái)的長(zhǎng)文本作為 Prompt.

所以，這是一個(gè)粗粒度的對(duì)話，因?yàn)楫?dāng)模型能夠定位到距離正確位置不太遠(yuǎn)（<500個(gè)token距離）的位置時(shí)，它可能會(huì)給出正確的預(yù)測(cè)。

任務(wù)二：細(xì)粒度檢索

為了進(jìn)一步測(cè)試模型在長(zhǎng)對(duì)話中定位和關(guān)聯(lián)文本的能力，研究人員引入了更精細(xì)的行檢索測(cè)試（Line Retrieval test）。

在這個(gè)測(cè)試中，聊天機(jī)器人需要精確地從長(zhǎng)文檔中檢索一個(gè)數(shù)字，而不是從長(zhǎng)對(duì)話中檢索一個(gè)主題。

以下是一個(gè)示例：

Python
line torpid-kid: REGISTER_CONTENT is <24169>
line moaning-conversation: REGISTER_CONTENT is <10310>
…
line tacit-colonial: REGISTER_CONTENT is <14564>
What is the <REGISTER_CONTENT> in line moaning-conversation?

這個(gè)任務(wù)最初是在「Little Retrieval Test」中被設(shè)計(jì)出來(lái)的。

原始的測(cè)試中，是使用數(shù)字來(lái)表示一行，但研究人員發(fā)現(xiàn)較小的LLM通常無(wú)法很好地理解數(shù)字。

為了解開(kāi)這些因素并使其更適合測(cè)試不同大小的開(kāi)源聊天機(jī)器人，他們通過(guò)使用隨機(jī)的自然語(yǔ)言（例如「torpid-kid」）進(jìn)行改進(jìn)。

研究人員發(fā)現(xiàn)這兩個(gè)任務(wù)都具有這幾預(yù)期的特點(diǎn)：

1. 任務(wù)可以有效捕捉到文本生成、檢索和長(zhǎng)上下文信息關(guān)聯(lián)的能力，最終反映在檢索準(zhǔn)確性上。

2. 可以輕松將測(cè)試擴(kuò)展到任意長(zhǎng)度，以測(cè)試模型在不同上下文長(zhǎng)度下的能力。

3. 研究人員已經(jīng)對(duì)這兩個(gè)任務(wù)進(jìn)行了檢查，并觀察到了預(yù)期的結(jié)果。

例如，對(duì)于使用2K上下文進(jìn)行預(yù)訓(xùn)練的原始LLaMA模型，在測(cè)試輸入長(zhǎng)度小于2K時(shí)可以實(shí)現(xiàn)完美的準(zhǔn)確性。

但對(duì)于超過(guò)2K的測(cè)試輸入，準(zhǔn)確性幾乎為零。

研究人員通過(guò)這個(gè)原理，就能檢測(cè)不同模型對(duì)于不同上下文長(zhǎng)度時(shí)，執(zhí)行信息檢索和關(guān)聯(lián)相關(guān)信息的能力。

測(cè)評(píng)結(jié)果

圖片

根據(jù)粗粒度的主題檢索測(cè)試結(jié)果，團(tuán)隊(duì)觀察到開(kāi)源的長(zhǎng)上下文模型的性能似乎沒(méi)有自己宣稱得那么好。

例如，Mpt-7b-storywriter聲稱具有84K的上下文長(zhǎng)度，但即使在它聲稱的上下文長(zhǎng)度的四分之一（16K）處，準(zhǔn)確率也僅達(dá)到50%。

Chatglm2-6B在長(zhǎng)度為6K（46%準(zhǔn)確率）時(shí)無(wú)法可靠地檢索第一個(gè)主題。

當(dāng)在大于10K的上下文長(zhǎng)度上進(jìn)行測(cè)試時(shí)，其準(zhǔn)確率幾乎為0%。

另一方面，研究人員觀察到LongChat-13B-16K模型可靠地檢索到第一個(gè)主題，并且準(zhǔn)確率與gpt-3.5-turbo相當(dāng)。

圖片

在更細(xì)粒度的行檢索測(cè)試中，Mpt-7b-storywriter的表現(xiàn)甚至比粗粒度情況下更差，準(zhǔn)確率從約50%下降到約30%。

Chatglm2-6B也出現(xiàn)了下降，在研究人員測(cè)試的最短長(zhǎng)度（5K上下文長(zhǎng)度）上表現(xiàn)也不太好。

相比之下，LongChat-13B-16K表現(xiàn)可靠，在12K的上下文長(zhǎng)度內(nèi)接近gpt-3.5/Anthropic-claude的能力。

解開(kāi)LongEval中與LLM能力無(wú)關(guān)的因素

在主題和行檢索測(cè)試中，研究人員觀察到一些錯(cuò)誤是由與長(zhǎng)上下文能力無(wú)關(guān)的因素引起的，比如指令跟隨能力。

例如，在行檢索測(cè)試中，模型可能會(huì)簡(jiǎn)單地回答「當(dāng)然，我會(huì)告訴你這個(gè)數(shù)字」，而不是按照要求回答實(shí)際的數(shù)字。

為了進(jìn)行公平比較，研究人員采取了兩個(gè)措施來(lái)避免與長(zhǎng)上下文能力無(wú)關(guān)的因素：

1）設(shè)計(jì)適當(dāng)?shù)奶崾驹~

2）僅在模型按照研究人員的指令執(zhí)行的情況下計(jì)算準(zhǔn)確率。

人類偏好基準(zhǔn)（MT-bench）

在前面的部分中，研究人員觀察到LongChat模型在長(zhǎng)距離檢索任務(wù)上表現(xiàn)良好，但這是否會(huì)導(dǎo)致人類偏好顯著下降呢？

為了測(cè)試它是否仍然符合人類的偏好，研究人員使用了GPT-4評(píng)分的MT-bench，這是一組具有挑戰(zhàn)性的多輪對(duì)話問(wèn)題。

研究人員發(fā)現(xiàn)，LongChat-13B-16K與其最接近的替代模型Vicuna-13B相比，確實(shí)在MT-Bench分?jǐn)?shù)上略有下降，但在可接受的范圍內(nèi)，這表明這種長(zhǎng)距離能力并沒(méi)有顯著犧牲其短距離能力。

同時(shí)，LongChat-13B-16K與其他相同規(guī)模的模型相比也具有競(jìng)爭(zhēng)力。

圖片

討論分析

研究人員發(fā)現(xiàn)，當(dāng)上下文長(zhǎng)度接近16K時(shí)，LongChat-13B-16K在細(xì)粒度的行檢索任務(wù)上出現(xiàn)了準(zhǔn)確率下降的情況。

在他們的初步嘗試中，研究人員猜測(cè)這是因?yàn)榻咏畲蟮奈⒄{(diào)長(zhǎng)度。

例如，使用更大的長(zhǎng)度（例如32K）進(jìn)行訓(xùn)練可以緩解這個(gè)問(wèn)題。

研究人員正在積極努力解決這個(gè)問(wèn)題，并計(jì)劃在不久的將來(lái)發(fā)布中解決。

研究人員用表格形式定性地說(shuō)明了性能水平，并且希望提出他們的最終思考：能夠在一個(gè)上下文范圍內(nèi)生成文本，和真正的具備在宣稱的上下文長(zhǎng)度上能進(jìn)行reasoning和檢索，這兩種能力是有很大差距的。

模型提供者通暢需要對(duì)模型進(jìn)行良好的訓(xùn)練（例如使用高質(zhì)量的長(zhǎng)序列數(shù)據(jù)，或者像研究人員探索過(guò)的進(jìn)行壓縮），以實(shí)現(xiàn)良好的長(zhǎng)上下文文本生成、檢索和推理能力。

雖然閉源模型基本在研究人員設(shè)計(jì)出的檢索測(cè)試上都能達(dá)到要求，但開(kāi)源模型提供者在自己宣傳支持的長(zhǎng)下文長(zhǎng)度上，水分很大。

研究人員呼吁社區(qū)為長(zhǎng)上下文聊天機(jī)器人貢獻(xiàn)更多的評(píng)估基準(zhǔn)，并進(jìn)一步理解和填補(bǔ)這一差距。

團(tuán)隊(duì)介紹

共同一作Dacheng Li

Dacheng Li目前是加州大學(xué)伯克利分校的博士生。本科畢業(yè)于加州大學(xué)圣地亞哥分校，碩士畢業(yè)于卡耐基梅隆大學(xué)機(jī)器學(xué)習(xí)專業(yè)。他的主要研究方向是機(jī)器學(xué)習(xí)和分布式系統(tǒng)的交叉領(lǐng)域。

共同一作Rulin Shao

Rulin Shao 目前就職于亞馬遜AWS人工智能研究和教育中心，被錄取為華盛頓大學(xué)博士。她本科畢業(yè)于西安交通大學(xué)，碩士畢業(yè)于CMU機(jī)器學(xué)習(xí)專業(yè)。

Anze Xie

Anze Xie目前就讀于加州大學(xué)圣地亞哥分校計(jì)算機(jī)專業(yè)，本科畢業(yè)于維斯康星大學(xué)麥迪遜分校。

Xuezhe Ma

Xuezhe Ma目前是南加州大學(xué)計(jì)算機(jī)系的助理教授，本科和研究生畢業(yè)于上海交通大學(xué)，博士畢業(yè)于卡耐基梅隆大學(xué)。他的研究方向是提高表征學(xué)習(xí)的效率，有效性等。

團(tuán)隊(duì)的其他幾位成員就是LMSYS Org發(fā)起人和老熟人了：盛穎，鄭憐憫，Ion Stoica和張昊等。

參考資料：

https://lmsys.org/blog/2023-06-29-longchat/

責(zé)任編輯：武曉燕來(lái)源：新智元

ChatGPT 開(kāi)源模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)