偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

羊駝家族大模型集體進化!32k上下文追平GPT-4,田淵棟團隊出品

人工智能 算法
Meta AI這篇剛剛提交的論文表示,LLaMA上下文窗口從2k擴展到32k后只需要小于1000步的微調。

開源羊駝大模型LLaMA上下文追平GPT-4,只需要一個簡單改動!

Meta AI這篇剛剛提交的論文表示,LLaMA上下文窗口從2k擴展到32k后只需要小于1000步的微調。

與預訓練相比,成本忽略不計。

圖片

擴展上下文窗口,就意味著AI的“工作記憶”容量增加,具體來說可以:

  • 支持更多輪對話,減少遺忘現(xiàn)象,如更穩(wěn)定的角色扮演
  • 輸入更多資料完成更復雜的任務,如一次處理更長文檔或多篇文檔

更重要的意義在于,所有基于LLaMA的羊駝大模型家族豈不是可以低成本采用此方法,集體進化?

羊駝是目前綜合能力最強的開源基礎模型,已經衍生出不少完全開源可商用大模型和垂直行業(yè)模型。

圖片

論文通信作者田淵棟也激動地在朋友圈分享這一新進展。

圖片

基于RoPE的大模型都能用

新方法名為位置插值(Position Interpolation),對使用RoPE(旋轉位置編碼)的大模型都適用。

RoPE早在2021年就由追一科技團隊提出,到現(xiàn)在已成為大模型最常見的位置編碼方法之一。

圖片

但在此架構下直接使用外推法(Extrapolation)擴展上下文窗口,會完全破壞自注意力機制。

具體來說,超出預訓練上下文長度之外的部分,會使模型困惑度(perplexity)飆升至和未經訓練的模型相當。

新方法改成線性地縮小位置索引,擴展前后位置索引和相對距離的范圍對齊。

圖片

用圖表現(xiàn)二者的區(qū)別更加直觀。

圖片

實驗結果顯示,新方法對從7B到65B的LLaMA大模型都有效。

在長序列語言建模(Long Sequence Language Modeling)、密鑰檢索(Passkey Retrieval)、長文檔摘要(Long Document Summarization)中性能都沒有明顯下降。

圖片

除了實驗之外,論文附錄中也給出了對新方法的詳細證明。

圖片

Three More Thing

上下文窗口曾經是開源大模型與商業(yè)大模型之間一個重要差距。

比如OpenAI的GPT-3.5最高支持16k,GPT-4支持32k,AnthropicAI的Claude更是高達100k。

與此同時許多開源大模型如LLaMA和Falcon還停留在2k。

現(xiàn)在,Meta AI的新成果直接把這一差距抹平了。

擴展上下文窗口也是近期大模型研究的焦點之一,除了位置插值方法之外,還有很多嘗試引起業(yè)界關注。

1、開發(fā)者kaiokendev在一篇技術博客中探索了一種將LLaMa上下文窗口擴展到8k的方法。

圖片

2、數(shù)據安全公司Soveren機器學習負責人Galina Alperovich在一篇文章中總結了擴展上下文窗口的6個技巧。

圖片

3、來自Mila、IBM等機構的團隊還在一篇論文中嘗試了在Transformer中完全去掉位置編碼的方法。

圖片

有需要的小伙伴可以點擊下方鏈接查看~

Meta論文:https://arxiv.org/abs/2306.15595

Extending Context is Hard…but not Impossiblehttps://kaiokendev.github.io/context

The Secret Sauce behind 100K context window in LLMshttps://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

無位置編碼論文https://arxiv.org/abs/2305.19466

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-08-24 15:57:41

模型文檔檢索

2023-06-30 09:49:23

模型Meta

2023-03-17 08:28:17

GPT-4AI

2023-05-19 10:16:27

AIGPT-4

2023-08-29 12:45:32

2024-01-08 12:47:02

代碼模型Mistral

2024-02-26 00:20:00

AI模型

2024-03-25 00:05:00

開源模型AI

2023-05-14 14:15:00

GPT-4AI

2023-11-17 18:06:15

2024-12-19 09:48:07

2023-12-07 06:51:18

AI模型

2025-06-18 16:42:38

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2024-04-12 17:41:28

GPT-4TurboClaude

2024-02-07 12:39:00

AI數(shù)據

2024-03-14 08:11:45

模型RoPELlama

2023-08-14 08:04:13

2024-06-03 14:24:00

2023-12-11 13:20:00

數(shù)據訓練
點贊
收藏

51CTO技術棧公眾號