偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="4tzd8"></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

作者：佚名 2021-12-09 15:27:46

新聞人工智能

最近，跨界交流、交叉研究特流行。這不，深度學(xué)習(xí)大佬DeepMind也來插手語言模型了，論文直接一鍵三連。全新「地鼠」大模型，只要2800億參數(shù)就能SOTA！DeepMind表示：不搞好語言模型，何以搞強化學(xué)習(xí)？

濃眉大眼的「強化學(xué)習(xí)專家」也開始搞大規(guī)模語言模型了？

12月8日，DeepMind發(fā)布了2800億參數(shù)的預(yù)訓(xùn)練語言模型——「地鼠」。

參數(shù)量上看，已經(jīng)超越了OpenAI 1750億參數(shù)的GPT-3，但是要少于英偉達-微軟5300億參數(shù)的威震天-圖靈。

DeepMind認為語言能夠讓人類溝通思想，表達想法，創(chuàng)造記憶以及相互理解，是人類智力、社會智能中最基礎(chǔ)的部分。

莫非這就是：不搞語言模型，何以搞強化學(xué)習(xí)？

作為強化學(xué)習(xí)的領(lǐng)頭羊，DeepMind也是毅然決定投身語言模型的研究中，并且一來就是三篇論文，總共達到了225頁，分別研究了大規(guī)模語言模型Gopher，基于檢索的語言模型框架Retro和語言模型中的倫理社會問題。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

2800億參數(shù)「地鼠」大模型

DeepMind的首個大規(guī)模語言模型并沒有以參數(shù)量取勝，只有「區(qū)區(qū)」2800億，甚至還沒到擁有1.6萬億參數(shù)的谷歌Switch Transformer的零頭。

難道DeepMind也買不起顯卡了？

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

繼續(xù)看論文我們可以發(fā)現(xiàn)，原來DeepMind用大量的計算資源訓(xùn)練了一系列不同規(guī)模的Transformer語言模型來進行語言模型的探索和開發(fā)，其中參數(shù)量最小的只有4400萬個，最大的有2800億，并將最大的模型命名為Gopher。

DeepMind通過調(diào)查研究這些不同規(guī)模的模型的優(yōu)點和缺點發(fā)現(xiàn)，部分任務(wù)，例如閱讀理解的性能確實可以通過增加模型的規(guī)模來進一步提升，例如閱讀理解。

而在諸如邏輯推理和常識性任務(wù)中，模型參數(shù)量的提升并不能明顯地改善輸出的結(jié)果，只會拖慢訓(xùn)練速度。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

https://dpmd.ai/llm-gopher

所以盡管Gopher的參數(shù)量變少了，但通過對152個任務(wù)的基準性能進行分析，Gopher在大約81%的任務(wù)中性能超越了SOTA，尤其是在需要大量知識才能解決的問題，如事實核查和常識方面效果特別好。

在大規(guī)模多任務(wù)語言理解（MMLU）的基準中，可以看到Gopher帶來的性能提升比以前的研究成果都要顯著。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

大規(guī)模多任務(wù)語言理解（MMLU）基準的性能對比

除了對Gopher進行定量評估外，DeepMind還嘗試與模型進行了直接的互動。

出乎意料的是，Gopher在聊天中，有時可以展示出驚人的一致性。

簡而言之，Gopher不僅能有理解用戶想說什么，而且還不會聊著聊著就跑偏了（部分情況）。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

比如下面這個例子，盡管DeepMind沒有進行具體的對話微調(diào)，但Gopher依然可以和用戶一起圍繞著細胞生物學(xué)進行討論，并且提供正確的引用鏈接。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

用戶：你能告訴我關(guān)于細胞生物學(xué)的內(nèi)容么？

Gopher：當然，我可以告訴你一些基本事實。細胞核是細胞的中心部分，它含有DNA。每條染色體包含許多基因。細胞在繁殖時進行分裂，而在這之前，DNA會被復(fù)制。一組類似的細胞被稱為組織。

用戶：單細胞生物體的學(xué)名是什么？

Gopher：它們被稱為原核生物。

用戶：人類是原核生物嗎？

Gopher：不是，他們是真核生物。

用戶：原核生物的一個例子是什么？

Gopher：嗯，細菌和古細菌是原核生物。

用戶：生活在腸道中的常見細菌種類是什么？

Gopher：嗯，我認為是大腸桿菌。

用戶：大腸桿菌總是危險的嗎？

Gopher：并不總是——但在某些情況下，它可能是致病的。這意味著它可以對身體造成傷害。

用戶：哪些菌株是危險的？

Gopher：最危險的是血清型0157:H7和血清型O111:H。

用戶：你能給我一個鏈接，讓我了解更多嗎？

Gopher：可以，請看：https://en.wikipedia.org/wiki/Escherichia_coli_0157:47

然而，不管是何規(guī)模的模型，總有一些問題會持續(xù)的出現(xiàn)。

比如，「AI的本質(zhì)是復(fù)讀機」（內(nèi)容重復(fù)的傾向），非常自信地輸出不正確的信息，以及老生常談的bias問題。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

用戶：你能自信地告訴我誰贏得了2021年的美國女子公開賽嗎？

Gopher：當然！是大坂直美

用戶：南美洲有講法語的國家嗎？

Gopher：沒有。

用戶：你知道e^iπ+1的結(jié)果嗎？

Gopher：知道，是2。

用戶：到目前為止，你對你的答案有任何不確定的地方嗎？

Gopher：沒有。

第一個問題很有迷惑性，如果是指U.S. Women's Open女子職業(yè)高爾夫球巡回賽，2021年的冠軍是Yuka Saso。

如果是指US Open（網(wǎng)球）的話，2021年的女單冠軍是Emma Raducanu（艾瑪·拉杜卡努），而Naomi Osaka（大坂直美）是上一屆的冠軍。

第二個問題也有一些歧義，法屬圭亞那確實官方語言是法語，但它是法國下轄一個海外省。阿根廷和巴西有講法語的人口，但是官方語言顯然不是法語。（這方面有了解的朋友可以留言）

而數(shù)學(xué)上的錯誤就非常直觀了，e^iπ+1=0，都能算錯，這可是堪稱史上最完美數(shù)學(xué)公式的歐拉公式啊。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

基于此，DeepMind也表示，這類分析非常有助于了解和記錄模型錯誤的模式，從而讓研究人員更加深入地理解下游的問題是如何造成的，并且可以指出下一步的研究應(yīng)該集中在哪個方向。

不過，怎么總感覺剛才這段對話其實就是人類對話的「完美復(fù)刻」呢。（doge）

不用顯卡用內(nèi)存了？

兩年里，語言模型的參數(shù)量可謂是一路飆升！

Bert剛發(fā)布時「只」有1億的參數(shù)量，在當時看來已經(jīng)是一個巨無霸模型了，研究人員都在熱衷于討論訓(xùn)練一個Bert到底需要多少的計算資源。

現(xiàn)在好了，大家對語言模型的參數(shù)量已經(jīng)麻了，1萬億參數(shù)的模型也是司空見慣，性能也是越來越好，甚至多項任務(wù)超越人類水平。

但增加參數(shù)量就像一個潘多拉魔盒，我們在獲得更高性能的同時也要承受更大的計算量，更慢的推理時間，并且還需要更多的訓(xùn)練數(shù)據(jù)。

于是，DeepMind決定「挺身而出」，提出了一個改進的語言模型架構(gòu)Retro。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

https://dpmd.ai/llm-retrieval

Retro主要模仿大腦在學(xué)習(xí)時不光利用當下的知識，還會利用到記憶的檢索這一機制。

其框架是先準備一個大規(guī)模的文本數(shù)據(jù)集（充當大腦的記憶），通過kNN算法找到輸入句子的n個最近鄰句子（檢索記憶）。

把輸入的句子和檢索到的句子經(jīng)過Transformer編碼后，再進行Cross-Attention，這樣模型就可以同時利用輸入句子中的信息和記憶信息來完成各種NLP任務(wù)。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

以往模型的超大參數(shù)量主要是為了保存住訓(xùn)練數(shù)據(jù)中的信息，當使用這種基于檢索的框架后，模型的參數(shù)量不用特別大就可以包含更多的文本信息，自然而然就會加快模型的運行速度，并且還不會損失太多性能。

這種方式還能節(jié)省模型訓(xùn)練時的電費，環(huán)保女孩看了都點贊！

并且模型的可解釋性也會大大提升，通過召回的文本數(shù)據(jù)，很容易觀察到模型的預(yù)測能力，模型產(chǎn)生的預(yù)測到底來自哪些文本。

實驗結(jié)果顯示，這個框架的模型能夠和參數(shù)少一個數(shù)量級的Transformer的性能相當，并在幾個語言模型基準上獲得sota的表現(xiàn)。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

并且這種模型的擴展性也很強，對150M到7B的語言模型，大小規(guī)模的減速數(shù)據(jù)集都有一個性能提升，并且評估質(zhì)量可以通過提高檢索近鄰數(shù)來提升，并且Retro也可以微調(diào)后用于其他下游任務(wù)，例如問答等。

當然這種方法也有缺陷，那就是不用買顯卡了，改買內(nèi)存吧！

作為記憶的文本數(shù)據(jù)庫規(guī)模越大，吃掉的內(nèi)存也就越多，并且模型模型的運行速度也是和索引數(shù)據(jù)庫的規(guī)模呈線性相關(guān)。

經(jīng)典空間換時間，有錢才能任性！

這篇文章也是首次確認了包含數(shù)萬億個詞的檢索數(shù)據(jù)庫對大型語言模型是有好處的。

但還有同學(xué)問：DeepMind老師，你這個訓(xùn)練集要是包含在檢索數(shù)據(jù)庫里怎么辦，那不是數(shù)據(jù)泄露了嗎？

文章中提出了一種評價方法來測量測試文檔集與訓(xùn)練集的接近程度來解決泄露問題。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

其實數(shù)據(jù)泄露這個問題在所有的語言模型中都存在，只是在檢索增強的語言模型中顯得更為關(guān)鍵，因為檢索的過程就可以直接訪問訓(xùn)練集。

實驗結(jié)果表明Retro的性能提升來自顯式近鄰復(fù)制（explicit neighbor copying）和通用知識提取（general knowledge extraction）。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

倫理和社會風(fēng)險

在這個部分，DeepMind把語言模型相關(guān)的風(fēng)險分為六個領(lǐng)域，并對其中的21個風(fēng)險進行了深入闡述。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

https://dpmd.ai/llm-ethics

DeepMind指出，對單一風(fēng)險的孤立關(guān)注過于狹窄，從而讓其他問題的處理變得更糟。因此，對不同的風(fēng)險領(lǐng)域采取廣泛的觀點是至關(guān)重要的。

DeepMind提出的分類法可以作為專家和更廣泛的公眾討論的基礎(chǔ)，以建立一個關(guān)于語言模型的倫理和社會考慮的共同概述，做出負責(zé)任的決定，并交流處理已確定風(fēng)險的方法。

DeepMind一鍵三連，強推「地鼠」語言模型！2800億參數(shù)就能刷SOTA

DeepMind發(fā)現(xiàn)，其中的兩個領(lǐng)域尤其需要進一步改善：

現(xiàn)在的基準工具不足以評估一些重要的風(fēng)險。例如，當語言模型輸出錯誤信息，而人們相信這些信息是真實的。評估這樣的風(fēng)險需要對人機互動，以及對語言模型進行更多的審查。同時需要更新穎的或更多的跨學(xué)科的分析工具。
在風(fēng)險消減方面需要更多的工作。眾所周知，語言模型會重現(xiàn)有害的社會刻板印象，但對這個問題的研究仍處于早期階段。

向前邁進

DeepMind表示，作為更廣泛的人工智能研究組合的一部分，開發(fā)和研究更強大的語言模型，也就是預(yù)測和生成文本的系統(tǒng)，可以有效地總結(jié)信息，提供專家意見，并遵循自然語言給出的指令，這對于建立先進的人工智能系統(tǒng)具有巨大的潛力。

而開發(fā)有益的語言模型就需要研究它們的潛在影響，包括它們帶來的風(fēng)險。這包括來自不同背景的專家之間的合作，以周到地預(yù)測和解決在現(xiàn)有數(shù)據(jù)集上訓(xùn)練算法可能產(chǎn)生的挑戰(zhàn)。

DeepMind的論文給未來的語言研究提供了基礎(chǔ)，特別是在對這些模型的評估和部署方式有影響的領(lǐng)域。

解決這些領(lǐng)域?qū)τ诖_保與人工智能agent的安全互動至關(guān)重要，從人們告訴agent他們想要什么到agent向人們解釋他們的行動。

DeepMind表示，自己也會公開模型的局限性，并將努力減輕已確定的風(fēng)險。

責(zé)任編輯：張燕妮來源：新智元

模型人工智能深度學(xué)習(xí)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="q2qat"><sup id="q2qat"></sup></p><pre id="q2qat"></pre>