偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

新聞 人工智能
近日,北京智源人工智能研究院和清華大學(xué)研究團(tuán)隊(duì)聯(lián)合發(fā)布了以中文為核心的大規(guī)模預(yù)訓(xùn)練語言模型 CPM-LM,參數(shù)規(guī)模達(dá) 26 億,預(yù)訓(xùn)練中文數(shù)據(jù)規(guī)模 100 GB。

 近日,北京智源人工智能研究院和清華大學(xué)研究團(tuán)隊(duì)聯(lián)合發(fā)布了以中文為核心的大規(guī)模預(yù)訓(xùn)練語言模型 CPM-LM,參數(shù)規(guī)模達(dá) 26 億,預(yù)訓(xùn)練中文數(shù)據(jù)規(guī)模 100 GB。

[[352853]]

自 2018 年谷歌發(fā)布 BERT 以來,預(yù)訓(xùn)練模型在自然語言處理(NLP)領(lǐng)域逐漸成為主流。今年 5 月份,OpenAI 推出的史上最大 AI 模型 GPT-3更是引起了大量討論。但是,目前 NLP 領(lǐng)域的預(yù)訓(xùn)練模型多針對英語語言,以英語語言數(shù)據(jù)為訓(xùn)練數(shù)據(jù),例如 GPT-3:

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

用于訓(xùn)練 GPT-3 的數(shù)據(jù)集。

近日,北京智源人工智能研究院和清華大學(xué)研究團(tuán)隊(duì)合作開展了一項(xiàng)名為「清源 CPM (Chinese Pretrained Models)」的大規(guī)模預(yù)訓(xùn)練模型開源計(jì)劃,旨在構(gòu)建以中文為核心的大規(guī)模預(yù)訓(xùn)練模型。首期開源內(nèi)容包括預(yù)訓(xùn)練中文語言模型和預(yù)訓(xùn)練知識表示模型,可廣泛應(yīng)用于中文自然語言理解、生成任務(wù)以及知識計(jì)算應(yīng)用,所有模型免費(fèi)向?qū)W術(shù)界和產(chǎn)業(yè)界開放下載,供研究使用。

清源 CPM 主頁:https://cpm.baai.ac.cn/

清源 CPM Github 托管代碼主頁:https://github.com/TsinghuaAI/

模型特點(diǎn)

根據(jù)清源 CPM 主頁介紹,該計(jì)劃發(fā)布的預(yù)訓(xùn)練模型具備以下特點(diǎn):

模型規(guī)模大:本次發(fā)布的CPM-LM 參數(shù)規(guī)模達(dá) 26 億,預(yù)訓(xùn)練中文數(shù)據(jù)規(guī)模 100 GB,使用了 64 塊 V100 GPU,訓(xùn)練時(shí)間約為 3 周;CPM-KG 的參數(shù)規(guī)模為 217 億,預(yù)訓(xùn)練結(jié)構(gòu)化知識圖譜為 WikiData 全量數(shù)據(jù),包含近 1300 個(gè)關(guān)系、8500 萬實(shí)體、4.8 億個(gè)事實(shí)三元組,使用了 8 塊 V100 GPU 訓(xùn)練時(shí)間約為 2 周。

語料豐富多樣:收集大量豐富多樣的中文語料,包括百科、小說、對話、問答、新聞等類型。

學(xué)習(xí)能力強(qiáng):能夠在多種自然語言處理任務(wù)上進(jìn)行零次學(xué)習(xí)或少次學(xué)習(xí),并達(dá)到較好的效果。

行文自然流暢:基于給定上文,模型可以續(xù)寫出一致性高、可讀性強(qiáng)的文本,達(dá)到現(xiàn)有中文生成模型的領(lǐng)先效果。

在模型訓(xùn)練方面,CPM 模型預(yù)訓(xùn)練過程分布在多塊 GPU 上,采用層內(nèi)并行的方法進(jìn)行訓(xùn)練,并基于當(dāng)前已有的成熟技術(shù),減少同步提高通訊速率。

在硬件設(shè)施方面,為訓(xùn)練該 CPM 模型,共有 64 塊 V100 顯卡投入使用。經(jīng)過預(yù)訓(xùn)練的 CPM 模型可以用來促進(jìn)諸多下游中文任務(wù),如對話、論文生成、完形填空和語言理解等。

為了促進(jìn)中文自然語言處理研究的發(fā)展,該項(xiàng)目還提供了 CPM-LM (2.6B) 模型的文本生成代碼,可用于文本生成的本地測試,并以此為基礎(chǔ)進(jìn)一步研究零次學(xué)習(xí) / 少次學(xué)習(xí)等場景,詳情參見項(xiàng)目 GitHub 主頁。

模型性能

清源 CPM 使用新聞、百科、對話、網(wǎng)頁、故事等不同類型的中文語料數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。在多個(gè)公開的中文數(shù)據(jù)集上的實(shí)驗(yàn)表明,清源 CPM 在少樣本或無樣本的情況下均能夠?qū)崿F(xiàn)較好的效果。

中文成語填空 ChID

ChID 是 2019 年清華大學(xué)對話交互式人工智能實(shí)驗(yàn)室(CoAI)收集的中文成語填空數(shù)據(jù)集,其目標(biāo)是對于給定的段落,在 10 個(gè)候選項(xiàng)中選擇最符合段意的成語進(jìn)行填空。

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

其中有監(jiān)督設(shè)定是指在 ChID 的訓(xùn)練集上進(jìn)行訓(xùn)練,隨后在測試集上測試;無監(jiān)督設(shè)定是指不經(jīng)過任何額外訓(xùn)練,直接使用預(yù)訓(xùn)練模型進(jìn)行測試。具體做法是,將候選項(xiàng)依次填入段落中,計(jì)算填充后段落的困惑度 (Perplexity),選擇困惑度最小的候選項(xiàng)作為預(yù)測結(jié)果。表中匯報(bào)了預(yù)測的準(zhǔn)確率,可以看到,CPM (大) 在無監(jiān)督設(shè)定下甚至達(dá)到了比有監(jiān)督 CPM (小) 更好的結(jié)果,反映出清源 CPM 強(qiáng)大的中文語言建模能力。

對話生成 STC

STC 是 2015 年華為諾亞方舟實(shí)驗(yàn)室提出的短文本對話數(shù)據(jù)集,要求在給定上文多輪對話的條件下預(yù)測接下來的回復(fù)。

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

其中 CDial-GPT 是清華大學(xué)對話交互式人工智能(CoAI)實(shí)驗(yàn)室 2020 年提出的中文對話預(yù)訓(xùn)練模型。用于衡量多樣性的 Dist-n 指標(biāo)的兩個(gè)數(shù)字分別是所有不重復(fù)的 N-Gram 的數(shù)量及占所有 N-Gram 的比例??梢钥吹?,在無監(jiān)督的設(shè)定下,清源 CPM 具有更好的泛化性,在有監(jiān)督設(shè)定下,清源 CPM 能達(dá)到比 CDial-GPT 更優(yōu)的效果,尤其在多樣性指標(biāo)上表現(xiàn)更佳。

文本分類

清源 CPM 使用頭條新聞標(biāo)題分類(TNEWS,采樣為 4 分類)、IFLYTEK 應(yīng)用介紹分類(IFLYTEK,采樣為 4 分類)、中文自然語言推斷(OCNLI,3 分類)任務(wù)作為文本分類任務(wù)的基準(zhǔn)。具體做法是,先輸入分類樣本,再輸入「該文章的類別為 / 該介紹的類別為 / 兩句話的關(guān)系為」,要求模型直接生成標(biāo)簽,四個(gè)標(biāo)簽中概率最高的標(biāo)簽作為預(yù)測結(jié)果。在無監(jiān)督設(shè)定下,不同規(guī)模的清源 CPM 在文本分類任務(wù)上的精確度如下表所示:

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

清源 CPM 能夠在無監(jiān)督的設(shè)定下達(dá)到比隨機(jī)預(yù)測好得多的精確度(TNEWS/IFLYTEK/OCNLI 隨機(jī)預(yù)測精確度分別為 0.25/0.25/0.33)。

自動問答

CPM 使用 DuReader 和 CMRC2018 作為自動問答任務(wù)的基準(zhǔn),要求模型從給定段落中抽取一個(gè)片段作為對題目問題的答案,其中 DuReader 由百度搜索和百度知道兩部分?jǐn)?shù)據(jù)組成。在無監(jiān)督的設(shè)定下,不同規(guī)模的 CPM 模型的表現(xiàn)如下表所示:

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

其中單樣本是指在測試時(shí),從數(shù)據(jù)集中隨機(jī)抽取一個(gè)正確的「(段落,問題,答案)」三元組,插入到用于評價(jià)的樣例前,作為 CPM 模型生成答案的提示;零樣本是指直接使用 CPM 模型預(yù)測給定段落和問題的答案。在單樣本設(shè)定下,CPM 能從給定的樣本中學(xué)習(xí)到生成答案的模式,因此效果總是比零樣本設(shè)定更好。由于模型的輸入長度有限,多樣本輸入的場景將在未來進(jìn)行探索。

模型效果展示

我們可以從以下示例中,觀察 CPM 預(yù)訓(xùn)練中文語言模型的效果。比如基于對單個(gè)常識性問題的學(xué)習(xí),依照規(guī)律進(jìn)行提問和正確回答:

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

根據(jù)前文真實(shí)的天氣預(yù)報(bào),繼續(xù)報(bào)道天氣預(yù)報(bào)(不保證正確性):

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

執(zhí)行數(shù)理推理:

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

甚至續(xù)寫《紅樓夢》片段:

26億參數(shù),智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

據(jù)了解,清源 CPM 未來計(jì)劃開源發(fā)布更大規(guī)模的預(yù)訓(xùn)練中文語言模型、以中文為核心的多語言預(yù)訓(xùn)練模型、融合大規(guī)模知識的預(yù)訓(xùn)練語言模型等。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-11-15 10:00:22

模型人工智能NLP

2022-12-06 14:11:32

開源模型

2021-01-12 15:11:01

AI 數(shù)據(jù)人工智能

2024-09-29 13:10:08

2023-07-18 15:05:00

開源大模型

2022-03-21 08:30:13

開源模型訓(xùn)練預(yù)測引擎

2021-03-22 11:16:50

人工智能應(yīng)用基礎(chǔ)設(shè)施

2021-04-19 11:02:06

阿里云達(dá)摩院AI

2021-06-28 12:01:01

預(yù)訓(xùn)練模型

2021-01-12 11:06:44

阿里巴巴AI人機(jī)交互

2022-07-01 18:50:32

英特爾

2023-09-15 13:08:56

AI訓(xùn)練

2024-03-18 09:53:40

GPD神經(jīng)網(wǎng)絡(luò)模型

2021-09-02 18:41:48

智源研究院人工智能

2023-03-05 15:51:54

AIGCChatGPT

2021-11-26 10:18:37

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2023-09-16 13:31:25

模型訓(xùn)練

2023-11-27 13:51:00

模型訓(xùn)練

2020-09-25 09:52:48

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2020-07-08 15:36:18

百度大腦
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號