偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

作者：佚名 2020-11-18 10:29:07

新聞人工智能

近日，北京智源人工智能研究院和清華大學(xué)研究團(tuán)隊(duì)聯(lián)合發(fā)布了以中文為核心的大規(guī)模預(yù)訓(xùn)練語言模型 CPM-LM，參數(shù)規(guī)模達(dá) 26 億，預(yù)訓(xùn)練中文數(shù)據(jù)規(guī)模 100 GB。

近日，北京智源人工智能研究院和清華大學(xué)研究團(tuán)隊(duì)聯(lián)合發(fā)布了以中文為核心的大規(guī)模預(yù)訓(xùn)練語言模型 CPM-LM，參數(shù)規(guī)模達(dá) 26 億，預(yù)訓(xùn)練中文數(shù)據(jù)規(guī)模 100 GB。

自 2018 年谷歌發(fā)布 BERT 以來，預(yù)訓(xùn)練模型在自然語言處理（NLP）領(lǐng)域逐漸成為主流。今年 5 月份，OpenAI 推出的史上最大 AI 模型 GPT-3更是引起了大量討論。但是，目前 NLP 領(lǐng)域的預(yù)訓(xùn)練模型多針對英語語言，以英語語言數(shù)據(jù)為訓(xùn)練數(shù)據(jù)，例如 GPT-3：

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

用于訓(xùn)練 GPT-3 的數(shù)據(jù)集。

近日，北京智源人工智能研究院和清華大學(xué)研究團(tuán)隊(duì)合作開展了一項(xiàng)名為「清源 CPM (Chinese Pretrained Models)」的大規(guī)模預(yù)訓(xùn)練模型開源計(jì)劃，旨在構(gòu)建以中文為核心的大規(guī)模預(yù)訓(xùn)練模型。首期開源內(nèi)容包括預(yù)訓(xùn)練中文語言模型和預(yù)訓(xùn)練知識表示模型，可廣泛應(yīng)用于中文自然語言理解、生成任務(wù)以及知識計(jì)算應(yīng)用，所有模型免費(fèi)向?qū)W術(shù)界和產(chǎn)業(yè)界開放下載，供研究使用。

清源 CPM 主頁：https://cpm.baai.ac.cn/

清源 CPM Github 托管代碼主頁：https://github.com/TsinghuaAI/

模型特點(diǎn)

根據(jù)清源 CPM 主頁介紹，該計(jì)劃發(fā)布的預(yù)訓(xùn)練模型具備以下特點(diǎn)：

模型規(guī)模大：本次發(fā)布的CPM-LM 參數(shù)規(guī)模達(dá) 26 億，預(yù)訓(xùn)練中文數(shù)據(jù)規(guī)模 100 GB，使用了 64 塊 V100 GPU，訓(xùn)練時(shí)間約為 3 周；CPM-KG 的參數(shù)規(guī)模為 217 億，預(yù)訓(xùn)練結(jié)構(gòu)化知識圖譜為 WikiData 全量數(shù)據(jù)，包含近 1300 個(gè)關(guān)系、8500 萬實(shí)體、4.8 億個(gè)事實(shí)三元組，使用了 8 塊 V100 GPU 訓(xùn)練時(shí)間約為 2 周。

語料豐富多樣：收集大量豐富多樣的中文語料，包括百科、小說、對話、問答、新聞等類型。

學(xué)習(xí)能力強(qiáng)：能夠在多種自然語言處理任務(wù)上進(jìn)行零次學(xué)習(xí)或少次學(xué)習(xí)，并達(dá)到較好的效果。

行文自然流暢：基于給定上文，模型可以續(xù)寫出一致性高、可讀性強(qiáng)的文本，達(dá)到現(xiàn)有中文生成模型的領(lǐng)先效果。

在模型訓(xùn)練方面，CPM 模型預(yù)訓(xùn)練過程分布在多塊 GPU 上，采用層內(nèi)并行的方法進(jìn)行訓(xùn)練，并基于當(dāng)前已有的成熟技術(shù)，減少同步提高通訊速率。

在硬件設(shè)施方面，為訓(xùn)練該 CPM 模型，共有 64 塊 V100 顯卡投入使用。經(jīng)過預(yù)訓(xùn)練的 CPM 模型可以用來促進(jìn)諸多下游中文任務(wù)，如對話、論文生成、完形填空和語言理解等。

為了促進(jìn)中文自然語言處理研究的發(fā)展，該項(xiàng)目還提供了 CPM-LM (2.6B) 模型的文本生成代碼，可用于文本生成的本地測試，并以此為基礎(chǔ)進(jìn)一步研究零次學(xué)習(xí) / 少次學(xué)習(xí)等場景，詳情參見項(xiàng)目 GitHub 主頁。

模型性能

清源 CPM 使用新聞、百科、對話、網(wǎng)頁、故事等不同類型的中文語料數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。在多個(gè)公開的中文數(shù)據(jù)集上的實(shí)驗(yàn)表明，清源 CPM 在少樣本或無樣本的情況下均能夠?qū)崿F(xiàn)較好的效果。

中文成語填空 ChID

ChID 是 2019 年清華大學(xué)對話交互式人工智能實(shí)驗(yàn)室（CoAI）收集的中文成語填空數(shù)據(jù)集，其目標(biāo)是對于給定的段落，在 10 個(gè)候選項(xiàng)中選擇最符合段意的成語進(jìn)行填空。

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

其中有監(jiān)督設(shè)定是指在 ChID 的訓(xùn)練集上進(jìn)行訓(xùn)練，隨后在測試集上測試；無監(jiān)督設(shè)定是指不經(jīng)過任何額外訓(xùn)練，直接使用預(yù)訓(xùn)練模型進(jìn)行測試。具體做法是，將候選項(xiàng)依次填入段落中，計(jì)算填充后段落的困惑度 (Perplexity)，選擇困惑度最小的候選項(xiàng)作為預(yù)測結(jié)果。表中匯報(bào)了預(yù)測的準(zhǔn)確率，可以看到，CPM (大) 在無監(jiān)督設(shè)定下甚至達(dá)到了比有監(jiān)督 CPM (小) 更好的結(jié)果，反映出清源 CPM 強(qiáng)大的中文語言建模能力。

對話生成 STC

STC 是 2015 年華為諾亞方舟實(shí)驗(yàn)室提出的短文本對話數(shù)據(jù)集，要求在給定上文多輪對話的條件下預(yù)測接下來的回復(fù)。

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

其中 CDial-GPT 是清華大學(xué)對話交互式人工智能（CoAI）實(shí)驗(yàn)室 2020 年提出的中文對話預(yù)訓(xùn)練模型。用于衡量多樣性的 Dist-n 指標(biāo)的兩個(gè)數(shù)字分別是所有不重復(fù)的 N-Gram 的數(shù)量及占所有 N-Gram 的比例?？梢钥吹?，在無監(jiān)督的設(shè)定下，清源 CPM 具有更好的泛化性，在有監(jiān)督設(shè)定下，清源 CPM 能達(dá)到比 CDial-GPT 更優(yōu)的效果，尤其在多樣性指標(biāo)上表現(xiàn)更佳。

文本分類

清源 CPM 使用頭條新聞標(biāo)題分類（TNEWS，采樣為 4 分類）、IFLYTEK 應(yīng)用介紹分類（IFLYTEK，采樣為 4 分類）、中文自然語言推斷（OCNLI，3 分類）任務(wù)作為文本分類任務(wù)的基準(zhǔn)。具體做法是，先輸入分類樣本，再輸入「該文章的類別為 / 該介紹的類別為 / 兩句話的關(guān)系為」，要求模型直接生成標(biāo)簽，四個(gè)標(biāo)簽中概率最高的標(biāo)簽作為預(yù)測結(jié)果。在無監(jiān)督設(shè)定下，不同規(guī)模的清源 CPM 在文本分類任務(wù)上的精確度如下表所示：

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

清源 CPM 能夠在無監(jiān)督的設(shè)定下達(dá)到比隨機(jī)預(yù)測好得多的精確度（TNEWS/IFLYTEK/OCNLI 隨機(jī)預(yù)測精確度分別為 0.25/0.25/0.33）。

自動問答

CPM 使用 DuReader 和 CMRC2018 作為自動問答任務(wù)的基準(zhǔn)，要求模型從給定段落中抽取一個(gè)片段作為對題目問題的答案，其中 DuReader 由百度搜索和百度知道兩部分?jǐn)?shù)據(jù)組成。在無監(jiān)督的設(shè)定下，不同規(guī)模的 CPM 模型的表現(xiàn)如下表所示：

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

其中單樣本是指在測試時(shí)，從數(shù)據(jù)集中隨機(jī)抽取一個(gè)正確的「(段落，問題，答案)」三元組，插入到用于評價(jià)的樣例前，作為 CPM 模型生成答案的提示；零樣本是指直接使用 CPM 模型預(yù)測給定段落和問題的答案。在單樣本設(shè)定下，CPM 能從給定的樣本中學(xué)習(xí)到生成答案的模式，因此效果總是比零樣本設(shè)定更好。由于模型的輸入長度有限，多樣本輸入的場景將在未來進(jìn)行探索。

模型效果展示

我們可以從以下示例中，觀察 CPM 預(yù)訓(xùn)練中文語言模型的效果。比如基于對單個(gè)常識性問題的學(xué)習(xí)，依照規(guī)律進(jìn)行提問和正確回答：

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

根據(jù)前文真實(shí)的天氣預(yù)報(bào)，繼續(xù)報(bào)道天氣預(yù)報(bào)（不保證正確性）：

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

執(zhí)行數(shù)理推理：

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

甚至續(xù)寫《紅樓夢》片段：

26億參數(shù)，智源、清華開源中文大規(guī)模預(yù)訓(xùn)練模型

據(jù)了解，清源 CPM 未來計(jì)劃開源發(fā)布更大規(guī)模的預(yù)訓(xùn)練中文語言模型、以中文為核心的多語言預(yù)訓(xùn)練模型、融合大規(guī)模知識的預(yù)訓(xùn)練語言模型等。

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

模型人工智能開源

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tt id="zzkiz"><b id="zzkiz"></b></tt>

<nobr id="zzkiz"><legend id="zzkiz"></legend></nobr>

<abbr id="zzkiz"></abbr>

<table id="zzkiz"><dl id="zzkiz"></dl></table>