偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="yv5yd"></tfoot>

<style id="yv5yd"><legend id="yv5yd"></legend></style><del id="yv5yd"></del>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

國產(chǎn)ChatGPT「套殼」的秘密，現(xiàn)在被找到了

2023-05-28 12:23:59

近2個月來，國內(nèi)不少團(tuán)隊先后開源了中文數(shù)據(jù)集，除通用數(shù)據(jù)集外，針對編程、醫(yī)療等垂域也有專門的開源中文數(shù)據(jù)集發(fā)布。

“科大訊飛套殼ChatGPT！”“百度文心一言套皮Stable Diffusion！”“商湯大模型實(shí)則抄襲！”……

外界對國產(chǎn)大模型產(chǎn)生質(zhì)疑已經(jīng)不是一次兩次了。

業(yè)內(nèi)人士對這個現(xiàn)象的解釋是，高質(zhì)量的中文數(shù)據(jù)集實(shí)在緊缺，訓(xùn)模型時只能讓采買的外文標(biāo)注數(shù)據(jù)集“當(dāng)外援”。訓(xùn)練所用的數(shù)據(jù)集撞車，就會生成相似結(jié)果，進(jìn)而引發(fā)烏龍事件。

其余辦法中，用現(xiàn)有大模型輔助生成訓(xùn)練數(shù)據(jù)容易數(shù)據(jù)清洗不到位，重復(fù)利用token會導(dǎo)致過擬合，僅訓(xùn)練稀疏大模型也不是長久之計。

業(yè)內(nèi)漸漸形成共識：

通往AGI的道路，對數(shù)據(jù)數(shù)量和數(shù)據(jù)質(zhì)量都將持續(xù)提出極高的要求。

時勢所需，近2個月來，國內(nèi)不少團(tuán)隊先后開源了中文數(shù)據(jù)集，除通用數(shù)據(jù)集外，針對編程、醫(yī)療等垂域也有專門的開源中文數(shù)據(jù)集發(fā)布。

高質(zhì)量數(shù)據(jù)集雖有但少

大模型的新突破十分依賴高質(zhì)量、豐富的數(shù)據(jù)集。

根據(jù)OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸縮法則（scaling law）可以看到，獨(dú)立增加訓(xùn)練數(shù)據(jù)量，是可以讓預(yù)訓(xùn)練模型效果變更好的。

這不是OpenAI的一家之言。

DeepMind也在Chinchilla模型論文中指出，之前的大模型多是訓(xùn)練不足的，還提出最優(yōu)訓(xùn)練公式，已成為業(yè)界公認(rèn)的標(biāo)準(zhǔn)。

△主流大模型，Chinchilla參數(shù)最少，但訓(xùn)練最充分

不過，用來訓(xùn)練的主流數(shù)據(jù)集以英文為主，如Common Crawl、BooksCorpus、WiKipedia、ROOT等，最流行的Common Crawl中文數(shù)據(jù)只占據(jù)4.8%。

中文數(shù)據(jù)集是什么情況？

公開數(shù)據(jù)集不是沒有——這一點(diǎn)量子位從瀾舟科技創(chuàng)始人兼CEO、當(dāng)今NLP領(lǐng)域成就最高華人之一周明口中得到證實(shí)——如命名實(shí)體數(shù)據(jù)集MSRA-NER、Weibo-NER等，以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在，但整體數(shù)量和英文數(shù)據(jù)集相比可謂九牛一毛。

并且，其中部分已經(jīng)老舊，可能都不知道最新的NLP研究概念（新概念相關(guān)研究只以英文形式出現(xiàn)在arXiv上）。

中文高質(zhì)量數(shù)據(jù)集雖有但少，使用起來比較麻煩，這就是所有做大模型的團(tuán)隊不得不面對的慘烈現(xiàn)狀。此前的清華大學(xué)電子系系友論壇上，清華計算機(jī)系教授唐杰分享過，千億模型ChatGLM-130B訓(xùn)練前數(shù)據(jù)準(zhǔn)備時，就曾面臨過清洗中文數(shù)據(jù)后，可用量不到2TB的情況。

解決中文世界缺乏高質(zhì)量數(shù)據(jù)集迫在眉睫。

行之有效的解決方法之一，是直接用英文數(shù)據(jù)集訓(xùn)大模型。

在人類玩家打分的大模型匿名競技場Chatbot Arena榜單中，GPT-3.5在非英文排行榜位居第二（第一是GPT-4）。要知道，96%的GPT-3.5訓(xùn)練數(shù)據(jù)都是英文，再刨去其他語種，用來訓(xùn)練的中文數(shù)據(jù)量少到可以用“千分之n”來計算。

國內(nèi)top3高校某大模型相關(guān)團(tuán)隊在讀博士透露，如果采用這種方法，不嫌麻煩的話，甚至可以給模型接一個翻譯軟件，把所有語言都轉(zhuǎn)換成英語，然后把模型的輸出轉(zhuǎn)換為中文，再返回給用戶。

然而這樣喂養(yǎng)出的大模型始終是英文思維，當(dāng)遇到成語改寫、俗語理解、文章改寫這類含有中文語言特色的內(nèi)容，往往處理不佳，出現(xiàn)翻譯錯誤或潛在文化的偏差。

還有個解決辦法就是采集、清洗和標(biāo)注中文語料，做新的中文高質(zhì)量數(shù)據(jù)集，供給給大模型們。

開源數(shù)據(jù)集眾人拾柴

察覺現(xiàn)況后，國內(nèi)不少大模型團(tuán)隊決定走第二條路，著手利用私有數(shù)據(jù)庫做數(shù)據(jù)集。

百度有內(nèi)容生態(tài)數(shù)據(jù)，騰訊有公眾號數(shù)據(jù)，知乎有問答數(shù)據(jù)，阿里有電商和物流數(shù)據(jù)。

積累的私有數(shù)據(jù)不一，就可能在特定場景和領(lǐng)域建立核心優(yōu)勢壁壘，將這些數(shù)據(jù)嚴(yán)格搜集、整理、篩選、清洗和標(biāo)注，能保證訓(xùn)出模型的有效性和準(zhǔn)確性。

而那些私有數(shù)據(jù)優(yōu)勢不那么明顯大模型團(tuán)隊，開始全網(wǎng)爬數(shù)據(jù)（可以預(yù)見，爬蟲數(shù)據(jù)量會非常大）。

華為為了打造盤古大模型，從互聯(lián)網(wǎng)爬取了80TB文本，最后清洗為1TB的中文數(shù)據(jù)集；浪潮源1.0訓(xùn)練采用的中文數(shù)據(jù)集達(dá)5000GB（相比GPT3模型訓(xùn)練數(shù)據(jù)集為570GB）；最近發(fā)布的天河天元大模型，也是天津超算中心搜集整理全域網(wǎng)頁數(shù)據(jù)，同時納入各種開源訓(xùn)練數(shù)據(jù)和專業(yè)領(lǐng)域數(shù)據(jù)集等的成果。

與此同時，近2個月來，中文數(shù)據(jù)集出現(xiàn)眾人拾柴火焰高的現(xiàn)象——

許多團(tuán)隊陸續(xù)發(fā)布開源中文數(shù)據(jù)集，彌補(bǔ)當(dāng)前中文開源數(shù)據(jù)集的不足或失衡。

其中部分整理如下：

CodeGPT：由GPT和GPT生成的與代碼相關(guān)的對話數(shù)據(jù)集；背后機(jī)構(gòu)為復(fù)旦大學(xué)。
CBook-150k：中文語料圖書集合，包含15萬本中文圖書的下載和抽取方法，涵蓋人文、教育、科技、軍事、政治等眾多領(lǐng)域；背后機(jī)構(gòu)為復(fù)旦大學(xué)。
RefGPT：為了避免人工標(biāo)注的昂貴成本，提出一種自動生成事實(shí)型對話的方法，并公開我們的部分?jǐn)?shù)據(jù)，包含5萬條中文多輪對話；背后是來自上海交大、香港理工大學(xué)等機(jī)構(gòu)的NLP從業(yè)者。
COIG：全稱“中國通用開放指令數(shù)據(jù)集”，是更大、更多樣化的指令調(diào)優(yōu)語料庫，并由人工驗證確保了它的質(zhì)量；背后的聯(lián)合機(jī)構(gòu)包括北京人工智能研究院、謝菲爾德大學(xué)、密歇根大學(xué)、達(dá)特茅斯學(xué)院、浙江大學(xué)、北京航空航天大學(xué)、卡內(nèi)基梅隆大學(xué)。
Awesome Chinese Legal Resources：中國法律數(shù)據(jù)資源，由上海交大收集和整理。
Huatuo：通過醫(yī)學(xué)知識圖譜和GPT3.5 API構(gòu)建的中文醫(yī)學(xué)指令數(shù)據(jù)集，在此基礎(chǔ)上對LLaMA進(jìn)行了指令微調(diào)，提高了LLaMA在醫(yī)療領(lǐng)域的問答效果；項目開源方是哈工大。
Baize：使用少量“種子問題”，讓 ChatGPT 自己跟自己聊天，并自動收集成高質(zhì)量多輪對話數(shù)據(jù)集；加州大學(xué)圣迭戈分校（UCSD）與中山大學(xué)、MSRA合作團(tuán)隊把使用此法收集的數(shù)據(jù)集開源。

當(dāng)更多的中文數(shù)據(jù)集被開源到聚光燈下，行業(yè)的態(tài)度是歡迎與欣喜。如智譜AI創(chuàng)始人兼CEO張鵬表達(dá)出的態(tài)度：

中文高質(zhì)量數(shù)據(jù)只是被藏在深閨而已，現(xiàn)在大家都意識到這個問題了，自然也會有相應(yīng)的解決方案，比如數(shù)據(jù)開源。
總之是在向好的方向發(fā)展，不是嗎？

值得注意的是，除了預(yù)訓(xùn)練數(shù)據(jù)，目前階段人類反饋數(shù)據(jù)同樣不可或缺。

現(xiàn)成的例子擺在眼前：

與GPT-3相比，ChatGPT疊加的重要buff就是利用RLHF（人類反饋強(qiáng)化學(xué)習(xí)），生成用于fine-tuing的高質(zhì)量標(biāo)記數(shù)據(jù)，使得大模型向與人類意圖對齊的方向發(fā)展。

提供人類反饋?zhàn)钪苯拥霓k法，就是告訴AI助手“你的回答不對”，或者直接在AI助手生成的回復(fù)旁邊點(diǎn)贊或踩一踩。

先用起來就能先收集一波用戶反饋，讓雪球滾起來，這就是為什么大家都搶著發(fā)布大模型的原因之一。

現(xiàn)在，國內(nèi)的類ChatGPT產(chǎn)品，從百度文心一言、復(fù)旦MOSS到智譜ChatGLM，都提供了進(jìn)行反饋的選項。

但由于在大部分體驗用戶眼中，這些大模型產(chǎn)品最主要的還是“玩具”屬性。

當(dāng)遇到錯誤或不滿意的回答，會選擇直接關(guān)掉對話界面，并不利于背后大模型對人類反饋的搜集。

責(zé)任編輯：姜華來源：量子位

ChatGPT 中文數(shù)據(jù)集

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<u id="7qg4d"><rp id="7qg4d"></rp></u>

<tt id="7qg4d"></tt><ruby id="7qg4d"></ruby>

<pre id="7qg4d"><code id="7qg4d"></code></pre>