偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

弱智吧竟成最佳中文AI訓練數(shù)據(jù)?!中科院等:8項測試第一,遠超知乎豆瓣小紅書

人工智能 新聞
使用弱智吧數(shù)據(jù)訓練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺,甚至是研究團隊精心挑選的數(shù)據(jù)集。

想了解更多AIGC的內容:

請訪問: 51CTO AI.x社區(qū)

http://www.szyisi.cn/aigc/

離大譜了,弱智吧登上正經AI論文,還成了最好的中文訓練數(shù)據(jù)??

圖片

具體來說,使用弱智吧數(shù)據(jù)訓練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺,甚至是研究團隊精心挑選的數(shù)據(jù)集。

在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分。

圖片

沒錯,論文中的Ruozhiba就是指百度貼吧弱智吧,一個充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū),畫風通常是這樣的:

圖片

最離譜的是,弱智吧AI代碼能力也超過了使用專業(yè)技術問答社區(qū)思否數(shù)據(jù)訓練的AI,這下吧友自己都鬧不明白了。

圖片

其他平臺圍觀網友也紛紛蚌埠住。

圖片

這項研究來自中科院深圳先進技術研究院、中科院自動化研究所,滑鐵盧大學等眾多高校、研究機構聯(lián)合團隊。

圖片

作者之一也現(xiàn)身評論區(qū),透露使用弱智吧數(shù)據(jù)訓練AI屬于靈機一動,以前只用來測試。

圖片

弱智吧數(shù)據(jù)究竟如何達成這一成就,具體到論文中看。

弱智發(fā)言成指令微調神器

這項研究起初為解決中文大模型訓練中的諸多問題

  • 中文數(shù)據(jù)集很多是從英文翻譯過來的,沒有很好地契合中文的語言習慣和文化背景
  • 不少數(shù)據(jù)集是用AI生成的,質量難以保證,容易出現(xiàn)事實性錯誤
  • 即使是人工標注的數(shù)據(jù)集,也存在數(shù)據(jù)量小、覆蓋領域不全面等問題

為了解決這些痛點,團隊從中文互聯(lián)網的各種知識源頭直接收集數(shù)據(jù),比如知乎、豆瓣、百科、小紅書等,經過一系列嚴格的清洗和人工審核,打造成高質量、多樣化的中文指令微調數(shù)據(jù)集COIG-CQIA。

除了探索不同數(shù)據(jù)源的作用,團隊還專門從中抽取出一個精華子集CQIA-Subset。

在眾多數(shù)據(jù)來源中,弱智吧成了最特別的一個。

由500個點贊最高的帖子標題+人工或GPT-4的回復組成指令微調數(shù)據(jù)集, 經過人工審核后,最終留下了240組指令-回復數(shù)據(jù)對。

圖片

分別用各種數(shù)據(jù)集訓練零一萬物Yi系列開源大模型,在BELLE-Eval測試集上使用GPT-4評分得到結果。

在規(guī)模較小的Yi-6B模型上,純弱智吧版本總分排名第三,還不算太突出。

看來小模型還沒能領悟弱智的精髓。

圖片

到了Yi-34B,弱智吧版本表現(xiàn)就一騎絕塵了。

只有在改寫和數(shù)學任務上沒能取得最高分,但成績也比較靠前。

圖片

另外,在安全評估上弱智吧版本也能排上第二。

圖片

對于這類現(xiàn)象,研究人員在分析中也給出簡單猜測:

可能是弱智吧問題增強了AI的邏輯推理能力,從而使指令遵循任務受益。

圖片

當然弱智吧并不是這項研究的全部,它的真正貢獻在于為中文大模型開發(fā)提供了一個高質量的指令微調數(shù)據(jù)集COIG-CQIA。

圖片

通過對各種中文互聯(lián)網數(shù)據(jù)源的探索,這項研究為構建中文指令數(shù)據(jù)集提供了很多有益的啟示。比如社交媒體數(shù)據(jù)雖然開放多樣,但也存在不少有害信息風險;而百科類數(shù)據(jù)專業(yè)性強,但覆蓋面可能不夠廣。

弱智吧上大分

這項研究一發(fā),網友集體笑不活。除了“XSWL、思路開闊了”嬸兒的純圍觀,也有網友認真討論起了弱智吧有如此奇效的原因。

大伙兒都比較認可的一個原因是弱智吧題目的“異質”。

像腦筋急轉彎,增加了指令多樣性,所以提升了模型最終性能:

圖片

通用數(shù)據(jù)集多半已經在pretrain階段見過了,再訓一遍只會加重overfitting。

圖片

另一個原因是弱智吧數(shù)據(jù)文本質量很高,用詞準確且簡潔

圖片

千言萬語匯成一句話:把弱智吧只當簡單的段子合集真的是嚴重低估了它的價值!

圖片

雀食,要不此前弱智吧問題也經常被大伙兒用來測試大模型呢。

事實上從ChatGPT誕生之初,弱智吧就深度參與了大模型的發(fā)展,可以算是這一波AI浪潮的重要見證者了。

一開始只是網友拿來拷打AI,搞搞節(jié)目效果。

圖片

后來大家發(fā)現(xiàn),弱智吧問題中充滿陷阱,剛好可以用來分辨AI能力高低。

還記得23年初那會兒,各家大模型第一版還不太能很好應對這類問題,如2023年3月的文心一言:

圖片

后續(xù)版本也漸入佳境了,如2023年8月的文心一言:

圖片

直到今天,弱智吧問題都是每個新發(fā)布大模型都必須要過的一關,被戲稱為弱智吧Benchmark。

圖片秘塔寫作貓

圖片Inspo

再后來,AI公司們自己也開始重視起來,如百度官方就搞過聯(lián)動直播。

圖片

當初網友為了調戲大模型專門搜集的弱智吧問題測試集,沒想到有一天也能搖身一變,成了訓練集。

圖片

思路確實是被打開了~

想了解更多AIGC的內容:

請訪問: 51CTO AI.x社區(qū)

http://www.szyisi.cn/aigc/

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-27 12:43:57

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫

2022-04-19 10:27:44

數(shù)據(jù)庫中科院

2018-06-14 10:31:12

2017-05-15 15:07:36

納米材料農藥

2024-03-07 12:31:29

AI技術

2018-06-14 09:31:13

2023-04-04 13:58:55

人工智能論文

2024-08-30 14:38:00

2009-09-18 09:40:57

浪潮中科院合肥

2016-04-19 12:51:26

2010-05-14 10:09:21

中科院LED無線上網

2009-10-11 01:04:43

曙光中科院計算中心

2013-09-02 10:21:31

曙光核高基中科院

2024-07-30 15:09:49

2020-01-16 15:20:48

編程語言PythonJava

2009-07-21 09:47:59

龍芯中科院

2017-04-17 13:31:28

中科院5G移動通信

2022-02-19 08:21:21

中科院量子計算編程軟件
點贊
收藏

51CTO技術棧公眾號