偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Llama3背后的秘密:HuggingFace發(fā)布萬億級(jí)數(shù)據(jù)集Fineweb 原創(chuàng) 精華

發(fā)布于 2024-4-25 12:12
瀏覽
0收藏

Llama3是在15萬億個(gè)公共數(shù)據(jù)標(biāo)記上進(jìn)行訓(xùn)練的。但是,您可以在哪里找到這樣的數(shù)據(jù)集和處理方法呢?

Llama3背后的秘密:HuggingFace發(fā)布萬億級(jí)數(shù)據(jù)集Fineweb -AI.x社區(qū)

近日,HuggingFace發(fā)布??Fineweb,一個(gè)高質(zhì)量的大規(guī)模篩選網(wǎng)絡(luò)數(shù)據(jù)集,優(yōu)于目前所有同等規(guī)模的數(shù)據(jù)集。HuggingFace訓(xùn)練了200多個(gè)消融模型,精心制作了這個(gè)數(shù)據(jù)集,對(duì)Common Crawl進(jìn)行了解析和過濾。HuggingFace對(duì)2013年至2024年間的所有CommonCrawl數(shù)據(jù)進(jìn)行了篩選和去重。在FineWeb上訓(xùn)練的模型優(yōu)于RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama

所有的處理方法、數(shù)據(jù)、消融模型和超參數(shù)都是開源的,并且HuggingFace計(jì)劃持續(xù)改進(jìn)Fineweb。

這是什么?

?? FineWeb數(shù)據(jù)集由超過15T標(biāo)記的英文網(wǎng)絡(luò)數(shù)據(jù)組成,經(jīng)過了清洗和去重處理,數(shù)據(jù)來源于CommonCrawl。數(shù)據(jù)處理流程針對(duì)LLM性能進(jìn)行了優(yōu)化,并在我們的大規(guī)模數(shù)據(jù)處理庫(kù)?? datatrove上運(yùn)行。

?? FineWeb最初旨在成為?? RefinedWeb的完全開放復(fù)制品,全套數(shù)據(jù)集將根據(jù)ODC-By 1.0許可證發(fā)布。然而,通過謹(jǐn)慎添加額外的過濾步驟,研究人員成功將?? FineWeb的性能推高到原始?? RefinedWeb的水平之上,并且在基準(zhǔn)任務(wù)組上,基于數(shù)據(jù)集訓(xùn)練的模型也優(yōu)于基于其他常用高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集(如C4、Dolma-v1.6、The Pile、SlimPajama)訓(xùn)練的模型。

Llama3背后的秘密:HuggingFace發(fā)布萬億級(jí)數(shù)據(jù)集Fineweb -AI.x社區(qū)

發(fā)布了什么?

除了數(shù)據(jù)集之外,還包括自2013年以來的所有CommonCrawl轉(zhuǎn)儲(chǔ)數(shù)據(jù)。HuggingFace還在此處共享了使用?? datatrove庫(kù)完全重現(xiàn)我們處理設(shè)置所需的所有代碼。為了實(shí)現(xiàn)對(duì)結(jié)果的完全復(fù)制,HuggingFace還發(fā)布了我們使用nanotron訓(xùn)練的小型消融模型,以驗(yàn)證數(shù)據(jù)集并與其他參考數(shù)據(jù)集進(jìn)行比較。您可以在此處找到它們,每1000步進(jìn)行一次檢查點(diǎn)。HuggingFace還在此處發(fā)布了我們的評(píng)估結(jié)果。

如何下載和使用?? FineWeb

Llama3背后的秘密:HuggingFace發(fā)布萬億級(jí)數(shù)據(jù)集Fineweb -AI.x社區(qū)

方法1

from datasets import load_dataset
fw = load_dataset("HuggingFaceFW/fineweb", name="CC-MAIN-2024-10", split="train", streaming=True)

   方法2

from huggingface_hub import snapshot_download
folder = snapshot_download(
                "HuggingFaceFW/fineweb", 
                repo_type="dataset",
                local_dir="./fineweb/",
                allow_patterns="data/CC-MAIN-2023-50/*")

譯自(有刪改):https://huggingface.co/datasets/HuggingFaceFW/fineweb


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/5E5Om_9wL031apiXBRxFew??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦