偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

像Git一樣用AI數(shù)據(jù)!免費(fèi)托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

新聞 人工智能
國(guó)外,一位名叫Simon Lousky的程序員小哥終于不能忍了,開(kāi)發(fā)出了一套用于機(jī)器學(xué)習(xí)的數(shù)據(jù)版本控制工具 (Data Version Control,DVC)。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

搞機(jī)器學(xué)習(xí)的人,很多都飽受數(shù)據(jù)管理的折磨。

要么是數(shù)據(jù)集老舊,需要手工修訂標(biāo)注。

要么是同一個(gè)數(shù)據(jù)集有很多被別人調(diào)整過(guò)的版本,無(wú)從下手。

或者,干脆沒(méi)有合適數(shù)據(jù)集,需要自己建立。

[[377448]]

國(guó)外,一位名叫Simon Lousky的程序員小哥終于不能忍了,開(kāi)發(fā)出了一套用于機(jī)器學(xué)習(xí)的數(shù)據(jù)版本控制工具 (Data Version Control,DVC)。

一鍵調(diào)用數(shù)據(jù)集、一鍵查看編輯歷史……最重要的是,在DVC工具背后,有一個(gè)GitHub一樣的數(shù)據(jù)托管社區(qū)。

“盤(pán)活”數(shù)據(jù)集

Simon Lousky在學(xué)生時(shí)代做項(xiàng)目時(shí),就已經(jīng)感受到了機(jī)器學(xué)習(xí)數(shù)據(jù)集管理不便的痛點(diǎn)。

當(dāng)時(shí),他的模型需要一個(gè)植物和花朵的數(shù)據(jù)進(jìn)行訓(xùn)練,而開(kāi)源數(shù)據(jù)集無(wú)論如何也得不到合理的結(jié)果。

于是他自己花了幾個(gè)小時(shí)的時(shí)間,一一修正了數(shù)據(jù)集中大量過(guò)時(shí)、不合理的標(biāo)注,之后訓(xùn)練結(jié)果讓人十分滿意。

[[377449]]

除了這個(gè)項(xiàng)目,他之后又進(jìn)行過(guò)很多數(shù)據(jù)集的修正、增補(bǔ)、創(chuàng)建工作,他把這些費(fèi)時(shí)費(fèi)力的工序稱(chēng)為“數(shù)據(jù)集的調(diào)試試錯(cuò)”,并且開(kāi)始有意記錄操作歷史。

他逐漸發(fā)現(xiàn),自己的項(xiàng)目中,數(shù)據(jù)管理總是一塌糊涂,而依靠GitHub托管的代碼,卻一直井井有條。

那為什么不做一個(gè)類(lèi)似GitHub、專(zhuān)門(mén)服務(wù)數(shù)據(jù)管理的工具呢?

像git一樣用AI數(shù)據(jù)!免費(fèi)托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

DVC就這樣誕生了。

這是一個(gè)預(yù)裝的工具庫(kù),實(shí)現(xiàn)功能包括對(duì)數(shù)據(jù)集的調(diào)用、歷史操作信息的查看等等功能。

它的出現(xiàn),意味著之前,研究人員在本地“死”的數(shù)據(jù)集上訓(xùn)練模型的方式徹底改變。

你可以將項(xiàng)目鏈接到在線托管的數(shù)據(jù)集(或任何文件),建立實(shí)時(shí)、準(zhǔn)確的聯(lián)系。數(shù)據(jù)集的任何更新變動(dòng),都能及時(shí)獲知,方便項(xiàng)目的開(kāi)展。

像git一樣用AI數(shù)據(jù)!免費(fèi)托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

比如,現(xiàn)在有一個(gè)Repository A,這是一個(gè)“活”數(shù)據(jù)集,其中元數(shù)據(jù)文件,指向存儲(chǔ)在專(zhuān)用服務(wù)器的真實(shí)大文件。

用戶(hù)可以將數(shù)據(jù)集文件組織到目錄中,并添加帶有utils函數(shù)的代碼文件,以此來(lái)方便調(diào)用。

此外,還有一個(gè)Repository B,這是對(duì)應(yīng)機(jī)器學(xué)習(xí)項(xiàng)目,項(xiàng)目代碼中,包含使用DVC導(dǎo)入數(shù)據(jù)集的指令。

只要?jiǎng)?chuàng)建一個(gè)數(shù)據(jù)注冊(cè)表,就能建立A和B之間的聯(lián)系:

  1. mkdir my-dataset && cd my-dataset 
  2. git init 
  3. dvc init 

此時(shí),數(shù)據(jù)集目錄會(huì)是這樣:

像git一樣用AI數(shù)據(jù)!免費(fèi)托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

需要查看數(shù)據(jù)集相關(guān)信息時(shí),輸入指令:

  1. dvc add annotations 
  2. dvc add images 
  3. git add . && git commit -m “Starting to manage my dataset” 

數(shù)據(jù)集的預(yù)覽會(huì)保存到一個(gè)目錄里,這個(gè)目錄也會(huì)被DVC跟蹤。

然后用戶(hù)只需要把代碼和數(shù)據(jù)推送到托管倉(cāng)庫(kù),這樣就隨時(shí)隨地訪問(wèn)它,并與其他人分享。

當(dāng)然,DVC要發(fā)揮作用,自然少不了背后的DAGsHub。

像git一樣用AI數(shù)據(jù)!免費(fèi)托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

DAGsHub就是一個(gè)GitHub的數(shù)據(jù)管理版本,由三部分組成,git倉(cāng)庫(kù)、DVC、和機(jī)器學(xué)習(xí)流程平臺(tái)mlflow。

用戶(hù)可以提交自己的項(xiàng)目,DAGsHub會(huì)自動(dòng)掃描提交,并提取有用的信息,如實(shí)驗(yàn)參數(shù),數(shù)據(jù)文件和模型的鏈接,并將它們結(jié)合到一個(gè)簡(jiǎn)單的界面。

像git一樣用AI數(shù)據(jù)!免費(fèi)托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

DAGsHub可以瀏覽和比較代碼、數(shù)據(jù)、模型和實(shí)驗(yàn),而且不需要下載任何東西。

此外,還能生成可視化數(shù)據(jù)管道、數(shù)據(jù)操作歷史,并記錄模型性能,自動(dòng)且美觀。

如何在機(jī)器學(xué)習(xí)項(xiàng)目中使用“活”數(shù)據(jù)集

要使用DAGsHub,只需要注冊(cè)登錄。

像git一樣用AI數(shù)據(jù)!免費(fèi)托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

通過(guò)以下指令安裝DVC:

  1. pip3 install dvc 

在DAGsHub上找到一個(gè)數(shù)據(jù)集,如何在自己的模型中使用它呢?

首先,要從托管的數(shù)據(jù)集中導(dǎo)入一個(gè)目錄,并把它當(dāng)作原始文件:

  1. mkdir -p data/raw 
  2. dvc import -o data/raw/images \ 
  3. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  4. data/images 
  5. dvc import -o data/raw/annotations \ 
  6. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  7. data/annotations 

接著,圖片和注釋就會(huì)下載到你自己的項(xiàng)目中,并保留其中歷史信息的信息。

像git一樣用AI數(shù)據(jù)!免費(fèi)托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

當(dāng)你想要知道數(shù)據(jù)集的變更歷史時(shí),只需運(yùn)行命令:

dvc update

就能將可視化結(jié)果返回默認(rèn)目錄保存:

像git一樣用AI數(shù)據(jù)!免費(fèi)托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

是不是很方便?

對(duì)了,無(wú)論是DVC,還是DAGsHub,都是開(kāi)源且免費(fèi)的,趕快來(lái)試試吧

傳送門(mén):

DVC教程:https://dagshub.com/docs/experiment-tutorial/2-data-versioning/
DAGsHub主頁(yè):https://dagshub.com/

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2019-11-20 09:10:12

開(kāi)源技術(shù) 數(shù)據(jù)

2013-08-22 10:17:51

Google大數(shù)據(jù)業(yè)務(wù)價(jià)值

2018-09-21 11:06:10

2025-06-03 14:16:40

編程AI生成

2013-07-26 10:15:29

云計(jì)算大數(shù)據(jù)Hadoop

2017-11-06 14:18:03

2020-09-30 17:12:09

人工智能技術(shù)數(shù)據(jù)

2022-02-24 13:59:59

AI智能體研究

2023-04-05 14:19:07

FlinkRedisNoSQL

2021-12-28 11:23:36

SQLServerExcel數(shù)據(jù)分析

2025-01-17 13:53:11

AI大模型檢測(cè)工具

2022-12-21 15:56:23

代碼文檔工具

2023-05-23 13:59:41

RustPython程序

2013-12-31 09:19:23

Python調(diào)試

2013-12-17 09:02:03

Python調(diào)試

2017-04-26 14:02:18

大數(shù)據(jù)數(shù)據(jù)分析Excel

2017-06-23 08:18:17

2019-04-11 18:00:40

數(shù)據(jù)數(shù)據(jù)科學(xué)項(xiàng)目

2022-08-26 08:17:32

Sidekick開(kāi)源

2022-08-03 08:52:35

Bytebase開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)