偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek開源周最后一天:讓數據處理「從自行車升級到高鐵」

人工智能
通過連續(xù)一周的高強度開源,DeepSeek 已經收獲了一大波開發(fā)者的追隨。有開發(fā)者表示,3FS 和 Smallpond 是在 AI 數據處理方面樹立了新標桿。

DeepSeek 的開源周終于迎來了最后一天。

今天他們開源了一個名為 3FS(Fire-Flyer File System)的系統(tǒng)。這是一種并行文件系統(tǒng),它利用現代固態(tài)硬盤(SSD)和遠程直接內存訪問(RDMA)網絡的全部帶寬,能夠加速和推動 DeepSeek 平臺上所有數據訪問操作。

它有以下優(yōu)勢:

  • 在 180 節(jié)點集群中實現了 6.6 TiB/s 的聚合讀取吞吐量;
  • 在 25 節(jié)點集群的 GraySort 基準測試中達到 3.66 TiB/min 的吞吐量;
  • 每個客戶端節(jié)點在 KVCache 查找時可達到 40+ GiB/s 的峰值吞吐量;
  • 采用分離式架構,具有強一致性語義。

在應用場景方面,它支持訓練數據預處理、數據集加載、檢查點保存 / 重新加載、用于推理的嵌入向量搜索和 KVCache 查找。DeepSeek V3、R1 模型均采用了這個系統(tǒng)。

  • 開源鏈接:https://github.com/deepseek-ai/3FS
  • Smallpool(3FS 上的數據處理框架):https://github.com/deepseek-ai/smallpond

如果技術語言不好理解,可以參考這位研究者給出的通俗解釋:   

同時,這位研究者也是一位早期使用者,他評價說,「DeepSeek 的 3FS 系統(tǒng)快得驚人,它處理數據的速度快到可以在我還沒來得及拖延的時候就已經訓練好了一個能幫我報稅的 AI。它擁有 6.6 TiB/s 的讀取速度,這使它成為文件系統(tǒng)界的『博爾特』(世界最快短跑運動員)。你眨眼的功夫,數據就已經處理完畢了。而將這個超級快速的系統(tǒng)開源,就像是給整個 AI 社區(qū)免費贈送了一艘宇宙飛船,讓其他所有競爭者都不得不加緊腳步追趕。」

3FS 有什么用?  

Fire-Flyer File System 是一種高性能分布式文件系統(tǒng),專為解決 AI 訓練和推理工作負載的挑戰(zhàn)而設計。它利用現代 SSD 和 RDMA 網絡提供共享存儲層,簡化了分布式應用程序的開發(fā)。

3FS 的主要特點和優(yōu)勢包括:

(1) 性能和可用性

  • 分離式架構。結合了數千個 SSD 的吞吐量和數百個存儲節(jié)點的網絡帶寬,使應用程序能夠以不受位置限制的方式訪問存儲資源。
  • 強一致性。實現了帶有分配查詢的鏈式復制(CRAQ)以保證強一致性,使應用程序代碼簡單且易于理解。
  • 文件接口。開發(fā)了由事務性鍵值存儲(如 FoundationDB)支持的無狀態(tài)元數據服務。文件接口廣為人知且隨處可用。無需學習新的存儲 API。

(2) 多樣化工作負載

  • 數據準備。將數據分析管道的輸出組織成層次化的目錄結構,并高效管理大量中間輸出。
  • 數據加載器。通過支持跨計算節(jié)點對訓練樣本的隨機訪問,消除了預取或打亂數據集的需求。
  • 檢查點保存。支持大規(guī)模訓練的高吞吐量并行檢查點保存。
  • 用于推理的 KVCache。為基于 DRAM 的緩存提供了一種成本效益高的替代方案,提供高吞吐量和顯著更大的容量。

3FS 性能如何

(1) 峰值吞吐量

下圖展示了在大型 3FS 集群上進行讀取壓力測試的吞吐量。該集群由 180 個存儲節(jié)點組成,每個存儲節(jié)點配備 2×200Gbps InfiniBand 網卡和 16 個 14TiB NVMe SSD。大約 500+ 個客戶端節(jié)點用于讀取壓力測試 ,每個客戶端節(jié)點配置 1x200Gbps InfiniBand 網卡。在有訓練作業(yè)的背景流量情況下,最終聚合讀取吞吐量達到約 6.6 TiB/s。

(2) 灰度排序

DeepSeek 利用 GraySort 基準對 smallpond 進行了評估,該基準可衡量大規(guī)模數據集的排序性能。具體實現采用兩階段方法:(1) 使用鍵的前綴位通過 shuffle 對數據進行分區(qū),以及 (2) 分區(qū)內排序。兩個階段都從 3FS 讀取數據 / 向 3FS 寫入數據。

測試集群由 25 個存儲節(jié)點(2 個 NUMA 域 / 節(jié)點、1 個存儲服務 / NUMA、2×400Gbps NIC / 節(jié)點)和 50 個計算節(jié)點(2 個 NUMA 域、192 個物理核心、2.2 TiB RAM 和 1×200 Gbps NIC / 節(jié)點)組成。對 8192 個分區(qū)中的 110.5 TiB 數據進行排序耗時 30 分 14 秒,平均吞吐量為 3.66 TiB / 分鐘。

(3) KVCache

KVCache 是一種用于優(yōu)化 LLM 推理過程的技術。它通過在解碼器層中緩存先前 token 的 key 和 value 向量來避免冗余計算。

上圖展示了所有 KVCache 客戶端的讀取吞吐量,突出顯示了峰值和平均值,峰值吞吐量高達 40 GiB/s。下圖展示了同一時間段內垃圾回收 (GC) 中刪除操作的 IOPS。

開源周「收官之作」,網友撒花

通過連續(xù)一周的高強度開源,DeepSeek 已經收獲了一大波開發(fā)者的追隨。

有開發(fā)者表示,3FS 和 Smallpond 是在 AI 數據處理方面樹立了新標桿。

同時,OpenAI 剛剛發(fā)布的 GPT-4.5 也被拉出來對比價格:

最后,還有人許愿:DeepSeek V4、R2 和視頻模型什么時候有?

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2016-12-07 14:31:19

廣告系統(tǒng)架構機器學習

2009-09-17 08:34:18

Windows 7系統(tǒng)升級

2021-07-23 17:15:19

GitHub代碼開發(fā)者

2023-06-30 10:36:32

人工智能數字孿生

2011-06-07 16:57:05

2017-03-30 16:27:46

互聯網

2017-08-28 11:17:21

車廠共享單車

2017-01-04 12:00:23

智能運動

2023-06-13 10:44:51

Debian 11Debian 12

2021-06-09 14:48:04

自動駕駛數據人工智能

2019-05-20 13:59:16

無人自行車谷歌黑科技

2022-06-09 09:38:39

Cloudlets云存儲

2022-02-12 19:30:22

KDE PlasmaPlasma桌面

2022-11-01 11:40:52

Ubuntu22.0422.10

2024-08-16 15:38:52

2020-07-22 18:19:13

iOS 14地圖自行車路線

2023-08-11 14:00:42

鴻蒙元服務

2023-08-07 12:53:05

開發(fā)服務

2020-08-28 14:08:12

NTT Ltd虛擬自行車

2011-05-03 13:35:56

點贊
收藏

51CTO技術棧公眾號