存儲和操作n維數(shù)據(jù)的難題，谷歌用一個開源軟件庫解決了

作者：新智元 2022-09-23 15:50:06

TensorStore 是專為存儲和操作 n 維數(shù)據(jù)而設(shè)計的開源軟件庫。

計算機(jī)科學(xué)和機(jī)器學(xué)習(xí) (ML) 的許多應(yīng)用都需要處理跨坐標(biāo)系的多維數(shù)據(jù)集，并且單個數(shù)據(jù)集可能也需要存儲 TB 或 PB 的數(shù)據(jù)。另一方面，使用此類數(shù)據(jù)集也具有挑戰(zhàn)性，因為用戶可能會以不規(guī)則的間隔和不同的規(guī)模讀取和寫入數(shù)據(jù)，通常還會執(zhí)行大量的并行工作。

為了解決上述問題，谷歌開發(fā)了一個開源的 C++ 和 Python 軟件庫 TensorStore，專為存儲和操作 n 維數(shù)據(jù)而設(shè)計。谷歌 AI 負(fù)責(zé)人 Jeff Dean 也在推特上發(fā)文表示 TensorStore 現(xiàn)已正式開源。

TensorStore 的主要功能包括：

提供統(tǒng)一的 API 用于讀寫多種數(shù)組格式，包括 zarr 和 N5；
原生支持多種存儲系統(tǒng)，包括谷歌云存儲、本地和網(wǎng)絡(luò)文件系統(tǒng)、HTTP 服務(wù)器和內(nèi)存存儲；
支持讀 / 寫緩存和事務(wù)，具有很強(qiáng)的原子性、隔離性、一致性和持久性（ACID）特性；
支持從多個進(jìn)程和機(jī)器進(jìn)行安全、高效的并發(fā)訪問；
提供異步 API 以實現(xiàn)對高延遲遠(yuǎn)程存儲的高吞吐量訪問；
提供高級、完全可組合的索引操作和虛擬視圖。

TensorStore 已被用于解決科學(xué)計算中的工程挑戰(zhàn)，還被用于創(chuàng)建大型機(jī)器學(xué)習(xí)模型，例如用來管理 PaLM 在分布式訓(xùn)練期間的模型參數(shù)（檢查點）。

GitHub 地址：https://github.com/google/tensorstore

用于數(shù)據(jù)訪問和操作的 API

TensorStore 提供了一個簡單的 Python API 用于加載和操作大型數(shù)組數(shù)據(jù)。例如，下面的代碼創(chuàng)建了一個 TensorStore 對象，該對象代表一個 56 萬億體素的蒼蠅大腦 3D 圖像，并允許訪問 NumPy 數(shù)組中 100x100 的圖像 patch 數(shù)據(jù)：

值得注意的是，該程序在訪問特定的 100x100 patch 之前，不會訪問內(nèi)存中的實際數(shù)據(jù)，因此可以加載和操作任意大的基礎(chǔ)數(shù)據(jù)集，而無需將整個數(shù)據(jù)集存儲在內(nèi)存中。TensorStore 使用與標(biāo)準(zhǔn) NumPy 基本相同的索引和操作語法。

此外，TensorStore 還為高級索引功能提供廣泛支持，包括對齊、虛擬視圖等。

下面的代碼演示了如何使用 TensorStore 創(chuàng)建一個 zarr 數(shù)組，以及 TensorStore 的異步 API 如何實現(xiàn)更高的吞吐量：

安全和性能擴(kuò)展

眾所周知，分析和處理大型數(shù)據(jù)集需要大量的計算資源，通常需要分布在多個機(jī)器上的 CPU 或加速器內(nèi)核的并行化來實現(xiàn)。因此，TensorStore 的一個基本目標(biāo)是實現(xiàn)并行處理，達(dá)到既安全又高性能的目的。事實上，在谷歌數(shù)據(jù)中心內(nèi)的測試中，他們發(fā)現(xiàn)隨著 CPU 數(shù)量的增加，TensorStore 讀寫性能幾乎呈線性增長：

在谷歌云存儲 (GCS) 上對 zarr 格式數(shù)據(jù)集的讀寫性能，讀和寫性能與計算任務(wù)的數(shù)量幾乎成線性增長。

TensorStore 還提供了可配置的內(nèi)存緩存和異步 API，以允許讀寫操作在程序完成其他工作時在后臺繼續(xù)執(zhí)行。為了使 TensorStore 的分布式計算與數(shù)據(jù)處理工作流兼容，谷歌還將 TensorStore 與 Apache Beam 等并行計算庫集成。

示例展示

示例 1 語言模型：最近一段時間，機(jī)器學(xué)習(xí)領(lǐng)域出現(xiàn)了一些 PaLM 等高級語言模型。這些模型包含數(shù)千億個參數(shù)，在自然語言理解和生成方面表現(xiàn)出驚人的能力。不過這些模型對計算設(shè)施提出了挑戰(zhàn)，特別是，訓(xùn)練一個像 PaLM 這樣的語言模型需要數(shù)千個 TPU 并行工作。

其中有效地讀取和寫入模型參數(shù)是訓(xùn)練過程面臨的一個問題：例如訓(xùn)練分布在不同的機(jī)器上，但參數(shù)又必須定時的保存到 checkpoint 中；又比如單個訓(xùn)練必須僅讀取特定參數(shù)集，以避免加載整個模型參數(shù)集（可能是數(shù)百 GB）所需的開銷。

TensorStore 可以解決上述問題。它已被用于管理大型（multipod）模型相關(guān)的 checkpoint，并已與 T5X 和 Pathways 等框架集成。TensorStore 將 Checkpoint 轉(zhuǎn)換為 zarr 格式存儲，并選擇塊結(jié)構(gòu)以允許每個 TPU 的分區(qū)并行獨立地讀取和寫入。

當(dāng)保存 checkpoint 時，參數(shù)以 zarr 格式寫入，塊網(wǎng)格進(jìn)一步被劃分，以用于在 TPU 上劃分參數(shù)網(wǎng)格。主機(jī)為分配給該主機(jī)的 TPU 的每個分區(qū)并行寫入 zarr 塊。使用 TensorStore 的異步 API，即使數(shù)據(jù)仍被寫入持久存儲，訓(xùn)練也會繼續(xù)進(jìn)行。當(dāng)從 checkpoint 恢復(fù)時，每個主機(jī)只讀取分配給該主機(jī)的分區(qū)塊。

示例 2 大腦 3D 映射：突觸分辨連接組學(xué)的目標(biāo)是在單個突觸連接水平上繪制動物和人腦的連線。完成這一目標(biāo)需要在毫米或更大的視野范圍內(nèi)以極高的分辨率 (納米級) 對大腦進(jìn)行成像，由此產(chǎn)生的數(shù)據(jù)大小達(dá)到 PB 級。然而，即使是現(xiàn)在，數(shù)據(jù)集也面臨著存儲、處理等方面的問題，即使是單個大腦樣本也可能需要數(shù)百萬 GB 的空間。

谷歌已經(jīng)使用 TensorStore 來解決與大規(guī)模連接組學(xué)數(shù)據(jù)集相關(guān)的計算挑戰(zhàn)。具體而言，TensorStore 已經(jīng)開始管理一些連接組學(xué)數(shù)據(jù)集，并將谷歌云存儲作為底層對象存儲系統(tǒng)。

目前，TensorStore 已被用于人類大腦皮層數(shù)據(jù)集 H01，原始成像數(shù)據(jù)為 1.4 PB（約為 500000 * 350000 * 5000 像素）。之后原始數(shù)據(jù)被細(xì)分為 128x128x16 像素的獨立塊，以「Neuroglancer precomputed」格式存儲，TensorStore 可以很容易的對其進(jìn)行操作。

利用 TensorStore 可以輕松訪問和操作底層數(shù)據(jù)（蒼蠅大腦重建）

想要上手一試的小伙伴，可以使用以下方法安裝 TensorStore PyPI 包：

pip install tensorstore

責(zé)任編輯：張燕妮來源：新智元

開源存儲

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

存儲和操作n維數(shù)據(jù)的難題，谷歌用一個開源軟件庫解決了

用于數(shù)據(jù)訪問和操作的 API

安全和性能擴(kuò)展

示例展示