使用時間序列數(shù)據(jù),用開源工具助力你的邊緣項目
收集到的隨時間變化的數(shù)據(jù)稱為時間序列數(shù)據(jù)。今天,它已經(jīng)成為每個行業(yè)和生態(tài)系統(tǒng)的一部分。它是不斷增長的物聯(lián)網(wǎng)行業(yè)的一大組成部分,將成為人們?nèi)粘I畹闹匾糠?。但時間序列數(shù)據(jù)及其需求很難處理。這是因為沒有專門為處理時間序列數(shù)據(jù)而構(gòu)建的工具。在這篇文章中,我將詳細(xì)介紹這些問題,以及過去 10 年來 InfluxData 如何解決這些問題。
InfluxData
InfluxData 是一個開源的時間序列數(shù)據(jù)庫平臺。你可能通過 ??InfluxDB?? 了解該公司,但你可能不知道它專門從事時間序列數(shù)據(jù)庫開發(fā)。這很重要,因為在管理時間序列數(shù)據(jù)時,你要處理兩個問題:存儲生命周期和查詢。
在存儲生命周期中,開發(fā)人員通常首先收集和分析非常詳細(xì)的數(shù)據(jù)。但開發(fā)人員希望存儲較小的、降低采樣率的數(shù)據(jù)集,以描述其趨勢,而不占用太多的存儲空間。
查詢數(shù)據(jù)庫時,你不希望基于 ID 查詢數(shù)據(jù),而是希望基于時間范圍進行查詢。使用時間序列數(shù)據(jù)最常見的一件事是在一段時間內(nèi)對其進行匯總。在典型的關(guān)系型數(shù)據(jù)庫中存儲數(shù)據(jù)時,這種查詢是很慢的,這種數(shù)據(jù)庫使用行和列來描述不同數(shù)據(jù)點的關(guān)系。專門為處理時間序列數(shù)據(jù)而設(shè)計的數(shù)據(jù)庫可以更快地處理這類查詢。InfluxDB 有自己的內(nèi)置查詢語言:Flux,這是專門為查詢時間序列數(shù)據(jù)集而構(gòu)建的。

Telegraf 如何工作的圖像
數(shù)據(jù)采集
數(shù)據(jù)采集和數(shù)據(jù)處理都有一些很棒的工具。InfluxData 有 12 個以上的客戶端庫,允許你使用自己選擇的編程語言編寫和查詢數(shù)據(jù)。這是自定義用法的一個很好的工具。開源攝取代理 Telegraf 包括 300 多個輸入和輸出插件。如果你是一個開發(fā)者,你也可以貢獻自己的插件。
InfluxDB 還可以接受上傳小體積歷史數(shù)據(jù)集的 CSV 文件,以及大數(shù)據(jù)集的批量導(dǎo)入。
Flux
Flux 是我們的內(nèi)部查詢語言,從零開始建立,用于處理時間序列數(shù)據(jù)。它也是我們一些工具的基礎(chǔ)動力,包括 任務(wù)task、警報alert 和 通知notification。要剖析上面的 Flux 查詢,需要定義一些東西。首先,“桶bucket”就是我們所說的數(shù)據(jù)庫。你可以配置存儲桶,然后將數(shù)據(jù)流添加到其中。查詢會調(diào)用 ??smartcity?? 存儲桶,其范圍為特定的一天(準(zhǔn)確地說是 24 小時)。你可以從存儲桶中獲取所有數(shù)據(jù),但大多數(shù)用戶都包含一個數(shù)據(jù)范圍。這是你能做的最基本的 Flux 查詢。
接下來,我添加過濾器,將數(shù)據(jù)過濾到更精確、更易于管理的地方。例如,我過濾分配給 id 為 3 的社區(qū)中的自行車數(shù)量。從那里,我使用 ??aggregateWindow?? 獲取每小時的平均值。這意味著我希望收到一個包含 24 列的表,每小時一列。我也對 id 為 4 的社區(qū)進行同樣的查詢。最后,我將這兩張表相疊加,得出這兩個社區(qū)自行車使用量的差異。
如果你想知道什么時候是交通高峰,這是不錯的選擇。顯然,這只是 Flux 查詢功能的一個小例子。但它提供了一個很好的例子,使用了 Flux 附帶的一些工具。我還有很多的數(shù)據(jù)分析和統(tǒng)計功能。但對于這一點,我建議查看 Flux 文檔。
任務(wù)
InfluxDB 任務(wù)task 是一個定時 Flux 腳本,它接收輸入數(shù)據(jù)流并以某種方式修改或分析它。然后,它將修改后的數(shù)據(jù)存儲在新的存儲桶中或執(zhí)行其他操作。將較小的數(shù)據(jù)集存儲到新的存儲桶中,稱為“降采樣downsampling”,這是數(shù)據(jù)庫的核心功能,也是時間序列數(shù)據(jù)生命周期的核心部分。
你可以在當(dāng)前任務(wù)示例中看到,我已經(jīng)對數(shù)據(jù)進行了降采樣。我得到每 10 分鐘增量的最后一個值,并將該值存儲在降采樣桶中。原始數(shù)據(jù)集在這 10 分鐘內(nèi)可能有數(shù)千個數(shù)據(jù)點,但現(xiàn)在降采樣桶只有 60 個新值。需要注意的一點是,我還使用了范圍內(nèi)的 ??lastSuccess?? 函數(shù)。這會告訴 InfluxDB 從上次成功運行的時間開始運行此任務(wù),以防它在過去 2 小時內(nèi)失敗,在這種情況下,它可以追溯 3 個小時內(nèi)的最后一次成功運行。這對于內(nèi)置錯誤處理非常有用。

檢查和警報通知系統(tǒng)的圖像
檢查和警報
InfluxDB 包含一個 警報Alert 或 檢查Check 和 通知notification
許多人選擇設(shè)置通知。為此,你需要定義一個 通知端點notification endpoint。例如,聊天應(yīng)用程序可以進行 HTTP 調(diào)用以接收通知。然后你定義何時接收通知,例如,你可以每小時運行一次檢查。你可以每 24 小時運行一次通知。你可以讓通知響應(yīng)值更改,例如,“WARN”更改為“CRITICAL”,或者當(dāng)值為“CRITICAL”時,無論如何都從“OK”更改為“WARN”。這是一個高度可定制的系統(tǒng)。從這個系統(tǒng)創(chuàng)建的 Flux 代碼也可以編輯。

新 Edge 功能的圖像
邊緣
最后,我想把所有的核心功能放在一起,包括最近發(fā)布的一個非常特別的新功能?!癊dge to cloud” 是一個非常強大的工具,允許你運行開源 InfluxDB,并在出現(xiàn)連接問題時在本地存儲數(shù)據(jù)。連接修復(fù)后,它會將數(shù)據(jù)流傳輸?shù)?InfluxData 云平臺。
這對于邊緣設(shè)備和重要數(shù)據(jù)非常重要,因為任何數(shù)據(jù)丟失都是有害的。你定義一個要復(fù)制到云的存儲桶,然后該存儲桶有一個磁盤支持的隊列來本地存儲數(shù)據(jù)。然后定義云存儲桶應(yīng)該復(fù)制到的內(nèi)容。在連接到云端之前,數(shù)據(jù)都存儲在本地。
InfluxDB 和物聯(lián)網(wǎng)邊緣
假設(shè)你有一個項目,你想使用連接到植物上的物聯(lián)網(wǎng)傳感器 ??監(jiān)測家里植物的健康狀況??。該項目是使用你的筆記本電腦作為邊緣設(shè)備設(shè)置的。當(dāng)你的筆記本電腦合上或關(guān)閉時,它會在本地存儲數(shù)據(jù),然后在重新連接時將數(shù)據(jù)流傳到我的云存儲桶。

圖片展示了 Plant buddy 的工作方式
需要注意的一點是,在將數(shù)據(jù)存儲到復(fù)制桶之前,這會對本地設(shè)備上的數(shù)據(jù)進行降采樣。你的植物傳感器每秒提供一個數(shù)據(jù)點。但它將數(shù)據(jù)壓縮為一分鐘的平均數(shù),因此存儲的數(shù)據(jù)更少了。在云賬戶中,你可以添加一些警報和通知,讓你知道植物的水分何時低于某個水平,需要澆水。也可以在網(wǎng)站上使用視覺效果來告訴用戶植物的健康狀況。
數(shù)據(jù)庫是許多應(yīng)用程序的主干。在像 InfluxDB 的時間序列數(shù)據(jù)庫平臺中使用帶有時間戳的數(shù)據(jù)可以節(jié)省開發(fā)人員的時間,并使他們能夠訪問各種工具和服務(wù)。InfluxDB 的維護者喜歡看到人們在我們的開源社區(qū)中構(gòu)建什么,所以請與我們聯(lián)系,并與其他人共享你的項目和代碼!















 
 
 











 
 
 
 