機(jī)器學(xué)習(xí)模型太大難部署?這里有 3 個解決方案
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
雖然因“疫情”的影響,讓技術(shù)人群放棄了聚會,減少了面對面溝通,但他們對于學(xué)習(xí)和交流的渴望從未停歇過。為此華為特別推出了#Σco時間#系列欄目,以線上直播+互動的形式,共話技術(shù)變革與行業(yè)轉(zhuǎn)型。
3月4日下午3點,本期#Σco時間#聚焦的話題是“大數(shù)據(jù)存算是‘分’還是‘合’,您做對了嗎?”——華為智能數(shù)據(jù)與存儲分布式存儲高級營銷專家崔玉祥來到了華為“智能數(shù)據(jù)基礎(chǔ)設(shè)施「學(xué)數(shù)派」”直播間,分享了華為如何看待存算分離的價值,以及華為大數(shù)據(jù)的存算分離解決方案和應(yīng)用實踐,并與上千位線上嘉賓探討了存算分離技術(shù)的發(fā)展趨勢和市場前景。
數(shù)字經(jīng)濟(jì)時代,大數(shù)據(jù)架構(gòu)走向存算分崔玉祥介紹道,在數(shù)字經(jīng)濟(jì)時代,數(shù)據(jù)已經(jīng)成為新的生產(chǎn)資料,并從數(shù)據(jù)管理走向數(shù)據(jù)運營,大數(shù)據(jù)正發(fā)揮著越來越重要的作用,數(shù)據(jù)驅(qū)動體驗、數(shù)據(jù)驅(qū)動決策、數(shù)據(jù)驅(qū)動流程的各種應(yīng)用每天都在不斷上演。隨著5G和AI技術(shù)的發(fā)展,數(shù)據(jù)量必將迎來爆發(fā)式的增長,在這樣的形勢下,傳統(tǒng)的大數(shù)據(jù)存算一體架構(gòu),在多個行業(yè)都面臨著資源利用率不均、存儲成本高、資源共享難的挑戰(zhàn)。
以國內(nèi)電信運營商為例,每年市場采購金額高達(dá)上億元,但是如此巨大的投資在支持電信業(yè)務(wù)的同時,也帶來了計算資源浪費,龐大的服務(wù)器設(shè)備占據(jù)機(jī)房空間導(dǎo)致制冷供電費用高漲等諸多挑戰(zhàn),“降本增效”成為電信運營商的重要訴求。而同樣的,提升資源利用率,部署彈性靈活,按需調(diào)度計算資源這些訴求,也成為金融、政務(wù)領(lǐng)域用戶亟待解決的課題。
如何化解這么多挑戰(zhàn)?崔玉祥認(rèn)為,計算存儲分離是大數(shù)據(jù)架構(gòu)演進(jìn)的必然趨勢,也是解決行業(yè)用戶數(shù)據(jù)痛點的一大利器。他解釋道,在Hadoop1.0時代,計算和存儲是高度融合的,僅能處理單一的MapReduce分析業(yè)務(wù);到了Hadoop2.0時代,計算層與數(shù)據(jù)開始解耦,通過Yarn實現(xiàn)了獨立的資源管理,并開始支持Spark等更多的計算引擎;而如今已經(jīng)到了Hadoop3.0時代,計算存儲走向分離,通過Hadoop EC來支持冷數(shù)據(jù)的存儲,逐步向數(shù)據(jù)湖架構(gòu)演進(jìn)。“存算分離其實更適合企業(yè)級市場,它實現(xiàn)了資源云化和靈活擴(kuò)展,能夠讓用戶享受更專業(yè)的存儲,更佳的可靠性和利用率。”
三大優(yōu)勢令華為OceanStor分布式存儲更懂用戶
在2019年,華為創(chuàng)新性地推出了大數(shù)據(jù)存算分離解決方案,崔玉祥向觀看嘉賓詳細(xì)講解了華為OceanStor分布式存儲,一個能夠打造更高性價比的大數(shù)據(jù)存儲方案。簡直就是為多樣式存儲和超大數(shù)據(jù)量的用戶量身定制。“簡單總結(jié),華為OceanStor分布式存儲最鮮明的三個特點就是成本最優(yōu)、效率最高、使用最簡。”
【成本最優(yōu)】在成本方面,華為OceanStor分布式存儲實現(xiàn)存算分離,資源按需獨立擴(kuò)展,彈性EC+分級,存儲成本大幅降低。“性能、可靠性和HDFS三副本相當(dāng),但是存儲利用率相比三副本提升1.75倍,”崔玉祥還特別指出,OceanStor分布式存儲可以通過自動生命周期管理獲得更佳的性價比,且計算側(cè)無感知。用戶可以定義不同的數(shù)據(jù)寫入策略,使不同類型的應(yīng)用讀寫不同的存儲池,實現(xiàn)資源的物盡其用;用戶還可以定義數(shù)據(jù)遷移策略,實現(xiàn)熱、溫、冷數(shù)據(jù)的自動轉(zhuǎn)換,降低整體TCO。
他以上文中提到的電信運營商為例,運營商日志留存場景下,計算利用率為30%時,總?cè)萘啃枨蟠笥?56TB 時,改用存算分離方案會有TCO優(yōu)勢;總?cè)萘啃枨蟠笥?PB時,存算分離方案的TCO節(jié)省會達(dá)到40%以上。
【效率最高】在數(shù)據(jù)應(yīng)用效率方面,華為OceanStor分布式存儲采用全對稱分布式NameNode,集群性能和支持文件數(shù)隨節(jié)點數(shù)目增加,單一命名空間支持文件數(shù)達(dá)百億級。不僅如此,華為還實現(xiàn)了多集群數(shù)據(jù)融合互通,提升數(shù)據(jù)共享和分析效率,協(xié)議互通更是提升了分析效率30%,降低空間占用50%。“在一家金融客戶的應(yīng)用測試中,基于相同的計算和存儲硬件配置,OceanStor存儲存算分離方案在大部分測試中,性能均超過了原生HDFS三副本,部分測試項的執(zhí)行時間甚至降低了70%以上。”
【使用最簡】在實際操作運維方面,華為原生HDFS接口提供了更佳性能和使用體驗,例如完整HDFS語義100%兼容主流大數(shù)據(jù)組件,用戶無需安裝插件,安裝維護(hù)簡單。更重要的是,通過ViewFS或Hbase元數(shù)據(jù)網(wǎng)關(guān)方式可以實現(xiàn)新老共存,保護(hù)用戶已有投資,系統(tǒng)級數(shù)據(jù)冗余保護(hù)能夠支持4節(jié)點同時失效。崔玉祥特別強(qiáng)調(diào),即使發(fā)生節(jié)點故障,華為OceanStor分布式存儲也能夠自動調(diào)整EC級別,確保新寫入數(shù)據(jù)可靠性不下降,與此同時,多節(jié)點并行重構(gòu),可實現(xiàn)2TB/小時數(shù)據(jù)恢復(fù)效率。
存算分離,助力千行百業(yè)大數(shù)據(jù)進(jìn)階
自2019年以來,華為OceanStor分布式存儲解決方案已經(jīng)被廣泛應(yīng)用在電信、金融、政務(wù)、大型企業(yè)各個領(lǐng)域中。在本次直播活動中,崔玉祥專門分享了兩個有代表性的應(yīng)用案例。
在江蘇,原有的政務(wù)系統(tǒng)大多采用的是煙囪化部署,數(shù)據(jù)孤島比比皆是。然而隨著數(shù)據(jù)量快速增長,江蘇決定基于華為存算分離解決方案開始打造分層解耦、高效共享的大數(shù)據(jù)平臺。華為幫助江蘇政務(wù)系統(tǒng)打造了一個統(tǒng)一大數(shù)據(jù)平臺,可以同時支撐多種業(yè)務(wù),實現(xiàn)部門間數(shù)據(jù)快速共享,實現(xiàn)政務(wù)服務(wù)“最多跑一次”。在部署中,存算分離就大顯身手,加上計算資源和存儲資源云化,實現(xiàn)了資源靈活分配,業(yè)務(wù)上線時間縮短90% 。同時,借助OceanStor分布式存儲的彈性EC技術(shù),將存儲利用率從33% 提升到91.6%,從容應(yīng)對數(shù)據(jù)快速增長的挑戰(zhàn)。
在河北電信,已部署安裝了89臺存算一體的大數(shù)據(jù)集群,整體存儲空間使用率已超80%,存儲空間不足,經(jīng)常需要通過刪除數(shù)據(jù)的方式釋放存儲空間。而且現(xiàn)有機(jī)房空間緊張,僅能容納135臺2U服務(wù)器,按原有存算一體方式擴(kuò)容,機(jī)房空間無法滿足要求。對此,華為創(chuàng)新性地采用存算一體+存算分離共存的方案,擴(kuò)容100個計算節(jié)點+35個存儲節(jié)點,使用Hadoop數(shù)據(jù)聯(lián)邦方案(ViewFS),既解決了新老共存問題,又實現(xiàn) 了性能和容量的均衡擴(kuò)展,相比原始方案提升60%可用容量。崔玉祥指出,存算分離方案無縫擴(kuò)容,數(shù)據(jù)均衡讀寫,用戶既不需要升級現(xiàn)網(wǎng)大數(shù)據(jù)版本,也不需要遷移現(xiàn)網(wǎng)數(shù)據(jù)。
相信通過本次直播活動,及華為大咖帶來的精彩分享,行業(yè)用戶對于存算分離將會有更加深刻的認(rèn)識,對于如何選擇合適自己的存算分離解決方案,也能做到心中有數(shù)了。