大數(shù)據(jù)統(tǒng)一的批處理和流處理標(biāo)準(zhǔn) Apache Beam
Apache Beam 是 Apache 軟件基金會(huì)越來越多的數(shù)據(jù)流項(xiàng)目中***增添的成員,是 Google 在2016年2月份貢獻(xiàn)給 Apache 基金會(huì)的孵化項(xiàng)目。
這個(gè)項(xiàng)目的名稱表明了設(shè)計(jì):結(jié)合了批處理(Batch)模式和數(shù)據(jù)流(Stream)處理模式。它基于一種統(tǒng)一模式,用于定義和執(zhí)行數(shù)據(jù)并行處理管道(pipeline),這些管理隨帶一套針對(duì)特定語言的SDK用于構(gòu)建管道,以及針對(duì)特定運(yùn)行時(shí)環(huán)境的Runner用于執(zhí)行管道。
Apache Beam 的主要目標(biāo)是統(tǒng)一批處理和流處理的編程范式,為***,亂序,web-scale的數(shù)據(jù)集處理提供簡單靈活,功能豐富以及表達(dá)能力十分強(qiáng)大的SDK。Apache Beam項(xiàng)目重點(diǎn)在于數(shù)據(jù)處理的編程范式和接口定義,并不涉及具體執(zhí)行引擎的實(shí)現(xiàn),Apache Beam希望基于Beam開發(fā)的數(shù)據(jù)處理程序可以執(zhí)行在任意的分布式計(jì)算引擎上。