偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="ix0ti"></pre>

<wbr id="ix0ti"></wbr>

<tfoot id="ix0ti"><span id="ix0ti"><dd id="ix0ti"></dd></span></tfoot>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

使用Spark Streaming轉(zhuǎn)換不同的JSON有效負(fù)載

作者：黃顯東 2021-08-20 16:37:42

開發(fā) 開發(fā)工具 Spark

使用 Spark Streaming，你只需要從數(shù)據(jù)源創(chuàng)建一個(gè)讀流，這樣就可以創(chuàng)建寫入流將數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)源中。

【51CTO.com快譯】Spark Streaming 是底層基于 Spark Core 的對大數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算的框架，可以流方式從源讀取數(shù)據(jù)。只需要從數(shù)據(jù)源創(chuàng)建一個(gè)讀取流，然后我們可以創(chuàng)建寫入流以將數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)源中。

接下來的演示，將假設(shè)我們有不同的 JSON 有效負(fù)載進(jìn)入一個(gè) kafka 主題，我們需要將其轉(zhuǎn)換并寫入另一個(gè) kafka 主題。

創(chuàng)建一個(gè)ReadStream

為了能連續(xù)接收J(rèn)SON有效負(fù)載作為消息。我們需要首先讀取消息并使用spark的readstream創(chuàng)建數(shù)據(jù)幀。Spark 中提供了 readStream 函數(shù)，我們可以使用這個(gè)函數(shù)基本上創(chuàng)建一個(gè) readStream。這將從 kafka 主題中讀取流負(fù)載。

val df = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribe", "topic1")
.load()

我們可以創(chuàng)建一個(gè) case-class(例如CustomerUnion)，它將包含JSON有效負(fù)載的所有可能字段。這樣，我們就能在數(shù)據(jù)幀上運(yùn)行select查詢而不會(huì)失敗。

val rawDfValue = rawData.selectExpr("CAST(value AS STRING)").as[String]

val schema = ScalaReflection.schemaFor[CustomerUnion].dataType.asInstanceOf[StructType]

val extractedDFWithSchema = rawDfValue.select(from_json(col("value"), schema).as("data")).select("data.*")

extractedDFWithSchema.createOrReplaceTempView(“tempView”)

這將為我們提供一個(gè)數(shù)據(jù)幀提取的 DFWithSchema，其中包含作為有效負(fù)載字段的列。

示例輸入負(fù)載

這是兩個(gè)樣本輸入有效負(fù)載，但也可以有更多的有效負(fù)載，有些字段不存在(變量)。

{
“id”: 1234,
“firstName”:”Jon”,
“l(fā)astName”:”Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

{
“firstName”:”Jon”,
“l(fā)astName”:”Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

樣例輸出負(fù)載

根據(jù)id字段，我們將決定輸出有效負(fù)載。如果存在一個(gè) id 字段，我們將把它視為一個(gè)用戶更新案例，并且在輸出有效負(fù)載中只發(fā)送“Email”和“Phone”。我們可以根據(jù)某些條件配置任何字段。這只是一個(gè)例子。

如果 id 不存在，我們將發(fā)送所有字段。下面是兩個(gè)輸出載荷的示例：

{
“userid”: 1234,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

{
“fullname”:”Jon Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

開始WriteStreams

一旦我們有了數(shù)據(jù)幀，我們就可以運(yùn)行盡可能多的sql查詢，并根據(jù)所需的有效負(fù)載寫入 kafka 主題。因此，我們可以創(chuàng)建一個(gè)包含所有sql查詢的列表，并通過該列表進(jìn)行循環(huán)，并調(diào)用writeStream函數(shù)。讓我們假設(shè)，我們有一個(gè)名為 queryList 的列表，它只包含字符串(即sql查詢)。

下面為寫入流定義的一個(gè)函數(shù)：

def startWriteStream(query: String): Unit = {

val transformedDf = spark.sql(query)
transformedDf
.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")
.writeStream
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("topic", "topic1")
.start()

}

這將啟動(dòng)列表中每個(gè)查詢的寫入流。

queryList.foreach(startWriteStream)
spark.streams.awaitAnyTermination()

如果我們知道輸入有效負(fù)載的所有可能字段，那么即使有一些字段不存在，我們的sql查詢也不會(huì)失敗。我們已經(jīng)將有效負(fù)載的模式指定為case-class，它將為缺席字段創(chuàng)建指定 NULL 的數(shù)據(jù)幀。

通過這種方式，我們可以使用 spark-streaming 在所需的轉(zhuǎn)換/過濾器之后將多個(gè)有效負(fù)載從同一主題寫入不同的主題。

【51CTO譯稿，合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責(zé)任編輯：黃顯東來源： dzone.com

Spark Spark Streaming

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營