大型機(jī)OpenTelemetry:優(yōu)先級洞察,問卷反饋深度解讀
OpenTelemetry大型機(jī)調(diào)查顯示,多數(shù)大型機(jī)用戶對OpenTelemetry不熟悉。優(yōu)先關(guān)注系統(tǒng)性能指標(biāo)、Java/Python/COBOL SDK及Collector支持,以提升可觀測性。
譯自:Exploring OpenTelemetry Priorities for Mainframes - Insights from Survey Responses
作者: Ruediger Schulze (IBM)
用戶認(rèn)為哪些 OpenTelemetry 功能對于增強(qiáng)大型機(jī)的可觀測性最為重要?今年早些時候,OpenTelemetry 大型機(jī)特別興趣小組(SIG)和 開放大型機(jī)項(xiàng)目進(jìn)行了一項(xiàng)調(diào)查以解決這個問題。本博客詳細(xì)介紹了此次調(diào)查的結(jié)果。
背景和目的
OpenTelemetry 項(xiàng)目旨在通過提供高質(zhì)量、可移植的遙測數(shù)據(jù),使其能夠從任何來源發(fā)送到任何目標(biāo),從而實(shí)現(xiàn)有效的可觀測性。該項(xiàng)目目前在 GitHub 上托管了 90 個存儲庫,涵蓋規(guī)范和實(shí)現(xiàn)。當(dāng) OpenTelemetry 大型機(jī) SIG 成立時,它的任務(wù)是為大型機(jī)啟用最重要的 OpenTelemetry 組件,并專注于三個關(guān)鍵領(lǐng)域:語義約定、編程語言 SDK 以及 OpenTelemetry Collector 的增強(qiáng)??紤]到 OpenTelemetry 項(xiàng)目的廣泛范圍和大型機(jī)復(fù)雜的架構(gòu),很快就顯而易見,深入了解用戶優(yōu)先級對于在大型機(jī)上充分利用 OpenTelemetry 功能至關(guān)重要?,F(xiàn)在調(diào)查結(jié)果已出,SIG 將優(yōu)先并實(shí)施有針對性的活動,以加速 OpenTelemetry 在大型機(jī)平臺上的采用。
主要見解
以下是確定大型機(jī) SIG 活動優(yōu)先級的關(guān)鍵見解:
1. 增強(qiáng)大型機(jī)社區(qū)內(nèi)的 OpenTelemetry 專業(yè)知識。在 26 位 OpenTelemetry 初學(xué)者中,有 21 位擁有十年以上的大型機(jī)經(jīng)驗(yàn),但仍有 11 位表示對 OpenTelemetry 功能一無所知。
2. 優(yōu)先處理系統(tǒng)性能指標(biāo)的語義約定,其次是作業(yè)處理、數(shù)據(jù)庫和應(yīng)用程序。在受訪者中,30 人希望 OpenTelemetry 首先關(guān)注指標(biāo),當(dāng)被問及指標(biāo)類別時,約 32 人強(qiáng)調(diào)系統(tǒng)指標(biāo)是主要優(yōu)先級。
3. 優(yōu)先為 z/OS 提供 Java 和 Python SDK,并開發(fā) COBOL SDK。所有希望獲得 Java (25) 和 Python (20) SDK 的受訪者也需要用于 z/OS 的 OpenTelemetry SDK。COBOL SDK 有 26 人提出要求,其重要性與 Java SDK 類似。
4. 評估使用 OpenTelemetry Collector 收集系統(tǒng)性能和平臺指標(biāo)的方法。根據(jù)回應(yīng),30 名參與者表示有興趣讓 OpenTelemetry Collector 在作為代理部署時收集系統(tǒng)性能和平臺指標(biāo)。28 人將大型機(jī)運(yùn)維確定為主要用戶,27 人認(rèn)為 OpenTelemetry 格式的系統(tǒng)性能指標(biāo)對其組織最重要。
貢獻(xiàn)方式
我們邀請貢獻(xiàn)者和組織加入 OpenTelemetry 大型機(jī) SIG。主導(dǎo)一項(xiàng)調(diào)查優(yōu)先級,成為 OpenTelemetry 項(xiàng)目的貢獻(xiàn)者。例如,參與我們的代碼檢測和移植計(jì)劃:
? 支持集成用于 linux/s390x 的自托管 GitHub action runners,以實(shí)現(xiàn)持續(xù)集成和交付,以及 OpenTelemetry 組件在 s390x 平臺上的自動化驗(yàn)證。
? 擴(kuò)展 zos/s390x 和 linux/s390x 上 SDK 的社區(qū)支持:確保選定的 OpenTelemetry SDK 在 z/OS 和 s390x 上的 Linux 上得到全面支持和維護(hù)。
? 為 s390x 平臺實(shí)施 SDK 優(yōu)化:為性能和兼容性改進(jìn)做出貢獻(xiàn),充分釋放 OpenTelemetry 在大型機(jī)上的潛力。
? 為 COBOL 啟用 OpenTelemetry 支持:協(xié)作開發(fā)強(qiáng)大的 COBOL SDK,賦予傳統(tǒng)應(yīng)用程序現(xiàn)代化的可觀測性能力。
方法論
本次調(diào)查分為兩個部分。第一部分收集了關(guān)于受訪者角色和背景的輸入。第二部分收集了受訪者組織在大型機(jī)上啟用 OpenTelemetry 的優(yōu)先級。受訪者總共被要求回答 20 個問題。調(diào)查從 1 月中旬開始開放了兩個月,并通過 OpenTelemetry 和開放大型機(jī)項(xiàng)目的博客以及大型機(jī)會議進(jìn)行推廣。調(diào)查收到了 45 份回應(yīng)。所有回應(yīng)都納入結(jié)果。僅進(jìn)行了最少的數(shù)據(jù)清洗。由于只有 45 份回應(yīng),樣本量過小,不足以得出具有統(tǒng)計(jì)代表性的結(jié)果。組織不應(yīng)以此為基礎(chǔ)做出決策。不過,本次調(diào)查提供了關(guān)于優(yōu)先級的一些初步見解,大型機(jī) SIG 將利用這些見解來指導(dǎo)其上述的一些活動。
綜合回應(yīng)
問題 1:您在組織中的主要角色是什么?
收到了來自不同角色的回應(yīng)。超過一半的回應(yīng)(26 份)來自經(jīng)理、IT 和軟件架構(gòu)師以及系統(tǒng)程序員(包括表示多個角色的回應(yīng))。他們中的大多數(shù)(22 份)擁有 10 年以上的大型機(jī)工作經(jīng)驗(yàn)。
組織內(nèi)的主要角色
問題 2:您擁有多少年大型機(jī)系統(tǒng)工作經(jīng)驗(yàn)?
大多數(shù)受訪者(33 人)擁有 10 年以上的大型機(jī)工作經(jīng)驗(yàn)。其中只有四人聲稱擁有 OpenTelemetry 專家或高級知識。相反,在六位大型機(jī)經(jīng)驗(yàn)不足四年的受訪者中,有四人自認(rèn)為是 OpenTelemetry 的專家或高級從業(yè)者??偟膩碚f,絕大多數(shù)回應(yīng)表明,調(diào)查參與者具有大型機(jī)背景。
大型機(jī)系統(tǒng)工作經(jīng)驗(yàn)?zāi)晗?/span>
問題 3:您組織所屬的主要行業(yè)是什么?
絕大多數(shù)受訪者來自金融服務(wù)業(yè)(45 份總回應(yīng)中的 22 份)。一小部分來自不同的物流業(yè)(總計(jì) 8 份)。13 名受訪者主要從事軟件和 IT 相關(guān)領(lǐng)域,例如軟件開發(fā)、獨(dú)立軟件供應(yīng)商 (ISV)、服務(wù)提供商、IBM zStack Software、可觀測性和信息技術(shù) (IT)。
組織所屬主要行業(yè)
問題 4:您使用以下哪些大型機(jī)平臺?
除了一個(專注于 IBM Z 上的 Linux)之外,所有受訪者都使用 z/OS 作為大型機(jī)操作系統(tǒng)。大約三分之一的受訪者(17 人)使用 IBM Z 上的 Linux。八名受訪者使用 z/VM 作為虛擬化平臺。一名受訪者聲稱使用所有操作系統(tǒng),包括 z/VSE 和 zTPF。
使用中的大型機(jī)平臺
問題 5:您使用哪些 z/OS 系統(tǒng)軟件?
大多數(shù)受訪者(38 人)使用 CICS 或 IMS 或兩者之一的事務(wù)處理系統(tǒng)。39 名調(diào)查參與者使用 Db2,31 名使用 VSAM,而一小部分受訪者也使用 ADABAS、IDMS、DVM 或 Datacom 作為數(shù)據(jù)后端。
使用中的 z/OS 系統(tǒng)軟件
問題 6:您對 OpenTelemetry 的熟悉程度如何?
OpenTelemetry 采用的初學(xué)者(26 人)在受訪者中占比最大。其中 15 人不熟悉任何 OpenTelemetry 功能或組件。只有三人自認(rèn)為是專家,而所有具有中級知識的參與者也聲稱熟悉 OpenTelemetry Collector。
對 OpenTelemetry 的熟悉程度
問題 7:您熟悉 OpenTelemetry 的哪些功能和組件?
大約一半的調(diào)查參與者熟悉 OpenTelemetry 指標(biāo) (24) 和 OpenTelemetry Collector (22)。在信號類型方面,雖然指標(biāo)在受訪者熟悉度中領(lǐng)先,但日志 (20) 和分布式追蹤 (17) 緊隨其后。上下文傳播和采樣作為與分布式追蹤相關(guān)的補(bǔ)充技術(shù),知名度略低。代碼檢測(零代碼和手動)僅被大約四分之一的受訪者了解。語義約定和 API 規(guī)范也同樣如此。只有少數(shù)參與者表現(xiàn)出對 Kubernetes Operator 和開放代理管理協(xié)議的熟悉度,并且這些參與者自認(rèn)為是至少具有 OpenTelemetry 中級知識,如果不是高級或?qū)<壹墑e的話。
對 OpenTelemetry 功能和組件的熟悉程度
四分之三的受訪者聲稱使用可觀測性或性能監(jiān)控工具(35 人)。大多數(shù)用戶對大型機(jī)平臺具有可見性(30 人)。在使用分布式和大型機(jī)平臺工具的受訪者組(19 人)中,三分之二聲稱花費(fèi)超過 20% 的時間進(jìn)行可觀測性和監(jiān)控活動(13 人),其中五人幾乎全職從事這些活動(超過 80% 的時間)。
可觀測性或性能監(jiān)控工具的使用情況
問題 8:您花費(fèi)多少時間進(jìn)行可觀測性或性能監(jiān)控活動?
大約四分之一的受訪者(11 人)將超過 60% 的時間投入到可觀測性和性能監(jiān)控活動中。大多數(shù)調(diào)查參與者(19 人)參與這些活動的時間少于 20%,這可以歸因于他們工作角色的性質(zhì)。其中 12 人聲稱對 OpenTelemetry 的熟悉程度高于初學(xué)者水平。
用于可觀測性或性能監(jiān)控活動的時間
問題 9:您組織可觀測性策略的關(guān)鍵特征是什么?
實(shí)時分析 (35) 和端到端可見性 (33) 是受訪者組織的主要目標(biāo),其次是開放標(biāo)準(zhǔn) (26) 及其實(shí)現(xiàn)的能力:上下文和關(guān)聯(lián) (22)、工具選擇的靈活性 (19) 和統(tǒng)一數(shù)據(jù)處理 (19)。碳核算由一位受訪者明確添加。
組織可觀測性策略的關(guān)鍵特征
問題 10:您首先需要 OpenTelemetry 格式在大型機(jī)上支持哪種信號類型?
在調(diào)查參與者中,指標(biāo)是 OpenTelemetry 在大型機(jī)上支持的最重要的信號類型(30 人),其次是日志(20 人)和追蹤(18 人)。
信號類型優(yōu)先級
問題 11:在您的組織中,誰將是 OpenTelemetry 格式大型機(jī)遙測數(shù)據(jù)的主要用戶?
受訪者認(rèn)為大型機(jī)運(yùn)維是 OpenTelemetry 格式大型機(jī)遙測數(shù)據(jù)的主要用戶。在將大型機(jī)運(yùn)維置于優(yōu)先地位的受訪者群體中,80% 的人擁有七年以上的大型機(jī)工作經(jīng)驗(yàn)。值得注意的是,22 人擁有十年以上的工作經(jīng)驗(yàn),這表明即使在那些經(jīng)驗(yàn)豐富的平臺用戶中,也強(qiáng)烈傾向于簡化大型機(jī)遙測數(shù)據(jù)的消費(fèi)方式。SRE (21) 和應(yīng)用程序開發(fā)人員 (19) 構(gòu)成了預(yù)計(jì)將從 OpenTelemetry 格式大型機(jī)遙測數(shù)據(jù)中受益的第二組用戶,其次是組織各個領(lǐng)域的其他角色。
組織中的主要用戶
問題 12:對您的組織來說,哪類指標(biāo)以 OpenTelemetry 格式發(fā)出最為重要?
對于大多數(shù)受訪者來說,OpenTelemetry 對系統(tǒng)性能指標(biāo)(32 個)的支持,結(jié)合各種其他工作負(fù)載和基礎(chǔ)設(shè)施相關(guān)指標(biāo),最為重要。作業(yè)和批處理(27 個)、數(shù)據(jù)庫(27 個)和應(yīng)用程序(27 個)指標(biāo)被調(diào)查參與者認(rèn)為同等重要,其次是網(wǎng)絡(luò)(24 個)、I/O(21 個)、存儲(20 個)和容量規(guī)劃(19 個)的基礎(chǔ)設(shè)施指標(biāo)。雖然其他指標(biāo)領(lǐng)域收到的選擇較少,但結(jié)果突出表明了對支持這些領(lǐng)域也存在相當(dāng)大的興趣。例如,多名受訪者表示對 DevOps 和 CI/CD 指標(biāo)以及環(huán)境、能源和可持續(xù)性指標(biāo)感興趣。
按類別劃分的指標(biāo)重要性
問題 13:在您的組織中,以 OpenTelemetry 格式導(dǎo)出大型機(jī)遙測數(shù)據(jù)的主要用例是什么?
在端到端可見性已被確定為組織可觀測性策略的重要目標(biāo)之后,受訪者在列出 OpenTelemetry 支持大型機(jī)遙測數(shù)據(jù)的用例時再次證實(shí)了這一點(diǎn)??缰憛^(qū)的端到端可見性 (28) 和改進(jìn)的事件管理 (28) 被視為主要用例。列出的其他用例對至少四分之一的調(diào)查參與者來說很重要,其中一些用例,例如優(yōu)化應(yīng)用程序性能 (22) 和主動問題發(fā)現(xiàn)和預(yù)測分析 (21),甚至與近一半的受訪者相關(guān)。碳核算獲得了一票,因?yàn)樗灰晃皇茉L者添加為重要用例。
主要用例
問題 14:對于哪種應(yīng)用程序部署模型,您最需要使用 OpenTelemetry 進(jìn)行檢測?
調(diào)查參與者希望 OpenTelemetry 檢測優(yōu)先用于在線事務(wù)處理 (30),其次是批處理 (23)、以數(shù)據(jù)庫為中心的應(yīng)用程序 (19) 和其他應(yīng)用程序部署模型。分析和 AI 工作負(fù)載 (10) 以及云原生、容器化工作負(fù)載 (7) 的檢測是一些受訪者關(guān)注的焦點(diǎn),這突顯了大型機(jī)上新應(yīng)用程序部署模型日益增長的使用。
按應(yīng)用程序部署模型劃分的優(yōu)先級
問題 15:您的組織需要 OpenTelemetry 現(xiàn)有哪些 SDK 支持大型機(jī)?
Java (25) 和 Python (20) 是在大型機(jī)平臺上實(shí)現(xiàn) OpenTelemetry SDK 支持的優(yōu)先級最高的兩種編程語言。20% 的受訪者希望 C++ 的 SDK 也能在大型機(jī)平臺上使用。
OpenTelemetry SDK 的優(yōu)先級
問題 16:您的組織還需要 OpenTelemetry 支持哪些其他語言的 SDK?
COBOL 是大多數(shù)受訪者(26 人)希望為大型機(jī)開發(fā) OpenTelemetry SDK 的編程語言。COBOL 的 SDK 主要由擁有七年以上大型機(jī)經(jīng)驗(yàn)的調(diào)查參與者提出,但也由五位經(jīng)驗(yàn)不足三年的受訪者提出。超過 40% 的受訪者在調(diào)查回應(yīng)中要求提供 REXX 和 JCL 的 SDK。超過四分之一的調(diào)查參與者要求提供 HLASM 的 OpenTelemetry SDK,20% 的人要求提供 PL/1 和 C 的 SDK。三人表示對 Metal C 的 SDK 感興趣。
對大型機(jī)語言支持的需求
問題 17:您的組織需要 OpenTelemetry SDK 支持哪些大型機(jī)操作系統(tǒng)?
根據(jù)受訪者使用的操作系統(tǒng),他們表示對這些相應(yīng)平臺的 OpenTelemetry SDK 感興趣。z/OS 作為 OpenTelemetry SDK 的支持平臺對受訪者來說最重要 (35),其次是 IBM Z 上的 Linux (13),以及一個針對 zTPF 的單一選擇。
支持 OpenTelemetry SDK 的操作系統(tǒng)優(yōu)先級
問題 18:OpenTelemetry Collector 的哪些功能對您的組織啟用大型機(jī)遙測數(shù)據(jù)的處理和分發(fā)最感興趣?
OpenTelemetry Collector 的數(shù)據(jù)收集功能對調(diào)查參與者來說最重要。在回應(yīng)中,使用 Collector 以代理部署方式進(jìn)行源本地收集 (20) 和使用接收器從任何系統(tǒng)收集 (19) 的得分最高。此外,指標(biāo)的數(shù)據(jù)聚合是受訪者高度重視的功能 (20)。數(shù)據(jù)處理 (15) 和導(dǎo)出 (16)、追蹤采樣 (14) 和網(wǎng)關(guān)部署 (14) 也引起了超過 30% 受訪者的興趣?;谟布膲嚎s和加密對九位調(diào)查參與者來說很重要。
OpenTelemetry Collector 功能的優(yōu)先級
問題 19:您設(shè)想 OpenTelemetry Collector 在大型機(jī)上的系統(tǒng)級遙測數(shù)據(jù)收集和處理有哪些用例?
在評估 OpenTelemetry Collector 時,受訪者將系統(tǒng)性能和平臺指標(biāo)的收集列為最重要的用例(30)。大約一半的調(diào)查參與者認(rèn)為系統(tǒng)日志的收集和大型機(jī)對資源檢測的支持很重要。部分受訪者關(guān)注來自 Kubernetes 和容器運(yùn)行時的數(shù)據(jù)收集,并且他們對將 OpenTelemetry Collector 用于這些用例很感興趣。
OpenTelemetry Collector 遙測數(shù)據(jù)收集按類別劃分的優(yōu)先級
總結(jié)
調(diào)查結(jié)果顯示,大多數(shù)大型機(jī)從業(yè)者對 OpenTelemetry 尚不熟悉,并優(yōu)先考慮系統(tǒng)性能指標(biāo)的采用。此外,對 Java、Python 和 COBOL SDK 以及 Collector 支持有需求。這些發(fā)現(xiàn)強(qiáng)調(diào)了教育、語義約定以及將 OpenTelemetry 組件移植到大型機(jī)平臺的有針對性工作的重要性。
加入 OpenTelemetry 大型機(jī) SIG,為語言 SDK、檢測和社區(qū)專業(yè)知識做出貢獻(xiàn),這將加速 OpenTelemetry 在大型機(jī)上的采用。通過 Slack 頻道 #otel-mainframes 或太平洋時間周三上午 10:00 的 SIG 會議與 SIG 成員聯(lián)系。




















