?譯者 | 崔皓
審校 | 孫淑娟
開篇
機(jī)器學(xué)習(xí)并不是一項(xiàng)深?yuàn)W的技術(shù)。正如在復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)中多參數(shù)和超參數(shù)的方法只是認(rèn)知計(jì)算的一種表現(xiàn)形式,看上去也沒有那么深?yuàn)W。
還存在其他一些機(jī)器學(xué)習(xí)的種類(一些涉及到深度神經(jīng)網(wǎng)絡(luò)),這類機(jī)器學(xué)習(xí)的模型結(jié)果、模型的確定以及影響模型的復(fù)雜性都表現(xiàn)得非常透明。
所有這些都取決于組織對其數(shù)據(jù)來源的理解程度。
換句話說,需要了解從模型訓(xùn)練數(shù)據(jù)到生產(chǎn)數(shù)據(jù)模型過程中的一切。這也是解釋、改進(jìn)和改進(jìn)其結(jié)果不可或缺的部分。通過這種方式讓組織極大地提升模型的商業(yè)價(jià)值。
更重要的是,還進(jìn)一步提高了這項(xiàng)技術(shù)的公平性、問責(zé)性和透明度,對于整個(gè)社會而言也更加可靠、更加完善。
Databricks營銷副總裁Joel Minnick承認(rèn):“這就是為什么您需要對數(shù)據(jù)的上游和下游進(jìn)行細(xì)粒度的了解,以便能夠負(fù)責(zé)任地進(jìn)行機(jī)器學(xué)習(xí)?!?/p>
為數(shù)據(jù)沿襲編制目錄
針對模型的數(shù)據(jù)訓(xùn)練和數(shù)據(jù)生成會涉及到數(shù)據(jù)源、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)集成等多項(xiàng)技術(shù)。在成熟的數(shù)據(jù)目錄方案中,可以實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)捕獲,因此可以隨時(shí)監(jiān)控進(jìn)度從而了解模型的執(zhí)行進(jìn)度?!八茏屛仪宄私庠谀P椭惺褂脭?shù)據(jù)的上下文情況。同時(shí),你還可以知道,這些數(shù)據(jù)是從哪里來的?我們從中獲得了哪些其他數(shù)據(jù)?它是什么時(shí)候產(chǎn)生的?這樣我就可以更好地理解我應(yīng)該如何使用這些數(shù)據(jù)”,數(shù)據(jù)科學(xué)家Minnick 如是說。
“數(shù)據(jù)沿襲”(記錄數(shù)據(jù)源頭、移動(dòng)、處理過程)由元數(shù)據(jù)組成,而數(shù)據(jù)目錄用來存儲有關(guān)數(shù)據(jù)集。目錄還使用戶能夠?qū)?biāo)簽和其他描述符作為附加元數(shù)據(jù),其可以幫助追溯數(shù)據(jù)來源和建立數(shù)據(jù)信任。正如 Minnick 所描述的“數(shù)據(jù)沿襲”可以生成“API 驅(qū)動(dòng)的服務(wù)”,通過這些服務(wù)連接一系列平臺(包括數(shù)據(jù)科學(xué)家平臺、數(shù)據(jù)工程師平臺和終端用戶平臺)。
數(shù)據(jù)治理:為數(shù)據(jù)科學(xué)而生
數(shù)據(jù)訓(xùn)練和數(shù)據(jù)操作的可追溯性提升會影響到機(jī)器學(xué)習(xí)模型結(jié)果,而模型結(jié)果又和數(shù)據(jù)科學(xué)領(lǐng)域中的數(shù)據(jù)治理息息相關(guān)。因此,數(shù)據(jù)治理和創(chuàng)建、部署模型的數(shù)據(jù)科學(xué)平臺存在千絲萬縷的聯(lián)系?!凹寄芄芾肀砀窈臀募?,又能管理筆記本,同時(shí)還可以管理儀表盤。這是管理生產(chǎn)和消費(fèi)數(shù)據(jù)的現(xiàn)代方式。”Minnick 評論道。 對于在筆記本中構(gòu)建模型的數(shù)據(jù)科學(xué)家和通過儀表板監(jiān)控輸出結(jié)果的數(shù)據(jù)科學(xué)家來說,對上述說法深以為然。
清晰且透明
盡管如此,簡單地通過 API 連接數(shù)據(jù)科學(xué)工具平臺,從而獲取“數(shù)據(jù)沿襲”只是透明利用機(jī)器學(xué)習(xí)的一個(gè)方面。為了達(dá)到改進(jìn)模型的輸出目的,還需要通過數(shù)據(jù)沿襲中確定的內(nèi)容來對輸出模型進(jìn)行校準(zhǔn)。例如,如何讓可追溯性模型數(shù)據(jù)使數(shù)據(jù)科學(xué)家“能夠理解一旦一些數(shù)據(jù)出現(xiàn)問題,就可以分離出這部分?jǐn)?shù)據(jù),”Minnick 指出。
從邏輯上講,可以利用這些知識了解為什么特定數(shù)據(jù)類型存在問題,從而糾正它們或通過完全刪除它們來提高模型的準(zhǔn)確性。根據(jù) Minnick 的說法,越來越多的組織正意識到將“數(shù)據(jù)沿襲”應(yīng)用到模型結(jié)果的好處,“部分原因是機(jī)器學(xué)習(xí)和人工智能在當(dāng)今各個(gè)行業(yè)的興起。它變得越來越普遍。去年,我們發(fā)布 AutoML 產(chǎn)品時(shí),就是使用了“玻璃盒”來代表對數(shù)據(jù)來源的透明?!?/p>
監(jiān)管后果以及其他
一些組織還利用“數(shù)據(jù)沿襲”提供的自適應(yīng)認(rèn)知計(jì)算模型的能力,來增強(qiáng)其法規(guī)遵從能力。金融、醫(yī)療保健等行業(yè)受到高度監(jiān)管,要求公司清楚地說明他們是如何為客戶做出決策的。數(shù)據(jù)追溯為構(gòu)建機(jī)器學(xué)習(xí)模型和理解模型結(jié)果創(chuàng)建了一張路線圖——這對監(jiān)管機(jī)構(gòu)的合規(guī)性非常寶貴。
這些信息還有助于內(nèi)部審計(jì),使公司能夠了解他們在哪些監(jiān)管領(lǐng)域失職,以便可以糾正問題以防止違規(guī)?!澳軌蛳虮O(jiān)管機(jī)構(gòu)展示非常精細(xì)的數(shù)據(jù)沿襲信息,不僅是跨表格,而且可以在廣泛的組織的任何地方使用這些數(shù)據(jù),這非常重要,”Minnick 斷言。當(dāng)這一優(yōu)勢與數(shù)據(jù)來源提高模型準(zhǔn)確性的思路不謀而合,這種方法很可能將成為部署該技術(shù)的最佳實(shí)踐。
譯者介紹
崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗(yàn),10年分布式架構(gòu)經(jīng)驗(yàn)。曾任惠普技術(shù)專家。樂于分享,撰寫了很多熱門技術(shù)文章,閱讀量超過60萬。《分布式架構(gòu)原理與實(shí)踐》作者。
原文標(biāo)題:??A “Glass Box” Approach to Responsible Machine Learning???,作者:Jelani Harper?