大數(shù)據(jù)治理美國 正面臨不少新問題
大數(shù)據(jù)應用
2012年3月奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展計劃”。作為回應,美國國家科學基金會、美國國家衛(wèi)生研究院、國防部、能源部和美國地質(zhì)調(diào)查局都在投資大數(shù)據(jù)創(chuàng)新。美國很多公司正在圍繞大數(shù)據(jù)的采集和利用能力來開展他們的商業(yè)活動,并將這些活動作為其產(chǎn)品或運營后端的一部分??蒲腥后w、政府和私營部門也正在加速生成各種主題的大規(guī)模數(shù)據(jù)集,包括:氣候變化、交通模式、健康和疾病數(shù)據(jù)、購買行為以及通過社會化媒體互動表現(xiàn)出的社會行為。大數(shù)據(jù)應用的案例有:
Inrix公司和新澤西州運輸部之間的合作伙伴關系。Inrix公司通過汽車和移動電話GPS裝置上的信號和數(shù)據(jù),采集主干道上的車速數(shù)據(jù),然后實時向新澤西州運輸部警示任意主干道上的路況險情,同時向司機的車載GPS裝置或移動電話發(fā)送警示來提醒司機注意路況險情。
氣候公司(The Climate Corporation)是一家天氣保險公司,他們制作保單來彌補聯(lián)邦農(nóng)作物保險和因氣候造成的農(nóng)民損失之間的差額。該公司通過龐大的傳感器網(wǎng)絡分析和預測2000萬美國農(nóng)田的氣溫、降水、土壤濕度和產(chǎn)量。在知曉高溫天的天數(shù)以及土壤濕度數(shù)據(jù)后,建立的模型來幫助其預判農(nóng)民需要的天氣保險金額以及公司需要支付的保費。
紐約州能源研究和發(fā)展管理局運用一系列的大數(shù)據(jù)技術(shù)來評估氣候變化對紐約州的影響,并為農(nóng)業(yè)、公共衛(wèi)生、能源和交通運輸?shù)阮I域提供應對氣候變化的策略。這一應用也被引入美國疾病控制中心,它正與美國其他10個州和城市一起開展“閱讀州和城市計劃”,共同研究和應對氣候變化,而大數(shù)據(jù)技術(shù)是其中一個非常重要的組成部分。
開放政府數(shù)據(jù)
大數(shù)據(jù)戰(zhàn)略,往往建立在開放政府數(shù)據(jù)的基礎上。開放政府數(shù)據(jù)在美國并不是一個全新的概念。多年來,政府的信息和數(shù)據(jù)在不斷變化,采集和發(fā)布政府數(shù)據(jù)的方法和途徑也同樣經(jīng)歷了這些變化。開放政府數(shù)據(jù)在催生新的科學研究成果、加快經(jīng)濟增長、為政策制定提供信息以及制定為民服務的新政策方面都深具潛力。有關開放政府數(shù)據(jù)的政策選擇將對大規(guī)模數(shù)據(jù)集應用的創(chuàng)新和研究、政府開放和透明以及其他眾多領域產(chǎn)生深遠影響。
作為奧巴馬政府開放政府計劃的一部分,2010年美國政府建立data.gov網(wǎng)站,向公眾開放“高價值”的數(shù)據(jù)集。這一政府開放數(shù)據(jù)平臺現(xiàn)已可直接為用戶提供海量的原始政府數(shù)據(jù),并期待用戶能挖掘這些數(shù)據(jù)的新的利用價值,從而以過去無法實現(xiàn)的方式加深我們對政府活動和更龐雜的社會事務的認知。這些技術(shù)方法推動了數(shù)據(jù)的可獲取、開放和透明,同時又讓公眾、組織、社區(qū)和其他社會成員在現(xiàn)有數(shù)據(jù)的基礎上產(chǎn)生新的創(chuàng)新性認知。作為一個面向公眾的平臺,它可成為一個促進協(xié)作、存儲數(shù)據(jù)集、推動社區(qū)參與和提供參與機會的工具。除此之外,數(shù)據(jù)還可通過這些平臺以多種格式(如CSV,XML和Excel等)儲存和開放。每種數(shù)據(jù)格式都有其特定含義,可限制或促進數(shù)據(jù)的應用。
現(xiàn)行政策分析
關于大數(shù)據(jù)和開放政府數(shù)據(jù)的一個關鍵問題是,政府信息和數(shù)據(jù)的管理、使用、再利用和可獲取政策。美國有一整套復雜且不斷變化的信息政策(法律、法規(guī)和備忘錄),用來管理信息的生命周期,從信息的生成、信息的傳播、再到信息處理和歸檔,涉及到如何在數(shù)據(jù)可獲取、隱私、安全問題、數(shù)字資產(chǎn)管理、歸檔和保存等問題上尋求平衡。這個政策框架盡管也不斷調(diào)整,但仍落后于技術(shù)的進步,這一脫節(jié)使人們對美國現(xiàn)行政策框架是否足以應對大數(shù)據(jù)帶來的問題產(chǎn)生了疑問,并提出以下幾個關鍵問題:
我們能確保數(shù)據(jù)的可獲取性嗎?在大數(shù)據(jù)時代我們?nèi)绾伪Wo隱私?我們?nèi)绾未_保數(shù)據(jù)的質(zhì)量和準確性?在目前的歸檔和保存條件下,如何管理我們的數(shù)字資產(chǎn)?大數(shù)據(jù)時代我們能否發(fā)展有力的數(shù)據(jù)再利用政策?
下文將具體分析在大數(shù)據(jù)和開放政府數(shù)據(jù)時代,當前美國的信息政策框架的現(xiàn)狀和滯后性,并給出了信息政策調(diào)整的建議。
(一)數(shù)據(jù)可獲取和發(fā)布
美國管理和預算辦公室在數(shù)據(jù)獲取和發(fā)布方面為政府機構(gòu)提供了廣泛的指導,他們確立了以下原則:政府機構(gòu)必須及時、公平、有效地以適當?shù)姆绞桨研畔l(fā)布給公眾。政府機構(gòu)必須建立和維護“信息發(fā)布產(chǎn)品清單”。政府機構(gòu)必須考慮到公民獲取能力的差異,讓那些不能上網(wǎng)的公眾也能獲得重要信息。政府機構(gòu)應制定多種策略來發(fā)布信息。當使用電子媒體時,那些涉及妥善管理和文件歸檔的規(guī)定同樣適用。政府機構(gòu)需要評估并確定最合適的方法來采集和保存文件。
美國管理和預算辦公室也為政府機構(gòu)網(wǎng)站的信息管理提供廣泛的指導。要求政府機構(gòu)對提供的所有在線應用進行標準化的風險評估,并要求政府機構(gòu)執(zhí)行多項與隱私相關的措施。其他有關信息獲取和傳播的政策工具還包括:1.要求政府機構(gòu)對英語能力有限的人提供適當?shù)男畔@取方式,涉及所有的“聯(lián)邦的項目和活動”。這個政策的目標是為了解決公民使用電子政務的鴻溝,尤其是那些不以英語為母語的人。2.規(guī)定殘疾人在公共教育中可平等獲取所有的電子材料。規(guī)定政府在提供服務和福利,以及開展政民溝通時,不得將殘疾人排除在外。保證殘疾人平等地參與政府活動和獲取政府信息,并確立了他們獲取信息和使用通信技術(shù)的一般權(quán)利。3.推進和實施了線上信息和通信技術(shù)的可獲取性。4.由聯(lián)邦政府采購、維護或使用的電子和信息技術(shù)必須滿足特定的獲取性標準,以確保殘疾人能夠獲取在線信息和服務。
(二)隱私、安全、準確性和歸檔
政府網(wǎng)站正變成雙向社區(qū),增加了網(wǎng)絡病毒或其他攻擊載體侵入政府環(huán)境的可能性,同時也增加了信息意外泄露的可能性。信息政策框架也做出了相應調(diào)整以應對這一變化。比如,管理和預算辦公室要求政府機構(gòu)盡可能采取足夠的安全措施,以確保信息不被篡改,并確保其準確性、保密性和可獲取性,以符合政府機構(gòu)的預期和用戶的需求。
然而,當前的相關政策并不能保證解決大數(shù)據(jù)所帶來的大量使用不當問題。對個人身份信息、政府數(shù)據(jù)與信息的安全性以及對公開數(shù)據(jù)的準確性的擔憂,都與大數(shù)據(jù)相關。大數(shù)據(jù)的質(zhì)量、可靠性和權(quán)威性是政府、科研群體以及非政府組織和私營部門最關注的問題。未經(jīng)確認或驗證的數(shù)據(jù)、或用錯誤方法采集到的低質(zhì)量數(shù)據(jù)可能會導致錯誤的研究發(fā)現(xiàn),進而嚴重影響一系列的決策和政策制定。
data.gov的數(shù)據(jù)管理政策,致力于解決這些問題,具體包括:規(guī)定負責采集和發(fā)布數(shù)據(jù)的政府機構(gòu)要確保數(shù)據(jù)的準確性、及時性和整體質(zhì)量。要求政府機構(gòu)進行版本控制,確保數(shù)據(jù)集具有明確的標簽。要求政府機構(gòu)確保data.gov上發(fā)布的數(shù)據(jù)不涉及國家安全。要求政府機構(gòu)確保發(fā)布的數(shù)據(jù)符合保密和隱私保護的相關規(guī)定。
沿著信息的生命周期繼續(xù)往下走,大數(shù)據(jù)的使用、儲存和保存等方面也面臨各種挑戰(zhàn)。推動大數(shù)據(jù)的開放和可獲取,與促進大數(shù)據(jù)的利用具有顯著差別。此外,特定領域的數(shù)據(jù)應用(即只有某個特定領域的科學家們使用)和廣泛的跨學科數(shù)據(jù)應用(即跨學科領域和跨常見研究領域的應用)之間也有不同。
同時,需要為大規(guī)模科研數(shù)據(jù)集建立專門的數(shù)據(jù)庫。構(gòu)建數(shù)據(jù)社區(qū)的一個要素是迫切需要整合和管理來自不同源頭和不同部門的數(shù)據(jù)。這些數(shù)據(jù)流必須在政府、私營部門、公共事業(yè)公司、各種設備和個人之間流動交匯,才能真正有用,并為社區(qū)和國家發(fā)展提供信息。因此,有必要在各個實體間建立、采用并遵守一套正式的數(shù)據(jù)管理標準和操作辦法,以保障數(shù)據(jù)兼容性、命名規(guī)則和組織架構(gòu)。而且,為確保研究人員們對于數(shù)據(jù)集的知情使用,也需要制作具有明確定義的數(shù)據(jù)文件和編碼本。
“聚合”指的是用戶將從不同網(wǎng)站得到的數(shù)據(jù)結(jié)合起來,大數(shù)據(jù)使當下信息政策環(huán)境變得更為復雜。管理和預算辦公室要求各政府機構(gòu)的公共網(wǎng)站,提供開放且符合業(yè)界標準格式的數(shù)據(jù),使得用戶能夠整合、分解、操縱或分析數(shù)據(jù)以滿足他們的需求。目前經(jīng)過聚合的數(shù)據(jù)往往缺乏正式的授權(quán)和驗證程序。正如data.gov網(wǎng)站所提出的,“一旦數(shù)據(jù)從該政府機構(gòu)頁面被下載后,政府不再能保證其質(zhì)量和即時性。此外,美國政府無法對取自data.gov的數(shù)據(jù)的任何分析結(jié)果做擔保”。雖然這一免責聲明限定了data.gov的責任,但二次數(shù)據(jù)使用問題仍需要解決。
大數(shù)據(jù)的監(jiān)管也是一個不可忽視的問題。數(shù)字化監(jiān)管涉及對電子研究數(shù)據(jù)的維護、保存和增值,并貫穿其整個生命周期,例如數(shù)字資產(chǎn)的概念問題、數(shù)字資產(chǎn)的創(chuàng)造、獲取和使用問題,以及數(shù)字資產(chǎn)的評價和選擇工作。隨著新的電子數(shù)據(jù)資產(chǎn)的持續(xù)增長,有必要為大數(shù)據(jù)的整個生命周期制定有效的數(shù)據(jù)管理策略。
最后,在諸如data.gov社區(qū)這樣的數(shù)字“開放空間”里,永久的、最終的文件越來越少,而幾乎所有文件管理和歸檔工作都是基于這些文件建立起來的??涩F(xiàn)在由于使用非政府的第三方應用程序或軟件,且數(shù)據(jù)調(diào)整和修改不斷發(fā)生,使得數(shù)據(jù)所有權(quán)、儲存進度以及歸檔工作都面臨巨大的挑戰(zhàn)。
政策和治理原則
當政策制定者考慮、辯論并制定政策時,當私有部門、非營利部門與政府在進行合作時,我們會發(fā)現(xiàn)對開放政府數(shù)據(jù)和大數(shù)據(jù)立法或者制定一套政策和治理結(jié)構(gòu)非常困難。政府需要在進行數(shù)據(jù)開放并利用大數(shù)據(jù)技術(shù)的時候,需要制定一套指導原則。而且這些指導原則只是一個開始,并非結(jié)束。隨著對大數(shù)據(jù)創(chuàng)新的理解不斷深入,我們需要建立并維持一個強有力的政策和治理框架。這些指導原則是:
1.不造成傷害。在政府、私有部門和公眾社會間共享數(shù)據(jù)可能涉及到私人的、敏感的個人信息,而這些組織中的大多數(shù)并不擁有相匹配的數(shù)據(jù)管理、利用和再利用政策。當非政府組織也是大數(shù)據(jù)合作項目的參與者時,個人不應該被強制或被要求將政府出于某種目的而采集的數(shù)據(jù)共享給這些非政府組織。
2.長遠眼光。數(shù)據(jù)的長期共享、保存、檢索以及獲取將要求超越當前技術(shù)水平,具有長遠眼光。需要保證大數(shù)據(jù)及其附屬產(chǎn)品能在未來的10年、20年乃至更長的時間里都能獲得。從一開始就堅持遵守開放數(shù)據(jù)標準及技術(shù)標準可有效推動這一過程。
3.數(shù)據(jù)表述。我們需要保證數(shù)據(jù)元素、數(shù)據(jù)采集單位(例如,是個人層級還是社區(qū)層級)、或數(shù)據(jù)的其他方面都被很好地界定,同時數(shù)據(jù)采集和使用政策得到清楚地表述。
4.承擔責任。大數(shù)據(jù)對于提供信息和制定政策潛力巨大,但也可能造成損害。大數(shù)據(jù)通常包含了多種數(shù)據(jù)集的聚合,而這些數(shù)據(jù)集最初并不是出于整合的目的而生成的。在大數(shù)據(jù)創(chuàng)新中,政府需要對他人使用其數(shù)據(jù)所造成的損害承擔責任,確保對公眾的保護。
政策建議
大數(shù)據(jù)帶來了一系列問題,而當前的政策框架卻無力解決這些問題,這就需要一個大數(shù)據(jù)的治理模式。這一治理模式需要考慮以下具體問題:
隱私。在個人、家庭、設備或其他層面,大數(shù)據(jù)包含了各種個人信息數(shù)據(jù)。隱私保護法律和政策可能會與大數(shù)據(jù)所帶來的機遇相沖突,而與此同時,大數(shù)據(jù)正在侵犯個人或社區(qū)的隱私權(quán)。
數(shù)據(jù)再利用。數(shù)據(jù)通常是由政府機構(gòu)或其他組織所采集的,一般與社會服務的被服務者相聯(lián)系。另外,個人、政府機構(gòu)或公司常擁有在允許范圍內(nèi)使用數(shù)據(jù)的權(quán)力,以及采集和使用數(shù)據(jù)時的隱私保護政策。當大數(shù)據(jù)應用不斷整合來自不同機構(gòu)、政府以及家庭的數(shù)據(jù)集以期發(fā)現(xiàn)新思路并為決策和政策制定提供信息時,向個人清晰地進行數(shù)據(jù)利用和再利用政策的指導也非常必要,從而使個人能夠在知情的情況下,做出與其個人數(shù)據(jù)相關的決定。
數(shù)據(jù)準確性。由于新的數(shù)據(jù)集是由組合來自不同政府機構(gòu)、研究人員、科學家、私人部門以及公眾群體的原本各不相干的數(shù)據(jù)而生成,因此需要制定并遵守數(shù)據(jù)質(zhì)量標準。因某一特殊目的而采集的數(shù)據(jù)并不一定與其他數(shù)據(jù)集完全兼容,而這可能會導致誤差以及一系列的錯誤結(jié)論。Data.gov網(wǎng)站上的免責申明將這一責任交給了發(fā)布數(shù)據(jù)的政府機構(gòu),以及下載并使用這些數(shù)據(jù)的組織或個人。數(shù)據(jù)的使用會對社會、政策以及科學項目產(chǎn)生巨大影響,而以上做法并不是對數(shù)據(jù)使用的恰當回應。
數(shù)據(jù)可獲取。用什么政策去管理這些新產(chǎn)生的數(shù)據(jù)集的可獲得性和保存?此外,大數(shù)據(jù)使公眾獲取政府數(shù)據(jù)集成為一個問題,因此需要建立類似data.gov的公開數(shù)據(jù)獲取平臺。
歸檔和保存。大數(shù)據(jù)如果脫離其所嵌入的技術(shù)和分析平臺,原始數(shù)據(jù)本身不能保證導出相似的發(fā)現(xiàn),因此同時保護數(shù)據(jù)和用于分析數(shù)據(jù)的技術(shù)就至關重要。另外,我們還必須考慮由非政府機構(gòu)建立的研究數(shù)據(jù)集的歸檔和長期保存,例如由政府研究機構(gòu)資助的大學和研究中心。需要制定整體數(shù)據(jù)管理戰(zhàn)略,以確保較小的數(shù)據(jù)集的可用性,使之能成為作為大數(shù)據(jù)的一部分。
數(shù)據(jù)監(jiān)管。大數(shù)據(jù)創(chuàng)新的主要目標之一就是鼓勵社區(qū)整合多個大規(guī)模數(shù)據(jù)集以創(chuàng)造新的知識。大數(shù)據(jù)不一定生來就是大數(shù)據(jù),而是通過對許多小的數(shù)據(jù)集的累積、修改、合并以及加工而來。數(shù)據(jù)的每一種排列都是一個新的數(shù)據(jù)集,需要存檔、管理及監(jiān)管。
建立可持續(xù)的數(shù)據(jù)平臺和架構(gòu)。為了組織、監(jiān)管、儲存并將數(shù)據(jù)集開放給科研群體、私有部門、其他部門以及公眾,需要建立強大的技術(shù)基礎設施。這些平臺需要同時在物理層面(技術(shù))和智力層面(組織的)將大數(shù)據(jù)開放,同時需要將一系列技術(shù)、分析技能以及信息架構(gòu)進行無縫隙整合。這些基礎設施必須能像data.gov那樣能夠支持面向公眾的通用平臺, 以及面向特別機構(gòu)的包含大量大規(guī)模數(shù)據(jù)集的專業(yè)平臺。
數(shù)據(jù)標準的建立。大數(shù)據(jù)要求在技術(shù)層面能實現(xiàn)互操作,同時在數(shù)據(jù)層面遵守元數(shù)據(jù)標準。不同的領域可能會有不同的元數(shù)據(jù)標準。大數(shù)據(jù)數(shù)據(jù)集的生成、發(fā)展及發(fā)布需要考慮合適的數(shù)據(jù)標準格式,從而推進協(xié)作和數(shù)據(jù)的再利用。此外,對于對外發(fā)布的文檔也需要建立文檔標準等。另外,對數(shù)據(jù)的局限性也需要做出清晰的說明。
鼓勵跨部門數(shù)據(jù)共享政策。由于大數(shù)據(jù)涉及到數(shù)據(jù)在不同系統(tǒng)、政府和部門之間的實時傳遞,這就需要建立一個數(shù)據(jù)共享和互操作的框架。利用了協(xié)作分析技術(shù)的大數(shù)據(jù)創(chuàng)新,需要對數(shù)據(jù)采集和匯報系統(tǒng)進行無縫隙整合。這就有必要調(diào)整信息和數(shù)據(jù)政策以反映這一整合的數(shù)據(jù)環(huán)境。
大數(shù)據(jù)創(chuàng)新對政策制定和決策有重大意義,可加深我們對重大科學和社會挑戰(zhàn)的理解,推動政府、公民以及企業(yè)間的合作,并引領一個新的電子政府服務的新時代。然而,我們也需要考慮與管理大數(shù)據(jù)相關的一系列政策問題,包括隱私、準確性、可獲取性、公平和保存政策等,并建立整體性的大數(shù)據(jù)治理模式。