數(shù)據(jù)獲取不暢通,中國科學家做研究也受影響
在信息爆炸的時代,開放的數(shù)據(jù)共享大大加快了科學技術向前推進的步伐。研究者在公共數(shù)據(jù)獲取方面遭遇的限制,則反過來阻礙了科研的進步。最近,上海海事大學交通運輸學院的Zheng Wan在《自然》上發(fā)表評論,指出中國科學家在進行重要的科學研究時,想要訪問高質(zhì)量的公共數(shù)據(jù)庫,已是越來越難。
在這個大數(shù)據(jù)時代,生物信息數(shù)據(jù)庫和數(shù)據(jù)共享都有所發(fā)展,可用的技術資源也越來越多。直到最近,這種開放科學的趨勢一直在幫助中國科學家獲得國際競爭力。然而,中國社會正日益感受到對于公共數(shù)據(jù)搜索和共享的限制。如果這個問題不能盡快解決,便將拖累科學研究和創(chuàng)新。
Zheng Wan表示,中國的科研進步正因數(shù)據(jù)獲取方面的困難而受限。圖片來源:themandarin.com.au
當前,中國科學家很難獲得高質(zhì)量的國內(nèi)數(shù)據(jù),而且這還將會越來越難。政府部門掌握了絕大多數(shù)公共數(shù)據(jù)。其中一些部門正在強化自己對數(shù)據(jù)的壟斷,使研究者想獲取數(shù)據(jù)變得更加艱難。人文社科研究者所受的影響尤其明顯,而由于研究涉及的數(shù)據(jù)可能在政治上較敏感,環(huán)境科學,公共健康等領域也受到波及。我的很多同行都在學術會議上抱怨過想獲取常規(guī)數(shù)據(jù)——例如從當局索取空氣污染水平數(shù)據(jù)——有多困難。
即便是公布的數(shù)據(jù),也常常因為數(shù)據(jù)收集存在缺陷而質(zhì)量不佳。這其中最典型的例子就是關于中國國內(nèi)生產(chǎn)總值(GDP)的爭議。官方公布的全國數(shù)據(jù),與31個省級行政區(qū)的GDP總和存在著顯著的差異——而且這差異還在拉大。位于北京的國家統(tǒng)計局承認,各省使用的統(tǒng)計方法并不一致,正在進行協(xié)調(diào)。只是到目前為止,效果并不理想。
公共數(shù)據(jù)的共享已然變成一種營利手段。當在編制諸如道路交通的污染數(shù)據(jù)時,公共數(shù)據(jù)共享是很有用的。理想狀況下,這樣的任務需要收集多種數(shù)據(jù):各類車輛的詳細上牌數(shù)量、交通擁堵情況、詳細的發(fā)動機參數(shù)以及燃油等級等等。但研究機構甚至連從政府部門獲得基礎的車輛所有權數(shù)據(jù)都困難重重,所以他們只能使用生產(chǎn)商的銷售數(shù)據(jù),但這樣的數(shù)據(jù)既不夠縝密,也常常容易造成誤導。諷刺的是,對外虛報數(shù)據(jù)的汽車生產(chǎn)商,自己卻可以得到客觀可靠的、關于競爭對手的銷售數(shù)據(jù)——他們以公共機構和科學家負擔不起的價格,通過特殊渠道向政府部門的關聯(lián)方購買數(shù)據(jù)。
研究者求之不得的數(shù)據(jù),一些企業(yè)卻可以通過特殊渠道以高價購買到。圖片來源:Daniel Allan/Photographer’s Choice
在這樣的環(huán)境下,一些中國研究團隊不愿意公開自己的數(shù)據(jù),也就不是什么令人感到意外的事情了。數(shù)據(jù)就是無形資產(chǎn),可以使科學家在自己的學術領域中獲得競爭優(yōu)勢。很多人都向我自己的研究團隊請求海事數(shù)據(jù)——例如我們匯編的港口統(tǒng)計數(shù)據(jù)和船隊信息——但是我們也不情愿分享這些信息。為了將零散的數(shù)據(jù)收集、整理稱可用的形式,我們付出了巨大的人力物力。如果我們不公開這些數(shù)據(jù),就可以使用這些數(shù)據(jù)撰寫論文。
但如果我們能更便捷地從其他來源獲取優(yōu)質(zhì)數(shù)據(jù),我們就會更愿意分享自己的數(shù)據(jù)。
由于研究者獲取公共數(shù)據(jù)都需要克服重重困難,研究數(shù)據(jù)在中國研究團隊之間的分享氛圍也因而受到了削弱。圖片來源:nature.com
開放公共數(shù)據(jù)庫并提高數(shù)據(jù)質(zhì)量可以提高政府事務的透明度。盡管進展緩慢,我們還是有一些提高透明度,使社會受益的案例。在社會壓力下,環(huán)保局從2014年起開始全面公布空氣污染數(shù)據(jù),便是一個典型的例子。之前,環(huán)保局只公布簡略的日報,如今每小時都更新數(shù)據(jù)。這些數(shù)據(jù)被中國的政府部門廣泛使用。根據(jù)這些數(shù)據(jù),衛(wèi)生局得以向民眾發(fā)布預警,教育局也有依據(jù)決定學校是否在空氣重度污染時停課,交管局則得以調(diào)整限行規(guī)定。充分披露這些數(shù)據(jù)最重要的作用,也許在于提高了公眾對不斷惡化的污染問題的關注程度。
不幸的是,科學家感興趣的數(shù)據(jù),公眾不一定感興趣。實現(xiàn)完全透明,開放更多公共數(shù)據(jù),任重而道遠。受到限制的不僅僅是中國國內(nèi)產(chǎn)生的數(shù)據(jù),查閱國外的學術資源有時也在技術上很難實現(xiàn)——一些政府信息管理部門用技術手段設限,以過濾潛在的有害信息。
我在中國的學術生涯受到了影響。我?guī)缀醪荒苡行У厮阉鲗W術文獻。相比于其他搜索引擎,我更喜歡使用谷歌學術搜索,因為它包含了圖書、論文、學位論文、專利、技術報告——但我卻無法使用它,只好逐一搜索其他尚可以登錄的、由出版商運營的數(shù)據(jù)庫。
網(wǎng)絡安全對于國家安全固然至關重要,而優(yōu)質(zhì)的數(shù)據(jù)是科學進步和經(jīng)濟發(fā)展的后盾。資源共享和開放可靠數(shù)據(jù)可以鞏固經(jīng)濟發(fā)展和社會安定。中國需要全面的研究來解決這些矛盾。這樣我們才能建立起對各方都有益的,高效合理的數(shù)據(jù)管理機制。更具體地說來,研究者應該有更多權限,尤其是訪問公共數(shù)據(jù)和學術搜索引擎的權限。