“數(shù)據(jù)交易”,那些吃螃蟹的家伙
“數(shù)據(jù)市場”、“數(shù)據(jù)銀行”,甚至“數(shù)據(jù)公約”,大數(shù)據(jù)時(shí)代,圍繞數(shù)據(jù)所有、使用和定價(jià)、交易,一直討論不斷,有些也的確富有想象力。
大數(shù)據(jù)時(shí)代如何將“數(shù)據(jù)”變成商品,或者原材料,如何實(shí)現(xiàn)有效的數(shù)據(jù)交換?進(jìn)行合理定價(jià),甚至出現(xiàn)數(shù)據(jù)交易市場、交易指數(shù)這樣的事物,目前確實(shí)已經(jīng)有一些企業(yè)在嘗試了,我們進(jìn)行了搜集和整理,現(xiàn)將這些“吃螃蟹”的案例呈現(xiàn)給大家。

早期比較著名的是Infochimps,該公司位于德克薩斯州奧斯丁。InfoChimps早期的目標(biāo)是要讓每個(gè)人都能找到自己需要的數(shù)據(jù)集。數(shù)據(jù)提供者可以將數(shù)據(jù)集上傳至InfoChimps,可以供人免費(fèi)下載,或者以一定的價(jià)格銷售。InfoChimps還提供很多API可供用戶調(diào)用,在超過一定數(shù)量的免費(fèi)API調(diào)用限額后,InfoChimps會向用戶收取一定的費(fèi)用。然而從2012年2月起,Infochimps從數(shù)據(jù)市場轉(zhuǎn)型為大數(shù)據(jù)平臺提供商并獲得谷歌投資,他們?nèi)缃褚呀?jīng)推出了Infochimps Platform流式數(shù)據(jù)(Streaming Data)處理平臺。
2008年創(chuàng)辦的 Factual提供的多種數(shù)據(jù)集涵蓋了本地服務(wù)、娛樂、教育和醫(yī)療等多個(gè)方面,還包括了可用的政府?dāng)?shù)據(jù)。Factual不僅向大公司提供數(shù)據(jù),同時(shí)也面向規(guī)模較小的軟件開發(fā)商,每一條信息都有17到40條的相關(guān)描述。以餐館數(shù)據(jù)為例,F(xiàn)actual用30種不同的方式對80多萬家餐館加以描述,包括地址、所有權(quán)以及食客和衛(wèi)生組織的評價(jià)等。據(jù)悉Factual在公司總部附近儲存了500兆兆字節(jié)的數(shù)據(jù),大致相當(dāng)于整個(gè)國會圖書館所需數(shù)據(jù)量的兩倍。而在亞馬遜云計(jì)算服務(wù)器中,還存儲著更多的數(shù)據(jù)。公司計(jì)劃要為相互之間聯(lián)系緊密的數(shù)千個(gè)超計(jì)算云建立全球范圍內(nèi)最主要的參照點(diǎn)。目前,F(xiàn)actual按浮動(dòng)價(jià)格向公司和獨(dú)立軟件開發(fā)商出售數(shù)據(jù),其依據(jù)是有多少信息被使用。小規(guī)模的數(shù)據(jù)提供是免費(fèi)的,大型客戶需要支付的費(fèi)用則會達(dá)到成百上千萬美元。有些時(shí)候,F(xiàn)actual還會與其他公司進(jìn)行數(shù)據(jù)交易,目的是擴(kuò)大自身所占有的資源。actual已經(jīng)有了相當(dāng)數(shù)量的客戶,包括Facebook、CitySearch、AT&T及其他一些公司都會使用Factual來獲得有關(guān)某些地方的信息。據(jù)悉,F(xiàn)actual在上海擁有辦事處。
日本富士通公司也宣布建立自己的“大數(shù)據(jù)”的交易市場,并將交易中介服務(wù)培育為主力業(yè)務(wù)之一,計(jì)劃在2016年之前將參與企業(yè)增加至千家左右。富士通將要建立的交易市場稱為“Data plaza”。用戶可以通過列表選擇需要的數(shù)據(jù)進(jìn)行下載。數(shù)據(jù)在對全部個(gè)人信息進(jìn)行匿名化處理后進(jìn)行交易。價(jià)格因數(shù)據(jù)量和內(nèi)容不同而不同,一般在數(shù)萬~數(shù)千萬日元。此外,還需要繳納每月數(shù)萬日元的會費(fèi)??梢栽贒ata plaza買賣的信息還包括智能手機(jī)的位置信息、社交網(wǎng)站(SNS)的帖子等。富士通目前已經(jīng)開始與流通業(yè)和制造業(yè)等行業(yè)的企業(yè)展開磋商。
微軟的Windows Azure Marketplace,它是微軟提供的數(shù)據(jù)交易和分享平臺,據(jù)稱擁有“數(shù)萬億個(gè)數(shù)據(jù)點(diǎn)”和一個(gè)語言翻譯器。此外,人們也可以向Azure出售數(shù)據(jù)集。另外,還有專注于幫助開發(fā)者和第三方獲取Twitter,F(xiàn)acebook和其他社交網(wǎng)站數(shù)據(jù)資源的社交媒體數(shù)據(jù)分析公司,比如Gnip和Datasift。 比如DataSift從Twitter購買了多年的數(shù)據(jù)同步授權(quán),能夠訪問所有Twitter管道數(shù)據(jù),并將子集賣給第三方,主要是企業(yè)客戶。Wolfram Alpha公司,由一名數(shù)學(xué)家創(chuàng)立的公司則擁有蘋果Siri所使用的數(shù)據(jù)和計(jì)算。
數(shù)據(jù)的分享本身非常有價(jià)值。尤其是對于很多除了內(nèi)部數(shù)據(jù),還必須輔助外部數(shù)據(jù)分析做出的決策來說。因此,能夠下載或者訪問外部數(shù)據(jù)集,自然而然也就成為了很多企業(yè)或機(jī)構(gòu)需求,一些國家或地方政府也都推出了官方的數(shù)據(jù)集網(wǎng)站可供下載。另外,也有很多數(shù)據(jù)交易平臺還提供云數(shù)據(jù)分析,用戶可以直接用虛擬機(jī)在云端進(jìn)行工作。畢竟,對于大多數(shù)企業(yè)或者普通人來說,大數(shù)據(jù)分析還是很難的。
這樣就誕生了類似ClearStory這樣的公司,當(dāng)然還有轉(zhuǎn)型后的Infochimps。它們都希望通過提供分析平臺,讓人們使用 “數(shù)據(jù)集市”更加方便。而且,ClearStory的數(shù)據(jù)源大部分也就是來自”數(shù)據(jù)集市“,如上面提到Datasift、Factual,微軟的Azure數(shù)據(jù)市場以及Infochimps。ClearStory Data,也是谷歌投資的企業(yè),其的目標(biāo)是讓數(shù)據(jù)變得可以被消費(fèi),讓企業(yè)可以將自己的數(shù)據(jù)與海量公共數(shù)據(jù)混合分析,獲取新的統(tǒng)計(jì)分析結(jié)果,并以一種可視化的報(bào)告展示出來。
附錄,其他數(shù)據(jù)集相關(guān)平臺AWS(亞馬遜網(wǎng)絡(luò)服務(wù))公共數(shù)據(jù)集,提供了一個(gè)集中的資料庫,可以無縫集成到基于AWS的云應(yīng)用程序的公共數(shù)據(jù)集。
DataMarket:這個(gè)全新的數(shù)據(jù)網(wǎng)站將創(chuàng)新的數(shù)據(jù)搜索功能與富有創(chuàng)造性的數(shù)據(jù)可視化結(jié)合在一起。用戶可以創(chuàng)建并下載自己的數(shù)據(jù)集,并將它們加入到自己的幻燈片或公司報(bào)告中。
國家空間科學(xué)數(shù)據(jù)中心(NSSDC),美國航空航天局的數(shù)據(jù)集從行星探測,空間和太陽物理,生命科學(xué),天體物理學(xué),和更多。
London Datastore:這個(gè)由大倫敦市政府(Greater London Authority)創(chuàng)建的數(shù)據(jù)庫發(fā)布了數(shù)以千計(jì)強(qiáng)調(diào)實(shí)時(shí)數(shù)據(jù)的數(shù)據(jù)集,譬如運(yùn)輸和經(jīng)濟(jì)方面的數(shù)據(jù)。開發(fā)者正在利用這些數(shù)據(jù)創(chuàng)造一系列有趣的應(yīng)用程序,如馬修·薩默維爾(Matthew Somerville)就為倫敦地鐵系統(tǒng)開發(fā)了一套實(shí)時(shí)鐵路地圖。
Europeana的數(shù)據(jù),包含2000萬的文本,圖像,視頻和聲音Europeana的-歐洲文化遺產(chǎn)內(nèi)容的信任和全面的資源收集的開放的元數(shù)據(jù)。
Guardian Datablog:《衛(wèi)報(bào)》及其數(shù)據(jù)博客每天都會發(fā)布新聞背后所隱藏的數(shù)據(jù),它鼓勵(lì)讀者對這些數(shù)據(jù)進(jìn)行可視化處理和研究。數(shù)據(jù)博客利用谷歌電子表格和谷歌云計(jì)算數(shù)據(jù)庫(Google Fusion Tables)來發(fā)布數(shù)據(jù),讓讀者可以搜索到世界各地?cái)?shù)以千計(jì)的官方數(shù)據(jù)集。
DataMarket,可視化世界的經(jīng)濟(jì),社會,自然,與行業(yè),與100萬次系列由聯(lián)合國,世界銀行,歐盟統(tǒng)計(jì)局和其他重要的數(shù)據(jù)提供者。
Timetric:提供經(jīng)濟(jì)學(xué)方面的時(shí)間序列數(shù)據(jù)以及生成復(fù)雜可嵌入圖表的巧妙方法,Timetric每天都會對數(shù)以千計(jì)的數(shù)據(jù)集進(jìn)行更新,此外,該網(wǎng)站還提供了一個(gè)易于使用的界面,使用戶可以輕輕松松的創(chuàng)建屬于自己的數(shù)據(jù)集。
Wikiposit,(虛擬)合并(主要是金融)從許多不同的網(wǎng)站的數(shù)據(jù),使用戶能夠合并來自不同來源的數(shù)據(jù)。















 
 
 


 
 
 
 