2009年互聯(lián)網(wǎng)5大趨勢之結構化的數(shù)據(jù)
結構化的數(shù)據(jù)可以說比較適合Web開發(fā)中的數(shù)據(jù)傳輸,未結構化的信息將會讓路于結構化的數(shù)據(jù),為更智能的計算鋪路。這也是今后互聯(lián)網(wǎng)發(fā)展的趨勢。
1、結構化的數(shù)據(jù)Structured Data
***個主要的趨勢是結構化的數(shù)據(jù),這個概念在以往有關語義網(wǎng)(Semantic Web)的一些演講中,曾被引用過,但顯而易見,到現(xiàn)在為止,結構化的數(shù)據(jù)比語義網(wǎng)的發(fā)展趨勢更加明顯。本文會分析結構化的數(shù)據(jù)在今年的發(fā)展,并且有三個產(chǎn)品供參考:OpenCalais, Google, Wolfram Alpha。
不是文檔集,而是數(shù)據(jù)網(wǎng)
Tim Berners-Lee(譯者注:萬維網(wǎng)(WWW)的***,為互聯(lián)網(wǎng)的迅速、大規(guī)模發(fā)展奠定了非常非常重要的技術基礎)在二月份曾說我們現(xiàn)在身處一個數(shù)據(jù)網(wǎng),而不是一個文檔集,Tim Berners-Lee領導的組織W3C,已經(jīng)大力推動了兩個關鍵行動來建立這個數(shù)據(jù)網(wǎng):語義網(wǎng)(Semantic Web)和最近提到的數(shù)據(jù)鏈(Linked Data)。
在過去的幾年里,我們已經(jīng)看到了有很多其他方式來建立結構化的數(shù)據(jù),目前***的例子是Twitter,因為 Twitter 90%的訪問,都是由第三方程序對其API的使用貢獻的(譯者注:我一開始很難理解Twitter為什么會是結構化的數(shù)據(jù)的***實例,因為Twitter里面?zhèn)鞑サ男畔⒔y(tǒng)統(tǒng)是非結構化的。但經(jīng)過仔細思考,發(fā)現(xiàn)Twitter其實成功創(chuàng)造了一種使用短信息來更新狀態(tài)的通訊方式,對于內容更新、狀態(tài)更新類的數(shù)據(jù)來說,這的確是結構化的,更重要的是,使用范圍之廣,已形成事實的標準)。
數(shù)據(jù)網(wǎng)的基本概念仍然與由Alex Iskold在2007年3月提到的相同:“未結構化的信息將會讓路于結構化的數(shù)據(jù),為更智能的計算鋪路”。
譯者注:來自不同網(wǎng)站的非結構化信息,通過各個公司/組織提供的API,成為了結構化的數(shù)據(jù)
實例1:OpenCalais
***個實例產(chǎn)品OpenCalais,很可能是目前***的有關數(shù)據(jù)鏈的產(chǎn)品,這是湯姆森路透(Thomson Reuters)于2008年2月發(fā)布的一個API。簡單地講,OpenCalais可以將非結構的網(wǎng)頁內容轉化為具有語義標記的數(shù)據(jù),它可以將數(shù)據(jù)按照人物、地點、公司等分組組織。通過這種方式,第三方的程序或網(wǎng)站可以利用這些數(shù)據(jù)生成許多有趣的新應用——這正是數(shù)據(jù)鏈的基本定義。
關于數(shù)據(jù)鏈的更完整定義,參見Alexander Korth在2009年4月從技術角度的介紹:數(shù)據(jù)網(wǎng),創(chuàng)建可供機器閱讀的信息 (The Web of Data: Creating Machine-Accessible Information),本文作者同樣在2009年5月撰文:“Linked Data is Blooming: Why You Should Care”,介紹了數(shù)據(jù)鏈的背景與好處。
譯者注:非結構的文檔(文本/HTML),經(jīng)過OpenCalais的解析,成為了人物、公司、地點、事件等結構化的數(shù)據(jù)
實例2:Google Rich Snippets
今年5月,Google將結構化的數(shù)據(jù)添加到了它的核心搜索中,作為一個名為“Rich snippets”的特性出現(xiàn)。這個特性的本質是通過 microformats 或 RDFa 等開放的結構化數(shù)據(jù)標準,從網(wǎng)頁中提取并展現(xiàn)有價值的信息(譯者注:百度最近提的框計算概念,其實類似于數(shù)據(jù)鏈,即用戶搜索到的不僅僅是網(wǎng)頁,還有有價值的數(shù)據(jù),比如搜索股票代碼,出現(xiàn)的是該股票的實時行情,而不是包含該股票代碼的網(wǎng)頁鏈接)。在5月份發(fā)布這個特性的時候,Google邀請了內容發(fā)布者來標記他們的HTML,盡管要想這種標記廣泛使用需要一定的時間,但事實上如果有Google這樣的大公司的推動,正顯示了結構化的數(shù)據(jù)于互聯(lián)網(wǎng)越來越大的重要性。
譯者注:一個英文例子,搜索結果直接包含被搜索商品的評論、價格范圍
譯者注:一個中文例子:結果直接包含被搜索到網(wǎng)站的Alexa排名數(shù)據(jù)
其他大公司同樣***了這個方向,比如雅虎。
實例3:Wolfram Alpha
從 Wolfram Alpha 5月份的隆重推出到現(xiàn)在,作者一直在密切關注這個非常創(chuàng)新的產(chǎn)品。這個一個自描述的“可計算知識引擎 computational knowledge engine”,在一些預測中,它甚至被稱為Google克星。雖然這有些夸張,但它的確有不少可能的應用。
Wolfram Alpha有個類似搜索引擎的界面,可以由用戶輸入自然語言。但它的主要部分是估算用戶的行為,來顯示合適的數(shù)據(jù),這個產(chǎn)品是以使用與計算數(shù)據(jù)為前提的。如果Web2.0是產(chǎn)生數(shù)據(jù)(或者用戶產(chǎn)生內容),那么下一代的互聯(lián)網(wǎng)就是如何使用這些數(shù)據(jù)了。
總結
通過以上三個例子我們可以看到結構化的數(shù)據(jù)正快速地成為當今互聯(lián)網(wǎng)的一個特性。像湯姆森路透(Thomson Reuters)與Google這樣的公司正逐步實現(xiàn)數(shù)據(jù)的結構化,而更多像Wolfram Alpha這樣的產(chǎn)品正在利用結構化的數(shù)據(jù)實現(xiàn)我們今天根本無法想象的功能。
譯者注
為了方便理解,根據(jù)我的個人看法,這里解釋一下文檔、數(shù)據(jù)、結構化等詞,如有謬誤,歡迎指正:
文檔:亦內容,可供閱讀,傳播。如:某產(chǎn)品的某個評論;某應聘人員的簡歷。
數(shù)據(jù):與內容相同的是可以閱讀,傳播;勝于內容的是有明確分類,可供分析。如某個產(chǎn)品的評論分數(shù);某應聘人員簡歷中的年齡,專業(yè)、工作年限。
結構化:數(shù)據(jù)結構化以后,會更易于分析,查找,抽象。如:某產(chǎn)品有幾條評論,分數(shù)各是多少(可算出平均分,從而推斷口碑***的產(chǎn)品是哪個);應聘的所有人員的年齡分布、專業(yè)分布、工作年限分布。
另,我理解知識生產(chǎn)的過程如下:
信息(消息,新聞) 提取 數(shù)據(jù) 轉化。分析 結構化數(shù)據(jù) 抽象 知識
所以,有了結構化的數(shù)據(jù)以后,離知識就只差一步了,所以不難想象,未來的互聯(lián)網(wǎng)是可以自動生產(chǎn)知識的。
原文標題:2009年互聯(lián)網(wǎng)5大趨勢之一:結構化的數(shù)據(jù)
鏈接:http://www.cnblogs.com/zhubo/archive/2009/09/14/top_5_web_trends_of_2009_structured_data.html
【編輯推薦】