大數(shù)據(jù)獨角獸Palantir之核心技術探秘
1.Palantir源起:B2B大數(shù)據(jù)和企業(yè)級Google。
Palantir(中文名帕蘭提爾,源于《指環(huán)王》中可穿越時空、洞悉世間一切的水晶球Palantír)被譽為硅谷最神秘的大數(shù)據(jù)獨角獸企業(yè),短短幾年內(nèi)躋身百億俱樂部,成為全球最高估值排名第四的初創(chuàng)公司。它的主要客戶只在美劇和好萊塢里出現(xiàn),如美國聯(lián)邦調(diào)查局(FBI)、美國中央情報局(CIA)、美國國家安全局(NSA)、美國軍隊和各級反恐機構,當然還有如JPMorgan這樣的華爾街金融大鱷等等。關于Palantir的傳奇故事很多,CIA通過他家的大數(shù)據(jù)技術追蹤到本拉登;創(chuàng)始人Alex Karp師從德國的Jürgen Habermas(研究西方馬克思主義)獲得哲學博士,熱衷中國氣功和太極;幫多家銀行揭露旁氏騙局挽回數(shù)十億損失,幫助摩根大通解決欺詐交易和黑客攻擊問題,每年節(jié)約數(shù)億美元;公司創(chuàng)始人和投資人(號稱“硅谷黑幫”)由海軍陸戰(zhàn)隊員隨時保護以防不測;產(chǎn)品只賣美國及其盟友國;與棱鏡門有說不清楚的關系等…這些花邊新聞不是本文的關注點,本文重點從大數(shù)據(jù)技術角度來揭密Palantir的B2B大數(shù)據(jù)王國。
如果說谷歌是互聯(lián)網(wǎng)大數(shù)據(jù)的霸主(確實如此,我在前文《從Tensorflow看谷歌的云端人工智能戰(zhàn)略》有詳細解讀),那么Palantir的目標就是做未來企業(yè)級大數(shù)據(jù)霸主,這家公司的愿景就是做企業(yè)和政府領域的Google。為什么這樣講?從技術角度來分析,這是大數(shù)據(jù)發(fā)展的必然趨勢,互聯(lián)網(wǎng)上的數(shù)據(jù)多半是UGC用戶產(chǎn)生內(nèi)容,或是如電商平臺這種某細分領域的獨立生態(tài)數(shù)據(jù),而真正的大數(shù)據(jù)金礦還在眾多大型企業(yè)和政府機構的服務器集群中沉睡。比如一個國家的情報部門和各部、各局信息中心,無不是掌握著成千上萬關鍵領域的大數(shù)據(jù),包括各種業(yè)務數(shù)據(jù)、監(jiān)控數(shù)據(jù)、DNA樣本、語音視頻圖片、地圖時空數(shù)據(jù)等(當然前提是信息化程度及其發(fā)達,就像我們的稅務系統(tǒng)一樣,而不是房產(chǎn)登記系統(tǒng)),面對如此海量、多源、異構而且高關聯(lián)性、復雜性、動態(tài)性大數(shù)據(jù),如果沒有快速的大數(shù)據(jù)分析技術和工具支持,那只能是望數(shù)興嘆。而Palantir的大數(shù)據(jù)技術和產(chǎn)品就是專門針對大型企業(yè)和政府機構需求而生(與互聯(lián)網(wǎng)公司的大數(shù)據(jù)技術有較大不同),其官方主頁上的自我定位也很準確:“Palantir’s mission is to solve the most important problems for the world’s most important institutions.”。企業(yè)級大數(shù)據(jù)玩家當然政府和金融是最具數(shù)權(信息權利)的兩個領域,所以Palantir研發(fā)的平臺級大數(shù)據(jù)產(chǎn)品只有兩個版本:Palantir Gotham(服務政府及軍隊客戶)和Palantir Metropolis(服務金融、法律及其它客戶)。如果說谷歌、亞馬遜、Facebook等互聯(lián)網(wǎng)巨頭是B2C大數(shù)據(jù),那么Palantir就是B2B大數(shù)據(jù),多數(shù)企業(yè)和政府機構對大數(shù)據(jù)的應用還處于起步和探索階段,互聯(lián)網(wǎng)下或關鍵領域內(nèi)網(wǎng)、專網(wǎng)中結合私有云技術的B2B大數(shù)據(jù)分析是大數(shù)據(jù)時代發(fā)展的必然,而且應用潛力和價值更為巨大,谷歌旗下DeepMind公司開始跟大型醫(yī)院和衛(wèi)生部門合作就是最好的注解,互聯(lián)網(wǎng)巨頭以其已有的大數(shù)據(jù)技術優(yōu)勢,其業(yè)務觸角正在向傳統(tǒng)行業(yè)延伸。
圖1. Palantir官方主頁的服務宗旨
2.Palantir產(chǎn)品技術體系:軍事、金融和警務大數(shù)據(jù)案例分析
網(wǎng)上有個段子,雖然真假不能確認,但卻能從中看出Palantir的發(fā)跡史:“美國911之后,CIA等部門忙于調(diào)查各種線索。Stanford的幾個教授以公開的海量信息為輸入,利用大數(shù)據(jù)處理技術建立關于人物關系的網(wǎng)絡,最后鎖定了一批疑似人,并迅速將結果發(fā)布出去,使得CIA等部門大為震驚,因為教授們的結果與CIA花人力物力大量偵查和審訊的結果很近似,讓CIA們誤以為教授們有牽連,迅速飛到Stanford找教授們問話。從此,“人腦+電腦“來分析復雜問題并輔助反恐成為可能”,Palantir正是在這一大背景下誕生和發(fā)跡的。目前Palantir有兩大核心產(chǎn)品,Palantir Gotham和Palantir Metropolis,前者主要服務于國防安全和政府管理領域,后者主要服務于金融領域。兩大產(chǎn)品體系下轄十多種解決方案,如反欺詐(Anti Fraud)、網(wǎng)絡安全(Cyber Security)、國防安全(Defense)、內(nèi)部威脅(Insider Threat)、危機應對(Crisis Response)、保險分析(Insurance Analytics)、案例管理(Case Management)、疾病控制(Disease Response)、智能化決策(Intelligence)等。兩個產(chǎn)品線的核心技術是服務客戶整理、分析、利用不同來源的結構化和非結構化數(shù)據(jù),創(chuàng)造一種人腦智能和計算機智能的共生分析環(huán)境及工具,人腦和大數(shù)據(jù)分析互補,提升客戶的智慧和洞察力,從而解決大數(shù)據(jù)環(huán)境下的復雜問題決策。Palantir在大數(shù)據(jù)江湖上最傳奇的戰(zhàn)績,一是幫多家銀行追回納斯達克前主席麥道夫龐氏騙局的數(shù)十億美金,二是幫助奧巴馬政府追捕到本拉登。下面我們以軍事、金融、警務三個方面的案例來對其產(chǎn)品的技術體系和服務內(nèi)容進行初步探索和分析:
(1)以軍事國防解決方案為例。其核心目標是將多個軍事情報領域的海量數(shù)據(jù)進行融合和關聯(lián)分析,轉(zhuǎn)化為可操作的決策指揮能力,多情報領域數(shù)據(jù)的集成和融合是要解決的關鍵問題,包括非結構化和結構化數(shù)據(jù)流,如鏈接圖,電子表格,電話,文檔,網(wǎng)絡數(shù)據(jù),傳感器數(shù)據(jù),甚至動態(tài)視頻、圖像等。Palantir提供了一個基于全量多模態(tài)數(shù)據(jù)融合和協(xié)同挖掘分析的大數(shù)據(jù)支撐框架,可以對在地理、空間上分散的人、裝備、環(huán)境、事件等進行大規(guī)模實時關聯(lián)和因果分析,以指導復雜戰(zhàn)場環(huán)境下的軍事行動。這些大數(shù)據(jù)技術已被美國軍方廣泛運用于戰(zhàn)場態(tài)勢分析和預測,如定位伊拉克戰(zhàn)場可能存在的炸彈或地雷位置,幫助美軍在巴格達規(guī)劃一條被襲概率最小的路徑,或者分析亞丁灣海盜活動的熱點區(qū)域。這些分析整合了美軍等多方原本孤立的數(shù)據(jù)源(如軍事情報部門和陸???、海軍陸戰(zhàn)隊等組織機構的數(shù)據(jù)),通過Palantir的Nexus等技術,無縫整合同步數(shù)據(jù)和進行分析模型協(xié)同,包括各類數(shù)據(jù)模型、安全模型和本體對象的管理,其全量數(shù)據(jù)分析和知識管理能跟蹤每一個數(shù)據(jù)和模型的讀,寫和編輯、保存,以積累戰(zhàn)場空間的決策知識。基于通用的大數(shù)據(jù)融合分析平臺,使指揮人員和調(diào)度人員能在單一系統(tǒng)內(nèi)解決所有問題,包括敵人的活動情報分析(情報報告,事件行為等),關聯(lián)分析(背景、跟蹤、時空、反應等)和預判決策等功能。下面幾個圖(圖2-4)是Palantir 為美國軍隊提供的軟件功能界面,從其中的功能和數(shù)據(jù)元素我們可以看出Palantir 的大數(shù)據(jù)分析技術已經(jīng)深入美國核心情報軍事機構,幫助其實現(xiàn)作戰(zhàn)打擊鏈的全局決策支持,從分析情報、打擊目標,再將軍事行動中獲得的新情報與現(xiàn)有大數(shù)據(jù)進行融合更新,極大提高了情報分析和指揮決策能力。

圖2.  國防部和海軍的一個聯(lián)席分析功能界面,對其艦船、飛機、情報文本和相關戰(zhàn)場環(huán)境資源做了融合和關聯(lián),在統(tǒng)一視圖里面進行管控,技術實現(xiàn)上把上述資源映射為各類事件、實體、對象及其關系。

圖3.  阿富汗戰(zhàn)場的融合分析功能界面,對各個區(qū)域的各類事件(武裝襲擊、爆炸、綁架等)進行了大規(guī)模關聯(lián)分析,通過大規(guī)模數(shù)據(jù)可視化鉆取和查詢,可以找出事件之間的因果關系鏈。

圖4. 戰(zhàn)場空間感知態(tài)勢圖,戰(zhàn)場環(huán)境下各類資源和事件總體態(tài)勢分析
(2)以金融欺詐解決方案為例。Palantir憑借其為政府服務的影響力,在2010年摩根大通成為它的首批非政府客戶。后來Palantir幫多家銀行追回納斯達克前主席麥道夫龐氏騙局的數(shù)十億美金,名聲大振,其出色的大數(shù)據(jù)技術獲得華爾街金融大鱷們的認可,目前許多銀行、保險、對沖基金,包括美國證券交易委員會都在使用Palantir的產(chǎn)品和技術。反欺詐是金融領域的一項關鍵業(yè)務,信用評級、風險管理、關聯(lián)交易、洗錢、逃稅等都涉及此項分析內(nèi)容。而金融是信息化程度極高的行業(yè),擁有海量的相關數(shù)據(jù)。Palantir的Metropolis平臺可將許多孤立的金融環(huán)境數(shù)據(jù)匯集到統(tǒng)一分析系統(tǒng),通過時間序列以及關聯(lián)分析、頻繁項分析和知識圖譜、社交網(wǎng)絡等機器學習技術挖掘出有價值的信息。下面圖5-6是Palantir金融版功能界面。

圖5. Palantir金融版Metropolis平臺功能界面圖

圖6. 通過關聯(lián)交易、知識圖譜、社交網(wǎng)絡和頻繁項等機器學習技術建立的反欺詐分析視圖
(3)以警務預測解決方案為例。Palantir通過與美國各州的警隊合作,將遍布在城市及鄉(xiāng)鎮(zhèn)各處卡口、警車上的攝像頭拍下的照片及視頻入庫存儲,與警方的人口數(shù)據(jù)庫、犯罪數(shù)據(jù)庫、DNA數(shù)據(jù)庫等進行深度融合,提取出如車牌號碼、人臉、DNA及體態(tài)等關鍵信息,這些信息雖然繁瑣且表面看起來關聯(lián)性不強,但其間卻蘊藏著各式各樣的關系(強、弱;直接、間接等),聯(lián)系之間更是隱藏著深層的信息。通過大規(guī)模數(shù)據(jù)可視化交互技術可將數(shù)據(jù)間有價值的關聯(lián)關系深度挖掘出來,形成完整的證據(jù)鏈條,為警方節(jié)約大量的人力和時間,而且通過間接關聯(lián)分析,一定程度上能解決線索中斷的問題。通過預測性警務模型分析歷史犯罪數(shù)據(jù),還能計算出最有可能在警察下一次執(zhí)勤時發(fā)生犯罪活動的地點。2011年,美國海關的一名情報人員在墨西哥被一群毒販射殺,美國警方隨即展開名為Operation Fallen Hero的行動,利用Palantir大數(shù)據(jù)技術,在浩瀚的人物、地點以及事件等等元素中間建立復雜的關系鏈,同時融合聯(lián)邦探員自身掌握的信息,如大毒梟們,及其下線的融資渠道以及運毒路線,通過對與本案相關多源數(shù)據(jù)關聯(lián)的可視化展現(xiàn)、交互分析,將分散隱蔽的證據(jù)、信息進行有效銜接,同時篩選排除干擾信息,將證據(jù)鏈完整呈現(xiàn)。最終通過資金往來以及人際關系網(wǎng)絡分析理清了關鍵人物以及關鍵聯(lián)系,并確定了主要嫌疑犯,逮捕了600多名毒販和大批毒品武器。

圖7. 傳統(tǒng)的嫌疑人關系網(wǎng)及證據(jù)鏈分析示意圖

圖8.  Palantir系統(tǒng)鎖定嫌疑人分析功能界面,通過整合各類人員信息,包括地址、郵件、電話、消費、旅行等各類數(shù)據(jù);可視化關系網(wǎng)絡,來分析各類人員信息和事件之間的關聯(lián)關系,構造完整的證據(jù)鏈條。
通過上述三個解決方案的初步業(yè)務和技術分析,Palantir的核心技術關鍵詞可見一斑。一是敏捷大數(shù)據(jù)架構,重在數(shù)據(jù)規(guī)模的可擴展性,兼顧分析實時性和靈活性;二是全量的數(shù)據(jù)融合和關聯(lián)存儲,通過本體論抽象出各類數(shù)據(jù)資源的關系進行映射存儲和關聯(lián)索引;三是分析模型的動態(tài)組合和快速定制,針對不同分析場景可以快速組建分析模型;四是面向人機共生的大數(shù)據(jù)可視化技術,構造全局分析鏈,把人腦決策和數(shù)據(jù)可視化探索進行深度融合。下面我們分別對這幾個方面的核心技術進行探索和解讀。
3.Palantir架構設計:敏捷大數(shù)據(jù)架構的優(yōu)美實現(xiàn)
Palantir的核心技術是構建了“大數(shù)據(jù)分析的基礎設施”,如果AI時代谷歌的DeepMind是互聯(lián)網(wǎng)的大腦(B2C-AI),那么Palantir很可能就是企業(yè)巨頭和政府的AI大腦(B2B-AI)。這套大數(shù)據(jù)基礎設施一定是敏捷靈活的,才能催生智能。Palantir從數(shù)據(jù)融合、應用建模和可視化決策三個層面為客戶提供各種敏捷數(shù)據(jù)分析平臺和系統(tǒng),基于海量數(shù)據(jù)的融合和分析,可以曝光恐怖分子的網(wǎng)絡,計算戰(zhàn)場環(huán)境下的安全駕駛路線,探索犯罪分布和追索嫌疑人,還能跟蹤致命病毒的爆發(fā)路徑等。這一切的實現(xiàn)都是基于其敏捷大數(shù)據(jù)架構(Scale, Speed, Agility)。我在前文《說說敏捷大數(shù)據(jù)》和《大數(shù)據(jù)應用從小做起?談微服務和大數(shù)據(jù)架構》中對敏捷大數(shù)據(jù)給出了初步定義:“敏捷大數(shù)據(jù)是基于數(shù)據(jù)科學的迭代性本質(zhì),利用高效構件化和微服務化技術,對大數(shù)據(jù)架構和關鍵組件等進行服務化設計,實現(xiàn)多粒度數(shù)據(jù)的融合處理和計算模型的標準化配置和管理,從而能根據(jù)特定分析需求快速搭建原型系統(tǒng),快速迭代大數(shù)據(jù)分析結果,快速將原型轉(zhuǎn)化為生產(chǎn)系統(tǒng),提升大數(shù)據(jù)分析效率和數(shù)據(jù)決策價值”。敏捷大數(shù)據(jù)的核心要素遵從SFV原則(Small,F(xiàn)ast,Validation,SFV):一是小、二是快、三是證,小的業(yè)務分析目標切入,快速出原型快速迭代,證明有效之后再擴張。
從Palantir的技術組件和功能分析來看,通過其數(shù)據(jù)融合和本體抽象映射,以及模型組合和可視化等技術,應該說初步實現(xiàn)了敏捷大數(shù)據(jù)分析目標。下面從大數(shù)據(jù)架構角度解讀幾個關鍵的技術點:從圖10的Palantir大數(shù)據(jù)物理架構設計圖可以看出,其核心是圍繞全量的數(shù)據(jù)融合和關聯(lián)存儲,通過本體論抽象出各類數(shù)據(jù)資源的關系進行映射存儲和關聯(lián)索引,設計實現(xiàn)參考了全文搜索的思想,不過是在多源、異構、多模態(tài)條件下的全文索引和搜索,里面涵蓋了復雜的動態(tài)本體論,以及對現(xiàn)實對象和實體的轉(zhuǎn)換、映射和關聯(lián)等操作,相比互聯(lián)網(wǎng)搜索引擎的索引技術,是進行了深度擴展的。另外,Palantir采用了clusterable數(shù)據(jù)存儲技術如Phoenix系統(tǒng),支持PB級規(guī)模數(shù)據(jù)擴展。從底層的數(shù)據(jù)整合,數(shù)據(jù)管道的定制,以及自定義的分析指標和用戶界面,都被整合進一套可視化的向?qū)降拇髷?shù)據(jù)分析平臺。另外設計了revdb可跟蹤任何對象的動態(tài)變化,以支持動態(tài)模型分析和實時決策。

圖9. Palantir大數(shù)據(jù)系統(tǒng)技術架構設計圖
Palantir通過適配器和系統(tǒng)API,將多源異構數(shù)據(jù)表示為統(tǒng)一的模型(Model),也就是數(shù)據(jù)動態(tài)本體的融合實現(xiàn),作為分析的基本數(shù)據(jù)單元,模型是源數(shù)據(jù)集的行和列轉(zhuǎn)化為現(xiàn)實世界中實體的概念對象,任何可用數(shù)據(jù)描述的現(xiàn)實世界對象都可以作為模型。模型之間可以多重組合,構成更大的模型,以支持復雜的計算。Palantir系統(tǒng)在初始化時需要配置分析目標所需的模型類型及其相關屬性。同樣,Document作為實際的數(shù)據(jù)+分析單元,是一種動態(tài)數(shù)據(jù)流,可以不斷迭代并作為新的分析模型輸入,而且簡單的Document可以組合為更復雜的Document,而Metrics可對模型Model進行各種計算。通過Model、Metrics和Document三種系統(tǒng)對象進行關聯(lián)分析操作,簡單的Model被作為更復雜Model的構建塊,簡單的Document被作為更復雜的Document構建塊,基于動態(tài)本體的支持,可以讓分析人員構建和分析任意現(xiàn)實數(shù)據(jù)和對象,針對數(shù)據(jù)科學的迭代本質(zhì),可以讓分析人員不斷轉(zhuǎn)變分析邏輯,驗證新假設,并將新發(fā)現(xiàn)交給決策者,決策者重新制定新關注點,并向分析者提出新問題。最后通過這種迭代式、交互式、可視化大數(shù)據(jù)分析技術(如圖11)進行切實的輔助決策支持。可以看出,上述Palantir系統(tǒng)設計的各種元素及其設計思想,是極其符合敏捷大數(shù)據(jù)架構特征的,可以說是一種敏捷大數(shù)據(jù)架構的完美實現(xiàn)。

圖10. Palantir大數(shù)據(jù)可視化功能界面圖
4.Palantir大數(shù)據(jù)融合:本體論與全量數(shù)據(jù)的無縫融合索引設計
Palantir敏捷大數(shù)據(jù)的設計實現(xiàn),采用現(xiàn)實世界的本體抽象理論方法,基于現(xiàn)實對象和實體的數(shù)據(jù)映射模型,動態(tài)本體是由來自多個數(shù)據(jù)源的數(shù)據(jù)(包括結構化數(shù)據(jù)如日志文件,電子表格和表格;和非結構化數(shù)據(jù),如電子郵件,文檔,圖像和視頻等。)進行轉(zhuǎn)換和集成,從原始存儲格式轉(zhuǎn)化為數(shù)據(jù)實體對象和相關的屬性(類似于數(shù)據(jù)倉庫的數(shù)據(jù)集市模型,如雪花和星型模式),實體及其關聯(lián)關系代表了現(xiàn)實世界中的人、物、事件、時空等對象屬性以及它們之間的連接。因為現(xiàn)實世界的對象屬性時刻在變化,所以這些模型也是要能隨時間變化的,動態(tài)本體設計就是基于這一核心思想,并對各類數(shù)據(jù)源的自動添加,刪除,修改及其映射等操作進行了簡化。這種靈活的、統(tǒng)一的動態(tài)本體數(shù)據(jù)模型,極大簡化和標準化了數(shù)據(jù)集成和數(shù)據(jù)融合過程。
如何對現(xiàn)實世界進行本體設計和實現(xiàn)是Palantir最為基礎的核心技術,先看看什么叫本體論:“Ontology(本體論)一詞是由17世紀的德國經(jīng)院學者郭克蘭紐(Goclenius,1547-1628)首先提出。在古希臘羅馬哲學中,本體論的研究主要是探究世界的本原或基質(zhì)。各派哲學家力圖把世界的存在歸結為某種物質(zhì)的、精神的實體或某個抽象原則。巴門尼德提出了唯一不變的本原“存在”,使關于存在的研究成為這一時期的主題。亞里士多德認為哲學研究的主要對象是實體,而實體或本體的問題是關于本質(zhì)、共相和個體事物的問題。他認為研究實體或本體的哲學是高于其他一切科學的第一哲學。從此,本體論的研究轉(zhuǎn)入探討本質(zhì)與現(xiàn)象、共相與殊相、一般與個別等的關系。本體論(ontology)是哲學概念,它是研究存在的本質(zhì)的哲學問題。但近幾十年里,這個詞被應用到計算機界,并在人工智能、計算機語言以及數(shù)據(jù)庫理論中扮演著越來越重要的作用。”—來源于百度百科。
十年前,我做文本分類挖掘時了解過“本體”這一概念,當時覺得太玄太虛?當我看到Palantir創(chuàng)始人Alex Karp師從德國的Jürgen Habermas獲得哲學博士,再看他家產(chǎn)品的設計理念,才恍然大悟,也許這個本體論真是反應了世界知識結構的本原呢?雖然Karp是個哲學博士,但看來他是深諳計算機知識工程的本質(zhì)的,通過現(xiàn)實世界數(shù)據(jù)的本體設計,再加上以人為中心的大數(shù)據(jù)分析理念,成就了讓美國軍方和金融大鱷認可的核心技術和產(chǎn)品,再次說明了讓大數(shù)據(jù)應用落地并產(chǎn)生價值是需要有幾把刷子的(當然前提是他家產(chǎn)品確實是得到高度的認可,而不是虛假的營銷和包裝)。Palantir的無縫數(shù)據(jù)融合關鍵技術在于數(shù)據(jù)模型(本體)是靈活的,動態(tài)的,而且要能反映人、事、物和環(huán)境的關聯(lián)關系及推理過程,這是大數(shù)據(jù)技術面臨的核心挑戰(zhàn)。Palantir通過本體設計、模型組合和數(shù)據(jù)集市等設計方法和技術,實現(xiàn)了各領域的智能分析,比如財務分析,基本數(shù)據(jù)類型和本體模型包括金融工具,日期,投資組合,指數(shù)和策略等,金融研究人員的思考、經(jīng)驗、談論和推理等內(nèi)容作為本體數(shù)據(jù)的衍生,構成類似數(shù)據(jù)集市的大的領域本體。在其它軍事、網(wǎng)絡分析產(chǎn)品中,設計思路和方法類似。本體數(shù)據(jù)類型包括了人、地點、事物和事件所有關系及其相關屬性,而這正是我們?nèi)四X中思考表達世界的方式,突出人在分析過程中與現(xiàn)實世界數(shù)據(jù)的交互能力(human-driven analysis),再結合可視化技術,通過這種數(shù)據(jù)融合分析過程,我們就會非常擅長在大數(shù)據(jù)中找尋具有特殊意義和決策價值的信息。
5.Palantir大數(shù)據(jù)計算:多維關聯(lián)挖掘與全鏈因果分析視圖
基于本體論設計的海量數(shù)據(jù)融合和關聯(lián)索引,是大數(shù)據(jù)計算的基礎。而機器學習算法和強大的數(shù)據(jù)掃描及分析引擎(可以同時掃描多個數(shù)據(jù)庫)是大數(shù)據(jù)計算的關鍵技術。針對現(xiàn)實環(huán)境中大數(shù)據(jù)多源、異構、海量等特征,傳統(tǒng)的計算模型難以直接處理。一般來講,數(shù)據(jù)計算層需滿足主流大數(shù)據(jù)處理框架的各種計算模型與方法實現(xiàn),如基于云計算并行框架,來實現(xiàn)基于Hadoop批處理、Storm流處理、Spark內(nèi)存處理的高效數(shù)據(jù)挖掘與機器學習。而且要支持MapReduce、Storm、Spark等多種計算模式下的多種數(shù)據(jù)挖掘模型與方法。Palantir的數(shù)據(jù)計算層網(wǎng)上公開資料不多,具體基于那些機器學習模型實現(xiàn)的信息很有限,總體看來其應用的機器學習算法并不太多,其核心是全面的數(shù)據(jù)融合,索引和可視化分析。但其設計思想還是可以大概梳理出來的,Palantir的數(shù)據(jù)計算層主要通過資源管理器進行實現(xiàn),包括模型和數(shù)據(jù)兩個層面的資源:一是用于分析模型資源的統(tǒng)一管理。資源管理器允許分析人員定義和應用一系列過濾器,快速進行各類分析模型的組合和構建。子模型的結果可以建立快照和保存,并用于組合更大的分析任務模型。二是用于數(shù)據(jù)本體資源的管理,數(shù)據(jù)本體作為一個靈活的映射為圖形對象及其關系的真實世界實體,如“人”和“組織”的相關特征,以及它們之間的連接,需要集成許多不同種類的多源異構數(shù)據(jù)資源,并通過數(shù)據(jù)庫索引技術把各級數(shù)據(jù)本體及其屬性、相互聯(lián)系等融合成有機整體,以供可視化全證據(jù)鏈分析。

圖12. Palantir大數(shù)據(jù)計算與關聯(lián)分析功能界面圖
分析人員可以利用機器學習、統(tǒng)計和數(shù)學符號庫對各類模型進行計算和構建,簡單的模型可以作為構建更復雜模型的基礎,而更為精巧復雜的分析行為就是一個流線型、模塊化的過程。Palantir創(chuàng)建的分析模型以一種被稱為Document的形式進行存儲,模型可以分享,鏈接和重組,而且可以加入工作流程中進行迭代分析。通過Model、Document和Metric的組合和連接,構建模型組合和關聯(lián)分析的整個分析鏈條,并在可視化界面上進行互動操作和多視角關聯(lián)分析。通過這種數(shù)據(jù)計算建模方式,基于數(shù)據(jù)融合本體模型和以人為中心的數(shù)據(jù)可視化技術,實現(xiàn)快速查詢,快速迭代和分析協(xié)同,將整個過程的相關碎片信息匯集到Palantir系統(tǒng),建立關聯(lián)聯(lián)系,分析因果關系,最終構建一套強大的通用大數(shù)據(jù)分析平臺。
6.Palantir大數(shù)據(jù)可視化:決策導向與人機共生的分析環(huán)境
大數(shù)據(jù)分析工具固然重要,但是人的判斷更重要,機器智能只能是輔助決策(特別是重要的決策)。通過大規(guī)模機器學習,可以獲得領域?qū)<一驔Q策者關注的價值規(guī)律信息,但應用要落地,就必須對挖掘分析結果進行直觀理解和形成輔助決策知識,傳統(tǒng)的人機交互方式對大數(shù)據(jù)可視化決策來講還不夠,大數(shù)據(jù)可視化互動操作(鉆取、多層次、多視角)、對基于GPS/GIS/衛(wèi)星圖像的大規(guī)??臻g網(wǎng)絡和附加數(shù)據(jù)圖層可視化、動態(tài)數(shù)據(jù)流軌跡和鏈路可視化等技術都需要深入研究。Palantir的產(chǎn)品把海量多源、異構數(shù)據(jù)的融合和機器學習算法引擎整合得很優(yōu)美,處處體現(xiàn)了敏捷大數(shù)據(jù)設計思想。但更為出彩的設計還是它的可視化技術,Palantir提出了一種人機共生的可視化大數(shù)據(jù)交互探索分析理念,這里我再加了決策導向,為什么要人機共生,當然是更好地服務于決策,Palantir的本體數(shù)據(jù)模型設計同樣是想幫助人們更好地理解現(xiàn)實世界的各類實體、對象及其聯(lián)系。

圖13. Palantir大數(shù)據(jù)可視化交互界面圖
我們都知道,大數(shù)據(jù)不僅數(shù)量龐大而且是動態(tài)變化的,大數(shù)據(jù)環(huán)境下普通用戶如何才能理解和使用好分析工具很關鍵,甚至很多用戶對自身的分析需求都不知道的情況下。Palantir不只是做數(shù)據(jù)整合和把分析結果擺出來就完事了,而是把初步分析結果呈現(xiàn)給用戶,讓用戶深度參與后續(xù)的探索過程,從而發(fā)現(xiàn)各種信息之間的聯(lián)系,幫助用戶尋找的深層分析需求和數(shù)據(jù)之間的深度關聯(lián),整個過程是不斷迭代和優(yōu)化的,最終提高用戶的決策能力。要讓用戶搞清楚這一個過程,多種維度的可視化技術十分關鍵,當然Palantir的數(shù)據(jù)本體模型設計,在一定程度上降低了用戶對數(shù)據(jù)的理解難度,相比分類、聚類、預測、神經(jīng)網(wǎng)絡及其復雜參數(shù)項等概念來講,現(xiàn)實數(shù)據(jù)和實體、屬性、事件、關系等進行映射,一般人還是可以理解的。Palantir的交互式可視化界面采用了豐富的大數(shù)據(jù)可視化技術。各類表格,散點圖、地圖、網(wǎng)絡圖、熱點圖、曲線圖等的快速展示和流暢交互,為用戶提供了一個分析主題數(shù)據(jù)相關的全盤視角,而且可視化功能隨著數(shù)據(jù)源或分析條件變化可以動態(tài)調(diào)整和實時響應,下圖是Palantir典型的可視化圖表。

圖14 Palantir大數(shù)據(jù)可視化典型圖表
7.總結與啟示
最后做個小結,本文對大數(shù)據(jù)獨角獸企業(yè)Palantir的核心技術進行了初步探索和解讀,雖然我們軍方和國家安全部門的大數(shù)據(jù)應用情況,暫時不是很了解。但從企業(yè)應用和各級地方政府大數(shù)據(jù)應用的了解情況看,我們與美國在大數(shù)據(jù)領域的關鍵技術研究方面還是有較大差距。正是因為Palantir這種明星公司可能有過度包裝宣傳的因素,所以本文從技術角度進行了解析,對其技術成熟度和技術先進性應該說有了一定理解和把握,包括其大數(shù)據(jù)架構、大數(shù)據(jù)融合(將所有的相關數(shù)據(jù)進行自動連接,構建相關數(shù)據(jù)鏈)和核心技術的設計思想、大數(shù)據(jù)計算和模型元素(Model-Metric-Document分析嵌套)組合以及以人為中心的可視化技術等內(nèi)容。當然受限于核心技術資料的公開度,各項關鍵技術暫時無法做細致深入的解構。
多年前我和一位朋友就討論過一個問題,當然那時候還沒有大數(shù)據(jù)這個概念,當時我們在思考能否設計一個軟件,能整合和查詢大型企業(yè)所有相關數(shù)據(jù),包括各種業(yè)務系統(tǒng)數(shù)據(jù)庫、全局信息環(huán)境下各類PC和各級服務器上的文本、圖片、視頻或公網(wǎng)的相關競爭情報數(shù)據(jù)等,其實就是后來BI領域火過一陣的企業(yè)搜索,不過當時很多國內(nèi)企業(yè)連統(tǒng)一視圖的報表都做不好,結構化數(shù)據(jù)都管理不好,何來非結構數(shù)據(jù)的融合需求呢?想來也是太超前了,但大數(shù)據(jù)要有價值,就不能放過任何數(shù)據(jù)?,F(xiàn)在Palantir的B2B大數(shù)據(jù)業(yè)務就是在做這個事情,而且是做大做強了。所以說,要構建大型企業(yè)和政府機構的決策大腦,B2B的企業(yè)大數(shù)據(jù)系統(tǒng)必須要上,而且其應用價值不會比互聯(lián)網(wǎng)大數(shù)據(jù)應用價值小。Palantir的政府大數(shù)據(jù)系統(tǒng)、金融大數(shù)據(jù)系統(tǒng)、DeepMind的醫(yī)療大數(shù)據(jù)系統(tǒng)、通用電氣(GE)的物聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)等,都在向這個趨勢演化。
全量大數(shù)據(jù)分析,一定面臨數(shù)據(jù)多源異構、關聯(lián)性、動態(tài)性和不確定性等復雜多變的問題,Palantir的“人機共生”大數(shù)據(jù)分析理念值得我們學習,而且會是將來AI時代最為重要的大數(shù)據(jù)應用模式。例如軍事情報分析和反欺詐分析,敵人或犯罪分子的應對手段也是在動態(tài)變化的,只靠歷史數(shù)據(jù)分析是不夠的,而且最新動態(tài)信息跟不上的話,分析結果可能會造成嚴重誤導(就像豬的世界里一定不會有被宰殺的記錄進行存檔),大數(shù)據(jù)系統(tǒng)一定要解決增量、動態(tài)、反饋、知識、決策這幾個關鍵問題,而且是要把這幾個方面串起來,形成完整的分析鏈,采用Palantir產(chǎn)品設計的人腦和系統(tǒng)共生的分析方式,從而能夠?qū)焖僮兓鞒鰧崟r響應。大數(shù)據(jù)不僅僅是數(shù)據(jù)采集,分析和管理,更為重要的是領域業(yè)務、知識模型和本體抽象融合,把人的理解和決策,與機器智能的融合、計算、推理能力強強聯(lián)合,是Palantir最為核心的大數(shù)據(jù)技術,另外Palantir做的不只是產(chǎn)品,通過技術人員的現(xiàn)場服務,幫助分析人員理解融入人機共生的大數(shù)據(jù)分析環(huán)境,這才能最大化大數(shù)據(jù)系統(tǒng)的輔助決策價值。
總之,大數(shù)據(jù)和AI時代的基礎設施,除了互聯(lián)網(wǎng)界的谷歌、亞馬遜等巨頭之外,在傳統(tǒng)大型企業(yè)和政府領域還會有Palantir這樣的B2B大數(shù)據(jù)獨角獸,換句話說,Palantir代表了美國在線下大數(shù)據(jù)領域的核心競爭力(特別是結合空天技術的軍事、公共安全大數(shù)據(jù)領域,是大數(shù)據(jù)時代國防和內(nèi)部安全的核心技術保障),互聯(lián)網(wǎng)畢竟還是虛擬空間,不能構建真實世界完整的數(shù)據(jù)視圖,軍事、金融、政務、交通、醫(yī)療等領域融合自身線下大數(shù)據(jù)和線上數(shù)據(jù)的高效分析智能決策,才是未來國家大數(shù)據(jù)治理之根本。如此看來,人工智能時代,不管是B2C還是B2B大數(shù)據(jù),核心技術的落后其后果是難以估量的。




















 
 
 





 
 
 
 