大數(shù)據(jù)獨(dú)角獸Palantir之核心技術(shù)探秘
1.Palantir源起:B2B大數(shù)據(jù)和企業(yè)級Google。
Palantir(中文名帕蘭提爾,源于《指環(huán)王》中可穿越時(shí)空、洞悉世間一切的水晶球Palantír)被譽(yù)為硅谷最神秘的大數(shù)據(jù)獨(dú)角獸企業(yè),短短幾年內(nèi)躋身百億俱樂部,成為全球最高估值排名第四的初創(chuàng)公司。它的主要客戶只在美劇和好萊塢里出現(xiàn),如美國聯(lián)邦調(diào)查局(FBI)、美國中央情報(bào)局(CIA)、美國國家安全局(NSA)、美國軍隊(duì)和各級反恐機(jī)構(gòu),當(dāng)然還有如JPMorgan這樣的華爾街金融大鱷等等。關(guān)于Palantir的傳奇故事很多,CIA通過他家的大數(shù)據(jù)技術(shù)追蹤到本拉登;創(chuàng)始人Alex Karp師從德國的Jürgen Habermas(研究西方馬克思主義)獲得哲學(xué)博士,熱衷中國氣功和太極;幫多家銀行揭露旁氏騙局挽回?cái)?shù)十億損失,幫助摩根大通解決欺詐交易和黑客攻擊問題,每年節(jié)約數(shù)億美元;公司創(chuàng)始人和投資人(號稱“硅谷黑幫”)由海軍陸戰(zhàn)隊(duì)員隨時(shí)保護(hù)以防不測;產(chǎn)品只賣美國及其盟友國;與棱鏡門有說不清楚的關(guān)系等…這些花邊新聞不是本文的關(guān)注點(diǎn),本文重點(diǎn)從大數(shù)據(jù)技術(shù)角度來揭密Palantir的B2B大數(shù)據(jù)王國。
如果說谷歌是互聯(lián)網(wǎng)大數(shù)據(jù)的霸主(確實(shí)如此,我在前文《從Tensorflow看谷歌的云端人工智能戰(zhàn)略》有詳細(xì)解讀),那么Palantir的目標(biāo)就是做未來企業(yè)級大數(shù)據(jù)霸主,這家公司的愿景就是做企業(yè)和政府領(lǐng)域的Google。為什么這樣講?從技術(shù)角度來分析,這是大數(shù)據(jù)發(fā)展的必然趨勢,互聯(lián)網(wǎng)上的數(shù)據(jù)多半是UGC用戶產(chǎn)生內(nèi)容,或是如電商平臺這種某細(xì)分領(lǐng)域的獨(dú)立生態(tài)數(shù)據(jù),而真正的大數(shù)據(jù)金礦還在眾多大型企業(yè)和政府機(jī)構(gòu)的服務(wù)器集群中沉睡。比如一個(gè)國家的情報(bào)部門和各部、各局信息中心,無不是掌握著成千上萬關(guān)鍵領(lǐng)域的大數(shù)據(jù),包括各種業(yè)務(wù)數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)、DNA樣本、語音視頻圖片、地圖時(shí)空數(shù)據(jù)等(當(dāng)然前提是信息化程度及其發(fā)達(dá),就像我們的稅務(wù)系統(tǒng)一樣,而不是房產(chǎn)登記系統(tǒng)),面對如此海量、多源、異構(gòu)而且高關(guān)聯(lián)性、復(fù)雜性、動(dòng)態(tài)性大數(shù)據(jù),如果沒有快速的大數(shù)據(jù)分析技術(shù)和工具支持,那只能是望數(shù)興嘆。而Palantir的大數(shù)據(jù)技術(shù)和產(chǎn)品就是專門針對大型企業(yè)和政府機(jī)構(gòu)需求而生(與互聯(lián)網(wǎng)公司的大數(shù)據(jù)技術(shù)有較大不同),其官方主頁上的自我定位也很準(zhǔn)確:“Palantir’s mission is to solve the most important problems for the world’s most important institutions.”。企業(yè)級大數(shù)據(jù)玩家當(dāng)然政府和金融是最具數(shù)權(quán)(信息權(quán)利)的兩個(gè)領(lǐng)域,所以Palantir研發(fā)的平臺級大數(shù)據(jù)產(chǎn)品只有兩個(gè)版本:Palantir Gotham(服務(wù)政府及軍隊(duì)客戶)和Palantir Metropolis(服務(wù)金融、法律及其它客戶)。如果說谷歌、亞馬遜、Facebook等互聯(lián)網(wǎng)巨頭是B2C大數(shù)據(jù),那么Palantir就是B2B大數(shù)據(jù),多數(shù)企業(yè)和政府機(jī)構(gòu)對大數(shù)據(jù)的應(yīng)用還處于起步和探索階段,互聯(lián)網(wǎng)下或關(guān)鍵領(lǐng)域內(nèi)網(wǎng)、專網(wǎng)中結(jié)合私有云技術(shù)的B2B大數(shù)據(jù)分析是大數(shù)據(jù)時(shí)代發(fā)展的必然,而且應(yīng)用潛力和價(jià)值更為巨大,谷歌旗下DeepMind公司開始跟大型醫(yī)院和衛(wèi)生部門合作就是最好的注解,互聯(lián)網(wǎng)巨頭以其已有的大數(shù)據(jù)技術(shù)優(yōu)勢,其業(yè)務(wù)觸角正在向傳統(tǒng)行業(yè)延伸。
圖1. Palantir官方主頁的服務(wù)宗旨
2.Palantir產(chǎn)品技術(shù)體系:軍事、金融和警務(wù)大數(shù)據(jù)案例分析
網(wǎng)上有個(gè)段子,雖然真假不能確認(rèn),但卻能從中看出Palantir的發(fā)跡史:“美國911之后,CIA等部門忙于調(diào)查各種線索。Stanford的幾個(gè)教授以公開的海量信息為輸入,利用大數(shù)據(jù)處理技術(shù)建立關(guān)于人物關(guān)系的網(wǎng)絡(luò),最后鎖定了一批疑似人,并迅速將結(jié)果發(fā)布出去,使得CIA等部門大為震驚,因?yàn)榻淌趥兊慕Y(jié)果與CIA花人力物力大量偵查和審訊的結(jié)果很近似,讓CIA們誤以為教授們有牽連,迅速飛到Stanford找教授們問話。從此,“人腦+電腦“來分析復(fù)雜問題并輔助反恐成為可能”,Palantir正是在這一大背景下誕生和發(fā)跡的。目前Palantir有兩大核心產(chǎn)品,Palantir Gotham和Palantir Metropolis,前者主要服務(wù)于國防安全和政府管理領(lǐng)域,后者主要服務(wù)于金融領(lǐng)域。兩大產(chǎn)品體系下轄十多種解決方案,如反欺詐(Anti Fraud)、網(wǎng)絡(luò)安全(Cyber Security)、國防安全(Defense)、內(nèi)部威脅(Insider Threat)、危機(jī)應(yīng)對(Crisis Response)、保險(xiǎn)分析(Insurance Analytics)、案例管理(Case Management)、疾病控制(Disease Response)、智能化決策(Intelligence)等。兩個(gè)產(chǎn)品線的核心技術(shù)是服務(wù)客戶整理、分析、利用不同來源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),創(chuàng)造一種人腦智能和計(jì)算機(jī)智能的共生分析環(huán)境及工具,人腦和大數(shù)據(jù)分析互補(bǔ),提升客戶的智慧和洞察力,從而解決大數(shù)據(jù)環(huán)境下的復(fù)雜問題決策。Palantir在大數(shù)據(jù)江湖上最傳奇的戰(zhàn)績,一是幫多家銀行追回納斯達(dá)克前主席麥道夫龐氏騙局的數(shù)十億美金,二是幫助奧巴馬政府追捕到本拉登。下面我們以軍事、金融、警務(wù)三個(gè)方面的案例來對其產(chǎn)品的技術(shù)體系和服務(wù)內(nèi)容進(jìn)行初步探索和分析:
(1)以軍事國防解決方案為例。其核心目標(biāo)是將多個(gè)軍事情報(bào)領(lǐng)域的海量數(shù)據(jù)進(jìn)行融合和關(guān)聯(lián)分析,轉(zhuǎn)化為可操作的決策指揮能力,多情報(bào)領(lǐng)域數(shù)據(jù)的集成和融合是要解決的關(guān)鍵問題,包括非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)流,如鏈接圖,電子表格,電話,文檔,網(wǎng)絡(luò)數(shù)據(jù),傳感器數(shù)據(jù),甚至動(dòng)態(tài)視頻、圖像等。Palantir提供了一個(gè)基于全量多模態(tài)數(shù)據(jù)融合和協(xié)同挖掘分析的大數(shù)據(jù)支撐框架,可以對在地理、空間上分散的人、裝備、環(huán)境、事件等進(jìn)行大規(guī)模實(shí)時(shí)關(guān)聯(lián)和因果分析,以指導(dǎo)復(fù)雜戰(zhàn)場環(huán)境下的軍事行動(dòng)。這些大數(shù)據(jù)技術(shù)已被美國軍方廣泛運(yùn)用于戰(zhàn)場態(tài)勢分析和預(yù)測,如定位伊拉克戰(zhàn)場可能存在的炸彈或地雷位置,幫助美軍在巴格達(dá)規(guī)劃一條被襲概率最小的路徑,或者分析亞丁灣海盜活動(dòng)的熱點(diǎn)區(qū)域。這些分析整合了美軍等多方原本孤立的數(shù)據(jù)源(如軍事情報(bào)部門和陸海空、海軍陸戰(zhàn)隊(duì)等組織機(jī)構(gòu)的數(shù)據(jù)),通過Palantir的Nexus等技術(shù),無縫整合同步數(shù)據(jù)和進(jìn)行分析模型協(xié)同,包括各類數(shù)據(jù)模型、安全模型和本體對象的管理,其全量數(shù)據(jù)分析和知識管理能跟蹤每一個(gè)數(shù)據(jù)和模型的讀,寫和編輯、保存,以積累戰(zhàn)場空間的決策知識?;谕ㄓ玫拇髷?shù)據(jù)融合分析平臺,使指揮人員和調(diào)度人員能在單一系統(tǒng)內(nèi)解決所有問題,包括敵人的活動(dòng)情報(bào)分析(情報(bào)報(bào)告,事件行為等),關(guān)聯(lián)分析(背景、跟蹤、時(shí)空、反應(yīng)等)和預(yù)判決策等功能。下面幾個(gè)圖(圖2-4)是Palantir 為美國軍隊(duì)提供的軟件功能界面,從其中的功能和數(shù)據(jù)元素我們可以看出Palantir 的大數(shù)據(jù)分析技術(shù)已經(jīng)深入美國核心情報(bào)軍事機(jī)構(gòu),幫助其實(shí)現(xiàn)作戰(zhàn)打擊鏈的全局決策支持,從分析情報(bào)、打擊目標(biāo),再將軍事行動(dòng)中獲得的新情報(bào)與現(xiàn)有大數(shù)據(jù)進(jìn)行融合更新,極大提高了情報(bào)分析和指揮決策能力。
圖2. 國防部和海軍的一個(gè)聯(lián)席分析功能界面,對其艦船、飛機(jī)、情報(bào)文本和相關(guān)戰(zhàn)場環(huán)境資源做了融合和關(guān)聯(lián),在統(tǒng)一視圖里面進(jìn)行管控,技術(shù)實(shí)現(xiàn)上把上述資源映射為各類事件、實(shí)體、對象及其關(guān)系。
圖3. 阿富汗戰(zhàn)場的融合分析功能界面,對各個(gè)區(qū)域的各類事件(武裝襲擊、爆炸、綁架等)進(jìn)行了大規(guī)模關(guān)聯(lián)分析,通過大規(guī)模數(shù)據(jù)可視化鉆取和查詢,可以找出事件之間的因果關(guān)系鏈。
圖4. 戰(zhàn)場空間感知態(tài)勢圖,戰(zhàn)場環(huán)境下各類資源和事件總體態(tài)勢分析
(2)以金融欺詐解決方案為例。Palantir憑借其為政府服務(wù)的影響力,在2010年摩根大通成為它的首批非政府客戶。后來Palantir幫多家銀行追回納斯達(dá)克前主席麥道夫龐氏騙局的數(shù)十億美金,名聲大振,其出色的大數(shù)據(jù)技術(shù)獲得華爾街金融大鱷們的認(rèn)可,目前許多銀行、保險(xiǎn)、對沖基金,包括美國證券交易委員會(huì)都在使用Palantir的產(chǎn)品和技術(shù)。反欺詐是金融領(lǐng)域的一項(xiàng)關(guān)鍵業(yè)務(wù),信用評級、風(fēng)險(xiǎn)管理、關(guān)聯(lián)交易、洗錢、逃稅等都涉及此項(xiàng)分析內(nèi)容。而金融是信息化程度極高的行業(yè),擁有海量的相關(guān)數(shù)據(jù)。Palantir的Metropolis平臺可將許多孤立的金融環(huán)境數(shù)據(jù)匯集到統(tǒng)一分析系統(tǒng),通過時(shí)間序列以及關(guān)聯(lián)分析、頻繁項(xiàng)分析和知識圖譜、社交網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)技術(shù)挖掘出有價(jià)值的信息。下面圖5-6是Palantir金融版功能界面。
圖5. Palantir金融版Metropolis平臺功能界面圖
圖6. 通過關(guān)聯(lián)交易、知識圖譜、社交網(wǎng)絡(luò)和頻繁項(xiàng)等機(jī)器學(xué)習(xí)技術(shù)建立的反欺詐分析視圖
(3)以警務(wù)預(yù)測解決方案為例。Palantir通過與美國各州的警隊(duì)合作,將遍布在城市及鄉(xiāng)鎮(zhèn)各處卡口、警車上的攝像頭拍下的照片及視頻入庫存儲,與警方的人口數(shù)據(jù)庫、犯罪數(shù)據(jù)庫、DNA數(shù)據(jù)庫等進(jìn)行深度融合,提取出如車牌號碼、人臉、DNA及體態(tài)等關(guān)鍵信息,這些信息雖然繁瑣且表面看起來關(guān)聯(lián)性不強(qiáng),但其間卻蘊(yùn)藏著各式各樣的關(guān)系(強(qiáng)、弱;直接、間接等),聯(lián)系之間更是隱藏著深層的信息。通過大規(guī)模數(shù)據(jù)可視化交互技術(shù)可將數(shù)據(jù)間有價(jià)值的關(guān)聯(lián)關(guān)系深度挖掘出來,形成完整的證據(jù)鏈條,為警方節(jié)約大量的人力和時(shí)間,而且通過間接關(guān)聯(lián)分析,一定程度上能解決線索中斷的問題。通過預(yù)測性警務(wù)模型分析歷史犯罪數(shù)據(jù),還能計(jì)算出最有可能在警察下一次執(zhí)勤時(shí)發(fā)生犯罪活動(dòng)的地點(diǎn)。2011年,美國海關(guān)的一名情報(bào)人員在墨西哥被一群毒販射殺,美國警方隨即展開名為Operation Fallen Hero的行動(dòng),利用Palantir大數(shù)據(jù)技術(shù),在浩瀚的人物、地點(diǎn)以及事件等等元素中間建立復(fù)雜的關(guān)系鏈,同時(shí)融合聯(lián)邦探員自身掌握的信息,如大毒梟們,及其下線的融資渠道以及運(yùn)毒路線,通過對與本案相關(guān)多源數(shù)據(jù)關(guān)聯(lián)的可視化展現(xiàn)、交互分析,將分散隱蔽的證據(jù)、信息進(jìn)行有效銜接,同時(shí)篩選排除干擾信息,將證據(jù)鏈完整呈現(xiàn)。最終通過資金往來以及人際關(guān)系網(wǎng)絡(luò)分析理清了關(guān)鍵人物以及關(guān)鍵聯(lián)系,并確定了主要嫌疑犯,逮捕了600多名毒販和大批毒品武器。
圖7. 傳統(tǒng)的嫌疑人關(guān)系網(wǎng)及證據(jù)鏈分析示意圖
圖8. Palantir系統(tǒng)鎖定嫌疑人分析功能界面,通過整合各類人員信息,包括地址、郵件、電話、消費(fèi)、旅行等各類數(shù)據(jù);可視化關(guān)系網(wǎng)絡(luò),來分析各類人員信息和事件之間的關(guān)聯(lián)關(guān)系,構(gòu)造完整的證據(jù)鏈條。
通過上述三個(gè)解決方案的初步業(yè)務(wù)和技術(shù)分析,Palantir的核心技術(shù)關(guān)鍵詞可見一斑。一是敏捷大數(shù)據(jù)架構(gòu),重在數(shù)據(jù)規(guī)模的可擴(kuò)展性,兼顧分析實(shí)時(shí)性和靈活性;二是全量的數(shù)據(jù)融合和關(guān)聯(lián)存儲,通過本體論抽象出各類數(shù)據(jù)資源的關(guān)系進(jìn)行映射存儲和關(guān)聯(lián)索引;三是分析模型的動(dòng)態(tài)組合和快速定制,針對不同分析場景可以快速組建分析模型;四是面向人機(jī)共生的大數(shù)據(jù)可視化技術(shù),構(gòu)造全局分析鏈,把人腦決策和數(shù)據(jù)可視化探索進(jìn)行深度融合。下面我們分別對這幾個(gè)方面的核心技術(shù)進(jìn)行探索和解讀。
3.Palantir架構(gòu)設(shè)計(jì):敏捷大數(shù)據(jù)架構(gòu)的優(yōu)美實(shí)現(xiàn)
Palantir的核心技術(shù)是構(gòu)建了“大數(shù)據(jù)分析的基礎(chǔ)設(shè)施”,如果AI時(shí)代谷歌的DeepMind是互聯(lián)網(wǎng)的大腦(B2C-AI),那么Palantir很可能就是企業(yè)巨頭和政府的AI大腦(B2B-AI)。這套大數(shù)據(jù)基礎(chǔ)設(shè)施一定是敏捷靈活的,才能催生智能。Palantir從數(shù)據(jù)融合、應(yīng)用建模和可視化決策三個(gè)層面為客戶提供各種敏捷數(shù)據(jù)分析平臺和系統(tǒng),基于海量數(shù)據(jù)的融合和分析,可以曝光恐怖分子的網(wǎng)絡(luò),計(jì)算戰(zhàn)場環(huán)境下的安全駕駛路線,探索犯罪分布和追索嫌疑人,還能跟蹤致命病毒的爆發(fā)路徑等。這一切的實(shí)現(xiàn)都是基于其敏捷大數(shù)據(jù)架構(gòu)(Scale, Speed, Agility)。我在前文《說說敏捷大數(shù)據(jù)》和《大數(shù)據(jù)應(yīng)用從小做起?談微服務(wù)和大數(shù)據(jù)架構(gòu)》中對敏捷大數(shù)據(jù)給出了初步定義:“敏捷大數(shù)據(jù)是基于數(shù)據(jù)科學(xué)的迭代性本質(zhì),利用高效構(gòu)件化和微服務(wù)化技術(shù),對大數(shù)據(jù)架構(gòu)和關(guān)鍵組件等進(jìn)行服務(wù)化設(shè)計(jì),實(shí)現(xiàn)多粒度數(shù)據(jù)的融合處理和計(jì)算模型的標(biāo)準(zhǔn)化配置和管理,從而能根據(jù)特定分析需求快速搭建原型系統(tǒng),快速迭代大數(shù)據(jù)分析結(jié)果,快速將原型轉(zhuǎn)化為生產(chǎn)系統(tǒng),提升大數(shù)據(jù)分析效率和數(shù)據(jù)決策價(jià)值”。敏捷大數(shù)據(jù)的核心要素遵從SFV原則(Small,F(xiàn)ast,Validation,SFV):一是小、二是快、三是證,小的業(yè)務(wù)分析目標(biāo)切入,快速出原型快速迭代,證明有效之后再擴(kuò)張。
從Palantir的技術(shù)組件和功能分析來看,通過其數(shù)據(jù)融合和本體抽象映射,以及模型組合和可視化等技術(shù),應(yīng)該說初步實(shí)現(xiàn)了敏捷大數(shù)據(jù)分析目標(biāo)。下面從大數(shù)據(jù)架構(gòu)角度解讀幾個(gè)關(guān)鍵的技術(shù)點(diǎn):從圖10的Palantir大數(shù)據(jù)物理架構(gòu)設(shè)計(jì)圖可以看出,其核心是圍繞全量的數(shù)據(jù)融合和關(guān)聯(lián)存儲,通過本體論抽象出各類數(shù)據(jù)資源的關(guān)系進(jìn)行映射存儲和關(guān)聯(lián)索引,設(shè)計(jì)實(shí)現(xiàn)參考了全文搜索的思想,不過是在多源、異構(gòu)、多模態(tài)條件下的全文索引和搜索,里面涵蓋了復(fù)雜的動(dòng)態(tài)本體論,以及對現(xiàn)實(shí)對象和實(shí)體的轉(zhuǎn)換、映射和關(guān)聯(lián)等操作,相比互聯(lián)網(wǎng)搜索引擎的索引技術(shù),是進(jìn)行了深度擴(kuò)展的。另外,Palantir采用了clusterable數(shù)據(jù)存儲技術(shù)如Phoenix系統(tǒng),支持PB級規(guī)模數(shù)據(jù)擴(kuò)展。從底層的數(shù)據(jù)整合,數(shù)據(jù)管道的定制,以及自定義的分析指標(biāo)和用戶界面,都被整合進(jìn)一套可視化的向?qū)降拇髷?shù)據(jù)分析平臺。另外設(shè)計(jì)了revdb可跟蹤任何對象的動(dòng)態(tài)變化,以支持動(dòng)態(tài)模型分析和實(shí)時(shí)決策。
圖9. Palantir大數(shù)據(jù)系統(tǒng)技術(shù)架構(gòu)設(shè)計(jì)圖
Palantir通過適配器和系統(tǒng)API,將多源異構(gòu)數(shù)據(jù)表示為統(tǒng)一的模型(Model),也就是數(shù)據(jù)動(dòng)態(tài)本體的融合實(shí)現(xiàn),作為分析的基本數(shù)據(jù)單元,模型是源數(shù)據(jù)集的行和列轉(zhuǎn)化為現(xiàn)實(shí)世界中實(shí)體的概念對象,任何可用數(shù)據(jù)描述的現(xiàn)實(shí)世界對象都可以作為模型。模型之間可以多重組合,構(gòu)成更大的模型,以支持復(fù)雜的計(jì)算。Palantir系統(tǒng)在初始化時(shí)需要配置分析目標(biāo)所需的模型類型及其相關(guān)屬性。同樣,Document作為實(shí)際的數(shù)據(jù)+分析單元,是一種動(dòng)態(tài)數(shù)據(jù)流,可以不斷迭代并作為新的分析模型輸入,而且簡單的Document可以組合為更復(fù)雜的Document,而Metrics可對模型Model進(jìn)行各種計(jì)算。通過Model、Metrics和Document三種系統(tǒng)對象進(jìn)行關(guān)聯(lián)分析操作,簡單的Model被作為更復(fù)雜Model的構(gòu)建塊,簡單的Document被作為更復(fù)雜的Document構(gòu)建塊,基于動(dòng)態(tài)本體的支持,可以讓分析人員構(gòu)建和分析任意現(xiàn)實(shí)數(shù)據(jù)和對象,針對數(shù)據(jù)科學(xué)的迭代本質(zhì),可以讓分析人員不斷轉(zhuǎn)變分析邏輯,驗(yàn)證新假設(shè),并將新發(fā)現(xiàn)交給決策者,決策者重新制定新關(guān)注點(diǎn),并向分析者提出新問題。最后通過這種迭代式、交互式、可視化大數(shù)據(jù)分析技術(shù)(如圖11)進(jìn)行切實(shí)的輔助決策支持??梢钥闯?,上述Palantir系統(tǒng)設(shè)計(jì)的各種元素及其設(shè)計(jì)思想,是極其符合敏捷大數(shù)據(jù)架構(gòu)特征的,可以說是一種敏捷大數(shù)據(jù)架構(gòu)的完美實(shí)現(xiàn)。
圖10. Palantir大數(shù)據(jù)可視化功能界面圖
4.Palantir大數(shù)據(jù)融合:本體論與全量數(shù)據(jù)的無縫融合索引設(shè)計(jì)
Palantir敏捷大數(shù)據(jù)的設(shè)計(jì)實(shí)現(xiàn),采用現(xiàn)實(shí)世界的本體抽象理論方法,基于現(xiàn)實(shí)對象和實(shí)體的數(shù)據(jù)映射模型,動(dòng)態(tài)本體是由來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)(包括結(jié)構(gòu)化數(shù)據(jù)如日志文件,電子表格和表格;和非結(jié)構(gòu)化數(shù)據(jù),如電子郵件,文檔,圖像和視頻等。)進(jìn)行轉(zhuǎn)換和集成,從原始存儲格式轉(zhuǎn)化為數(shù)據(jù)實(shí)體對象和相關(guān)的屬性(類似于數(shù)據(jù)倉庫的數(shù)據(jù)集市模型,如雪花和星型模式),實(shí)體及其關(guān)聯(lián)關(guān)系代表了現(xiàn)實(shí)世界中的人、物、事件、時(shí)空等對象屬性以及它們之間的連接。因?yàn)楝F(xiàn)實(shí)世界的對象屬性時(shí)刻在變化,所以這些模型也是要能隨時(shí)間變化的,動(dòng)態(tài)本體設(shè)計(jì)就是基于這一核心思想,并對各類數(shù)據(jù)源的自動(dòng)添加,刪除,修改及其映射等操作進(jìn)行了簡化。這種靈活的、統(tǒng)一的動(dòng)態(tài)本體數(shù)據(jù)模型,極大簡化和標(biāo)準(zhǔn)化了數(shù)據(jù)集成和數(shù)據(jù)融合過程。
如何對現(xiàn)實(shí)世界進(jìn)行本體設(shè)計(jì)和實(shí)現(xiàn)是Palantir最為基礎(chǔ)的核心技術(shù),先看看什么叫本體論:“Ontology(本體論)一詞是由17世紀(jì)的德國經(jīng)院學(xué)者郭克蘭紐(Goclenius,1547-1628)首先提出。在古希臘羅馬哲學(xué)中,本體論的研究主要是探究世界的本原或基質(zhì)。各派哲學(xué)家力圖把世界的存在歸結(jié)為某種物質(zhì)的、精神的實(shí)體或某個(gè)抽象原則。巴門尼德提出了唯一不變的本原“存在”,使關(guān)于存在的研究成為這一時(shí)期的主題。亞里士多德認(rèn)為哲學(xué)研究的主要對象是實(shí)體,而實(shí)體或本體的問題是關(guān)于本質(zhì)、共相和個(gè)體事物的問題。他認(rèn)為研究實(shí)體或本體的哲學(xué)是高于其他一切科學(xué)的第一哲學(xué)。從此,本體論的研究轉(zhuǎn)入探討本質(zhì)與現(xiàn)象、共相與殊相、一般與個(gè)別等的關(guān)系。本體論(ontology)是哲學(xué)概念,它是研究存在的本質(zhì)的哲學(xué)問題。但近幾十年里,這個(gè)詞被應(yīng)用到計(jì)算機(jī)界,并在人工智能、計(jì)算機(jī)語言以及數(shù)據(jù)庫理論中扮演著越來越重要的作用。”—來源于百度百科。
十年前,我做文本分類挖掘時(shí)了解過“本體”這一概念,當(dāng)時(shí)覺得太玄太虛?當(dāng)我看到Palantir創(chuàng)始人Alex Karp師從德國的Jürgen Habermas獲得哲學(xué)博士,再看他家產(chǎn)品的設(shè)計(jì)理念,才恍然大悟,也許這個(gè)本體論真是反應(yīng)了世界知識結(jié)構(gòu)的本原呢?雖然Karp是個(gè)哲學(xué)博士,但看來他是深諳計(jì)算機(jī)知識工程的本質(zhì)的,通過現(xiàn)實(shí)世界數(shù)據(jù)的本體設(shè)計(jì),再加上以人為中心的大數(shù)據(jù)分析理念,成就了讓美國軍方和金融大鱷認(rèn)可的核心技術(shù)和產(chǎn)品,再次說明了讓大數(shù)據(jù)應(yīng)用落地并產(chǎn)生價(jià)值是需要有幾把刷子的(當(dāng)然前提是他家產(chǎn)品確實(shí)是得到高度的認(rèn)可,而不是虛假的營銷和包裝)。Palantir的無縫數(shù)據(jù)融合關(guān)鍵技術(shù)在于數(shù)據(jù)模型(本體)是靈活的,動(dòng)態(tài)的,而且要能反映人、事、物和環(huán)境的關(guān)聯(lián)關(guān)系及推理過程,這是大數(shù)據(jù)技術(shù)面臨的核心挑戰(zhàn)。Palantir通過本體設(shè)計(jì)、模型組合和數(shù)據(jù)集市等設(shè)計(jì)方法和技術(shù),實(shí)現(xiàn)了各領(lǐng)域的智能分析,比如財(cái)務(wù)分析,基本數(shù)據(jù)類型和本體模型包括金融工具,日期,投資組合,指數(shù)和策略等,金融研究人員的思考、經(jīng)驗(yàn)、談?wù)摵屯评淼葍?nèi)容作為本體數(shù)據(jù)的衍生,構(gòu)成類似數(shù)據(jù)集市的大的領(lǐng)域本體。在其它軍事、網(wǎng)絡(luò)分析產(chǎn)品中,設(shè)計(jì)思路和方法類似。本體數(shù)據(jù)類型包括了人、地點(diǎn)、事物和事件所有關(guān)系及其相關(guān)屬性,而這正是我們?nèi)四X中思考表達(dá)世界的方式,突出人在分析過程中與現(xiàn)實(shí)世界數(shù)據(jù)的交互能力(human-driven analysis),再結(jié)合可視化技術(shù),通過這種數(shù)據(jù)融合分析過程,我們就會(huì)非常擅長在大數(shù)據(jù)中找尋具有特殊意義和決策價(jià)值的信息。
5.Palantir大數(shù)據(jù)計(jì)算:多維關(guān)聯(lián)挖掘與全鏈因果分析視圖
基于本體論設(shè)計(jì)的海量數(shù)據(jù)融合和關(guān)聯(lián)索引,是大數(shù)據(jù)計(jì)算的基礎(chǔ)。而機(jī)器學(xué)習(xí)算法和強(qiáng)大的數(shù)據(jù)掃描及分析引擎(可以同時(shí)掃描多個(gè)數(shù)據(jù)庫)是大數(shù)據(jù)計(jì)算的關(guān)鍵技術(shù)。針對現(xiàn)實(shí)環(huán)境中大數(shù)據(jù)多源、異構(gòu)、海量等特征,傳統(tǒng)的計(jì)算模型難以直接處理。一般來講,數(shù)據(jù)計(jì)算層需滿足主流大數(shù)據(jù)處理框架的各種計(jì)算模型與方法實(shí)現(xiàn),如基于云計(jì)算并行框架,來實(shí)現(xiàn)基于Hadoop批處理、Storm流處理、Spark內(nèi)存處理的高效數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。而且要支持MapReduce、Storm、Spark等多種計(jì)算模式下的多種數(shù)據(jù)挖掘模型與方法。Palantir的數(shù)據(jù)計(jì)算層網(wǎng)上公開資料不多,具體基于那些機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)的信息很有限,總體看來其應(yīng)用的機(jī)器學(xué)習(xí)算法并不太多,其核心是全面的數(shù)據(jù)融合,索引和可視化分析。但其設(shè)計(jì)思想還是可以大概梳理出來的,Palantir的數(shù)據(jù)計(jì)算層主要通過資源管理器進(jìn)行實(shí)現(xiàn),包括模型和數(shù)據(jù)兩個(gè)層面的資源:一是用于分析模型資源的統(tǒng)一管理。資源管理器允許分析人員定義和應(yīng)用一系列過濾器,快速進(jìn)行各類分析模型的組合和構(gòu)建。子模型的結(jié)果可以建立快照和保存,并用于組合更大的分析任務(wù)模型。二是用于數(shù)據(jù)本體資源的管理,數(shù)據(jù)本體作為一個(gè)靈活的映射為圖形對象及其關(guān)系的真實(shí)世界實(shí)體,如“人”和“組織”的相關(guān)特征,以及它們之間的連接,需要集成許多不同種類的多源異構(gòu)數(shù)據(jù)資源,并通過數(shù)據(jù)庫索引技術(shù)把各級數(shù)據(jù)本體及其屬性、相互聯(lián)系等融合成有機(jī)整體,以供可視化全證據(jù)鏈分析。
圖12. Palantir大數(shù)據(jù)計(jì)算與關(guān)聯(lián)分析功能界面圖
分析人員可以利用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)和數(shù)學(xué)符號庫對各類模型進(jìn)行計(jì)算和構(gòu)建,簡單的模型可以作為構(gòu)建更復(fù)雜模型的基礎(chǔ),而更為精巧復(fù)雜的分析行為就是一個(gè)流線型、模塊化的過程。Palantir創(chuàng)建的分析模型以一種被稱為Document的形式進(jìn)行存儲,模型可以分享,鏈接和重組,而且可以加入工作流程中進(jìn)行迭代分析。通過Model、Document和Metric的組合和連接,構(gòu)建模型組合和關(guān)聯(lián)分析的整個(gè)分析鏈條,并在可視化界面上進(jìn)行互動(dòng)操作和多視角關(guān)聯(lián)分析。通過這種數(shù)據(jù)計(jì)算建模方式,基于數(shù)據(jù)融合本體模型和以人為中心的數(shù)據(jù)可視化技術(shù),實(shí)現(xiàn)快速查詢,快速迭代和分析協(xié)同,將整個(gè)過程的相關(guān)碎片信息匯集到Palantir系統(tǒng),建立關(guān)聯(lián)聯(lián)系,分析因果關(guān)系,最終構(gòu)建一套強(qiáng)大的通用大數(shù)據(jù)分析平臺。
6.Palantir大數(shù)據(jù)可視化:決策導(dǎo)向與人機(jī)共生的分析環(huán)境
大數(shù)據(jù)分析工具固然重要,但是人的判斷更重要,機(jī)器智能只能是輔助決策(特別是重要的決策)。通過大規(guī)模機(jī)器學(xué)習(xí),可以獲得領(lǐng)域?qū)<一驔Q策者關(guān)注的價(jià)值規(guī)律信息,但應(yīng)用要落地,就必須對挖掘分析結(jié)果進(jìn)行直觀理解和形成輔助決策知識,傳統(tǒng)的人機(jī)交互方式對大數(shù)據(jù)可視化決策來講還不夠,大數(shù)據(jù)可視化互動(dòng)操作(鉆取、多層次、多視角)、對基于GPS/GIS/衛(wèi)星圖像的大規(guī)??臻g網(wǎng)絡(luò)和附加數(shù)據(jù)圖層可視化、動(dòng)態(tài)數(shù)據(jù)流軌跡和鏈路可視化等技術(shù)都需要深入研究。Palantir的產(chǎn)品把海量多源、異構(gòu)數(shù)據(jù)的融合和機(jī)器學(xué)習(xí)算法引擎整合得很優(yōu)美,處處體現(xiàn)了敏捷大數(shù)據(jù)設(shè)計(jì)思想。但更為出彩的設(shè)計(jì)還是它的可視化技術(shù),Palantir提出了一種人機(jī)共生的可視化大數(shù)據(jù)交互探索分析理念,這里我再加了決策導(dǎo)向,為什么要人機(jī)共生,當(dāng)然是更好地服務(wù)于決策,Palantir的本體數(shù)據(jù)模型設(shè)計(jì)同樣是想幫助人們更好地理解現(xiàn)實(shí)世界的各類實(shí)體、對象及其聯(lián)系。
圖13. Palantir大數(shù)據(jù)可視化交互界面圖
我們都知道,大數(shù)據(jù)不僅數(shù)量龐大而且是動(dòng)態(tài)變化的,大數(shù)據(jù)環(huán)境下普通用戶如何才能理解和使用好分析工具很關(guān)鍵,甚至很多用戶對自身的分析需求都不知道的情況下。Palantir不只是做數(shù)據(jù)整合和把分析結(jié)果擺出來就完事了,而是把初步分析結(jié)果呈現(xiàn)給用戶,讓用戶深度參與后續(xù)的探索過程,從而發(fā)現(xiàn)各種信息之間的聯(lián)系,幫助用戶尋找的深層分析需求和數(shù)據(jù)之間的深度關(guān)聯(lián),整個(gè)過程是不斷迭代和優(yōu)化的,最終提高用戶的決策能力。要讓用戶搞清楚這一個(gè)過程,多種維度的可視化技術(shù)十分關(guān)鍵,當(dāng)然Palantir的數(shù)據(jù)本體模型設(shè)計(jì),在一定程度上降低了用戶對數(shù)據(jù)的理解難度,相比分類、聚類、預(yù)測、神經(jīng)網(wǎng)絡(luò)及其復(fù)雜參數(shù)項(xiàng)等概念來講,現(xiàn)實(shí)數(shù)據(jù)和實(shí)體、屬性、事件、關(guān)系等進(jìn)行映射,一般人還是可以理解的。Palantir的交互式可視化界面采用了豐富的大數(shù)據(jù)可視化技術(shù)。各類表格,散點(diǎn)圖、地圖、網(wǎng)絡(luò)圖、熱點(diǎn)圖、曲線圖等的快速展示和流暢交互,為用戶提供了一個(gè)分析主題數(shù)據(jù)相關(guān)的全盤視角,而且可視化功能隨著數(shù)據(jù)源或分析條件變化可以動(dòng)態(tài)調(diào)整和實(shí)時(shí)響應(yīng),下圖是Palantir典型的可視化圖表。
圖14 Palantir大數(shù)據(jù)可視化典型圖表
7.總結(jié)與啟示
最后做個(gè)小結(jié),本文對大數(shù)據(jù)獨(dú)角獸企業(yè)Palantir的核心技術(shù)進(jìn)行了初步探索和解讀,雖然我們軍方和國家安全部門的大數(shù)據(jù)應(yīng)用情況,暫時(shí)不是很了解。但從企業(yè)應(yīng)用和各級地方政府大數(shù)據(jù)應(yīng)用的了解情況看,我們與美國在大數(shù)據(jù)領(lǐng)域的關(guān)鍵技術(shù)研究方面還是有較大差距。正是因?yàn)镻alantir這種明星公司可能有過度包裝宣傳的因素,所以本文從技術(shù)角度進(jìn)行了解析,對其技術(shù)成熟度和技術(shù)先進(jìn)性應(yīng)該說有了一定理解和把握,包括其大數(shù)據(jù)架構(gòu)、大數(shù)據(jù)融合(將所有的相關(guān)數(shù)據(jù)進(jìn)行自動(dòng)連接,構(gòu)建相關(guān)數(shù)據(jù)鏈)和核心技術(shù)的設(shè)計(jì)思想、大數(shù)據(jù)計(jì)算和模型元素(Model-Metric-Document分析嵌套)組合以及以人為中心的可視化技術(shù)等內(nèi)容。當(dāng)然受限于核心技術(shù)資料的公開度,各項(xiàng)關(guān)鍵技術(shù)暫時(shí)無法做細(xì)致深入的解構(gòu)。
多年前我和一位朋友就討論過一個(gè)問題,當(dāng)然那時(shí)候還沒有大數(shù)據(jù)這個(gè)概念,當(dāng)時(shí)我們在思考能否設(shè)計(jì)一個(gè)軟件,能整合和查詢大型企業(yè)所有相關(guān)數(shù)據(jù),包括各種業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫、全局信息環(huán)境下各類PC和各級服務(wù)器上的文本、圖片、視頻或公網(wǎng)的相關(guān)競爭情報(bào)數(shù)據(jù)等,其實(shí)就是后來BI領(lǐng)域火過一陣的企業(yè)搜索,不過當(dāng)時(shí)很多國內(nèi)企業(yè)連統(tǒng)一視圖的報(bào)表都做不好,結(jié)構(gòu)化數(shù)據(jù)都管理不好,何來非結(jié)構(gòu)數(shù)據(jù)的融合需求呢?想來也是太超前了,但大數(shù)據(jù)要有價(jià)值,就不能放過任何數(shù)據(jù)?,F(xiàn)在Palantir的B2B大數(shù)據(jù)業(yè)務(wù)就是在做這個(gè)事情,而且是做大做強(qiáng)了。所以說,要構(gòu)建大型企業(yè)和政府機(jī)構(gòu)的決策大腦,B2B的企業(yè)大數(shù)據(jù)系統(tǒng)必須要上,而且其應(yīng)用價(jià)值不會(huì)比互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用價(jià)值小。Palantir的政府大數(shù)據(jù)系統(tǒng)、金融大數(shù)據(jù)系統(tǒng)、DeepMind的醫(yī)療大數(shù)據(jù)系統(tǒng)、通用電氣(GE)的物聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)等,都在向這個(gè)趨勢演化。
全量大數(shù)據(jù)分析,一定面臨數(shù)據(jù)多源異構(gòu)、關(guān)聯(lián)性、動(dòng)態(tài)性和不確定性等復(fù)雜多變的問題,Palantir的“人機(jī)共生”大數(shù)據(jù)分析理念值得我們學(xué)習(xí),而且會(huì)是將來AI時(shí)代最為重要的大數(shù)據(jù)應(yīng)用模式。例如軍事情報(bào)分析和反欺詐分析,敵人或犯罪分子的應(yīng)對手段也是在動(dòng)態(tài)變化的,只靠歷史數(shù)據(jù)分析是不夠的,而且最新動(dòng)態(tài)信息跟不上的話,分析結(jié)果可能會(huì)造成嚴(yán)重誤導(dǎo)(就像豬的世界里一定不會(huì)有被宰殺的記錄進(jìn)行存檔),大數(shù)據(jù)系統(tǒng)一定要解決增量、動(dòng)態(tài)、反饋、知識、決策這幾個(gè)關(guān)鍵問題,而且是要把這幾個(gè)方面串起來,形成完整的分析鏈,采用Palantir產(chǎn)品設(shè)計(jì)的人腦和系統(tǒng)共生的分析方式,從而能夠?qū)焖僮兓鞒鰧?shí)時(shí)響應(yīng)。大數(shù)據(jù)不僅僅是數(shù)據(jù)采集,分析和管理,更為重要的是領(lǐng)域業(yè)務(wù)、知識模型和本體抽象融合,把人的理解和決策,與機(jī)器智能的融合、計(jì)算、推理能力強(qiáng)強(qiáng)聯(lián)合,是Palantir最為核心的大數(shù)據(jù)技術(shù),另外Palantir做的不只是產(chǎn)品,通過技術(shù)人員的現(xiàn)場服務(wù),幫助分析人員理解融入人機(jī)共生的大數(shù)據(jù)分析環(huán)境,這才能最大化大數(shù)據(jù)系統(tǒng)的輔助決策價(jià)值。
總之,大數(shù)據(jù)和AI時(shí)代的基礎(chǔ)設(shè)施,除了互聯(lián)網(wǎng)界的谷歌、亞馬遜等巨頭之外,在傳統(tǒng)大型企業(yè)和政府領(lǐng)域還會(huì)有Palantir這樣的B2B大數(shù)據(jù)獨(dú)角獸,換句話說,Palantir代表了美國在線下大數(shù)據(jù)領(lǐng)域的核心競爭力(特別是結(jié)合空天技術(shù)的軍事、公共安全大數(shù)據(jù)領(lǐng)域,是大數(shù)據(jù)時(shí)代國防和內(nèi)部安全的核心技術(shù)保障),互聯(lián)網(wǎng)畢竟還是虛擬空間,不能構(gòu)建真實(shí)世界完整的數(shù)據(jù)視圖,軍事、金融、政務(wù)、交通、醫(yī)療等領(lǐng)域融合自身線下大數(shù)據(jù)和線上數(shù)據(jù)的高效分析智能決策,才是未來國家大數(shù)據(jù)治理之根本。如此看來,人工智能時(shí)代,不管是B2C還是B2B大數(shù)據(jù),核心技術(shù)的落后其后果是難以估量的。