偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

欲做圖數據領域的Oracle 費馬科技有啥過人之處?

原創(chuàng)
人工智能 大數據 新聞
如今數據之間的聯(lián)系也變得越來越復雜,圖數據開始走進企業(yè)的視野,讓更多復雜的數據可以高效的連接并從中進行分析。費馬科技專注于圖數據技術,憑借高水平的人才以及支持以恒的投入,欲做圖數據領域的Oracle,那么,費馬科技有哪些過人之處?

【51CTO.com原創(chuàng)稿件】數據,無疑是企業(yè)重要的資產之一。隨著大數據的到來,豐富的數據格式以及數據量幾何式的增長,給企業(yè)帶來了巨大壓力。如何將數據有效的利用,分析挖掘出更大的價值,輔助企業(yè)進行決策,是每個企業(yè)都要關心的。過去,更多的數據存在于關系型數據庫中,以二維表格形式存在,而如今數據之間的聯(lián)系也變得越來越復雜,圖數據開始走進企業(yè)的視野,讓更多復雜的數據可以高效的連接并從中進行分析。

圖的國內外發(fā)展

在計算機領域,圖(Graph)是一種數據結構,由結點的有窮集合V(vertex)和邊的集合E(edge)組成。在圖中,最基本的單元是頂點(vertex),頂點之間的關聯(lián)關系被稱為邊(edge)。



圖大概是在上世紀5、60年代就已經存在了,當時有一些經典的算法,比如最短路徑算法,生成樹算法。到了2009年前后,Google發(fā)表了一篇論文,內容是關于Google開發(fā)了一個系統(tǒng)用于解決大規(guī)模圖計算的問題,而之后,圖開始進入到企業(yè)的視野中。當時,Google將圖應用在PageRank網頁排序方面,由于Google搜索引擎中的網頁有很多,用戶在搜索時頁面排序的前后順序,就應用了PageRank算法。每個網頁是圖中的一個頂點,如果有一個鏈接指向另一個網頁,那么這兩個網頁之間有形成一條邊,通過網頁之間的互相指向,從而構成一張巨大的圖。然后基于圖進行分析,給每個網頁賦予一個Rank值,Rank值較高的網頁,則是相對比較重要以及權威的,因此在用戶搜索的時候就會排在前面。

而在國內,圖的發(fā)展相對較晚,基本集中在學術界,例如清華、華中、上海交大、中科院等高等院校均有團隊或項目組進行相關研究。而像阿里、百度、騰訊等互聯(lián)網頭部公司也已經在開展圖數據的相關應用。

圖這樣的結構,和人工智能領域中的知識圖譜結構很像,費馬科技CEO洪春濤解釋說,知識圖譜是圖的一種應用,通過圖這樣的數據結構組成知識圖譜。谷歌提出來的知識圖譜Knowledge Graph是一種特殊的圖,每一個屬性都會抽象為一個頂點,每個頂點是沒有屬性。但是有時可以將該屬性作為頂點的屬性存在,而不需要單獨抽象為頂點,這就是Property Graph屬性圖。例如在搜索某個人物時,他的年齡、身高等就可以作為這個人物的屬性。

相比傳統(tǒng)的關系型數據,圖的邏輯可以很好的解決目前遇到的關聯(lián)數據分析問題,如繪制用戶社交關系圖譜做社交影響力排名、好友推薦;通過繪制資金交易圖譜做大數據征信、反欺詐等應用;構建設備關系網絡圖譜實現(xiàn)物聯(lián)網建模分析、供電網絡建模分析等等。

圖數據系統(tǒng)的相關代表

目前業(yè)界主流的圖計算系統(tǒng)和圖數據庫有GraphX、PowerGraph、Neo4j和Titan,而各個系統(tǒng)都是由利弊的。

GraphX是大家用到最多的圖計算產品,是基于Spark的軟件系統(tǒng),而Spark的設計是為了滿足通用計算的場景,對于圖計算的支持并不是很好。因此,在此之上搭建支持圖計算的系統(tǒng),性能就會大打折扣。洪春濤介紹說,GraphX將所有頂點的數據視為一個不可更改的整體(RDD),如果需要修改其中某些頂點的數據,需要將數據整體拷貝,然后進行修改。這樣做的優(yōu)點是,如果新生成數據的過程中出現(xiàn)機器宕機,那么原始數據還是存在的,還可以從新再運行。但是圖計算是需要迭代很多次的,例如前文所述的PageRank就需要運行20-30輪,如果采用GraphX運行,那么每輪迭代都需要增加新的拷貝,***內存就要膨脹幾十倍。因此,GraphX的計算能力就會受限,基本無法實現(xiàn)百億級別的頂點運行。由于GraphX發(fā)展比較早,它的設計基本能滿足當時的數據量,但隨著時間迭代,GraphX的支持能力受限問題就暴露出來了。

PowerGraph也是圖計算的系統(tǒng),用C++來編寫的,支持的數據量和性能是GraphX的10倍左右。

圖數據庫中做的最早的算是Neo4j,發(fā)展有十余年了。但是Neo4j主要針對的應用是中等規(guī)模的數據,大概量級在一億頂點左右,因此,面對如今互聯(lián)網的海量數據,也就顯得力不從心。

而國內的BAT,基本上都是基于開源的Titan圖數據庫進行修改,來滿足企業(yè)自身的業(yè)務需求。Titan可以支持很大的數據量,底層是基于分布式Key Value Store,但是查詢速度相對較慢,因此,Titan只能進行簡單的查詢。

編程語言對于圖計算的影響

此外,編程語言對于圖數據的計算性能也是有影響的。目前業(yè)界主流的圖計算開發(fā)語言是Java和C++。Java相較于C++是個更高級的語言,編程簡單并且不容易出錯,但是在圖計算領域,使用Java開發(fā)的系統(tǒng)卻比C++研發(fā)的性能有一定的差別。

首先,在底層會有一個Java虛擬機,所有的操作都會經過虛擬機的轉譯才能進行執(zhí)行,因此在操作上就會受限,使用Java編寫的系統(tǒng)就會多轉好幾層,影響了執(zhí)行效率。而C++程序編譯完后是二進制代碼,編寫完成后即可在計算機上直接運行。

其次,Java虛擬機中有一個叫做垃圾回收的機制,當系統(tǒng)內存使用特別頻繁的時候就會造成問題,系統(tǒng)會頻繁的去進行垃圾回收,從而造成軟件性能低下;而在C++中,程序員需要自己管理內存,這雖然對程序員要求較高,卻能***的保證軟件效率。

第三,是系統(tǒng)調用的問題。C++可以直接通過操作系統(tǒng)調用來修改系統(tǒng)配置,而Java則需要通過Java虛擬機,如果Java虛擬機不提供這個功能,那么Java程序就無法調用該功能。舉例說,在圖數據庫從外存中讀取數據時,有時需要利用操作系統(tǒng)的MMAP(將一個文件或者其它對象映射進內存)功能,而操作系統(tǒng)會默認進行預讀取,即當系統(tǒng)讀取一塊數據時,他會默認把后面的數據也預先讀取出來放進內存。但是,數據庫中的數據是隨機訪問的,預讀取功能會造成大量的資源浪費。Java中是無法關閉系統(tǒng)調用的功能,而C++就可以直接通過系統(tǒng)調用來更改這一設置。

費馬科技的多方面優(yōu)化

由于圖是一個高維的數據,不像是二維數據,相對比較規(guī)整,因此,圖數據在存儲和計算的難度也會相對增大。對于傳統(tǒng)的規(guī)整數據,計算機可以通過軟件系統(tǒng)高效實現(xiàn)數據的存儲和分析,而圖的不規(guī)整性導致硬件性能很難發(fā)揮。例如用GraphX運行圖數據時,基本上占用的內存是原始數據的幾十倍,因此,很多機器都運行不起來。另外就是性能問題,即使機器可以運行,效率也非常低,這對業(yè)務來說是不可接受的。

北京費馬科技有限公司成立于2016年,由多名畢業(yè)于清華大學的博士在清華教授的支持下聯(lián)合組建,是一家專注于圖數據技術,為企業(yè)提供高性能圖數據存儲及分析平臺的國家高新技術企業(yè)。費馬圖數據平臺是費馬自主研發(fā)的高效大規(guī)模圖計算平臺,主要有兩部分構成,包括圖分析平臺PandaGraph和大規(guī)模圖數據庫LightGraph。PandaGraph圖分析平臺用于對圖數據進行高效的分析,LightGraph圖數據庫則用于存儲和查詢圖數據。用戶可以直接調取PandaGraph對存儲于LightGraph中的圖數據進行快速分析,并將結果存儲于LightGraph中以供后續(xù)查詢。

費馬科技的產品研發(fā)全部都是自主研發(fā),而不是使用開源的產品架構,洪春濤坦言,一是開源的產品基礎還不夠完善,受限制比較多,因此很容易看到天花板,就像是老樓改造,而我們從頭開始,相當于建造一個新的大樓,可以從底層到上層全部優(yōu)化。

從架構層到功能層,費馬圖數據平臺進行了層層優(yōu)化。在架構層,費馬團隊選擇了更適合底層數據交互的C++語言,而不是主流的Java語言,雖然編寫的復雜度高一些,但在應用時能夠更靈活。

在存儲方面,費馬支持多版本并發(fā),將讀寫操作分開,寫操作不影響讀操作的性能,不會因為頻繁的讀寫而降低性能;支持事務內并行,多個線程可以在同一快照上執(zhí)行操作,從而加速長事務分布式處理;采用無鎖數據結構,數據讀取操作不需要任何鎖操作,帶來極高的吞吐率;前綴壓縮,將相關數據存儲在連續(xù)的空間中,從而提高遍歷操作的效率,減少重復檢索操作等等。

在分析方面,費馬支持分布式擴展,能夠線性擴展到分布式環(huán)境,正如閃電一樣延伸再延伸;雙模式驅動,圖數據訪問支持推送和拉取兩種模式,并在運行中自動選擇更優(yōu)的模式,提高數據訪問效率;采用連續(xù)數據塊劃分,在數據劃分時,利用真實數據內在的關聯(lián)性,將有關聯(lián)的數據劃分在一起,高質量的劃分方法在分析時大有裨益;細粒度調度,將圖數據任務動態(tài)映射到設備的CPU、核、線程等多個層級,滿負荷利用計算資源。

費馬圖數據的產品邏輯在數據底層,為存儲和分析大規(guī)模圖數據提供強有力的支持,但是團隊在客戶實踐中經常會幫助客戶額外做場景/算法方面的優(yōu)化。以京東金融為例,京東金融提供“白條”服務,白條的額度取決于用戶的風險值,除了常規(guī)的數據,參考同一地址等相似信息,通過圖數據技術很容易將有關系的用戶關聯(lián)起來,并參考聯(lián)系人的風險系數計算該用戶的風險值。費馬科技幫助京東金融實現(xiàn)多賬號間的關聯(lián)關系分析,全量數據處理僅需占用1臺服務器資源在10分鐘內即可完成,而對比此前基于GraphX需要上百臺設備運算6個小時以上的情況,不止性能提升1000倍,同時降低金融風險,給京東金融帶來驚喜。

目前,市面上沒有一家公司是同時提供圖數據庫和圖計算的,而費馬科技的提供的圖數據庫和圖計算產品,可以相互協(xié)作,解決存儲問題的同時也可以提高分析的效率。當然,作為一家創(chuàng)業(yè)不到三年的公司,費馬科技的產品也不是全無短板。洪春濤坦誠的說,費馬科技目前***的短板就是易用性。對于遇到過的場景,可以進行性能優(yōu)化,但是很多應用場景都沒有遇到過,也就很難找到方法提升性能。因此,還是需要長時間的經驗積累。

費馬科技的核心競爭力:人

在談到費馬科技***的競爭優(yōu)勢時,洪春濤認為,費馬科技的核心競爭力就是人,聚集高水平的程序員,并且長時間的投入到圖數據領域中,才會開發(fā)出真正高水平的系統(tǒng)軟件。的確,從費馬科技的組成成員中我們就可以看出,這支初創(chuàng)團隊的實力。

費馬科技CEO洪春濤,畢業(yè)于清華大學計算機系。早在十年之前,他攻讀博士期間就編寫了世界上***個開源分布式C++圖計算系統(tǒng)。畢業(yè)后在微軟亞洲研究院的6年間,他帶領團隊主導設計了微軟下一代大數據系統(tǒng)平臺和分布式機器學習平臺,協(xié)助Bing搜索團隊實現(xiàn)早期原型設計。

[[270710]]

費馬科技CEO洪春濤

費馬科技CTO朱曉偉,保送清華進行碩博連讀、***獎學金、西貝爾學者、被國際***期刊重點關注、斬獲AMC一等獎等眾多科技獎項的學者,其主導的Gemini平臺為當前業(yè)界最快的圖計算軟件。

費馬科技聯(lián)合創(chuàng)始人林恒,也是清華大學計算機系博士,是“神威·太湖之光”Graph500作者。林恒博士主導該系統(tǒng)Graph500評選并獲得世界排名第二,填補了國產高性能系統(tǒng)在圖數據分析領域獎項的空白。

費馬科技聯(lián)合創(chuàng)始人李愷威博士,是GPU加速、機器學習領域專家,也是團隊的另一位西貝爾學者、奧賽金牌獲得者,曾率隊連獲世界三大超級計算機比賽(ASC、SC、ISC)的總冠軍,在清華計算機系素有“小神童”之稱。

聰明的人聚集在一起,自然效率也是出奇的高。費馬科技圖數據平臺的系統(tǒng)重構僅用了三個月的時間,還是在洪春濤博士的嚴格要求下所用的時間。值得一提的是,這只聰明的團隊是由清華大學陳文光教授帶領,陳老師敏銳的捕捉到了圖數據的大有可為器,于是在陳老師的提議下,一眾學霸們紛紛響應,于是有了今天的費馬科技。

未來發(fā)展

費馬科技于2016年成立,先后完成了天使輪、A輪兩輪融資,對于未來發(fā)展,洪春濤也是有著詳細的規(guī)劃。短期目標是將圖計算、圖數據庫的產品進行優(yōu)化改進,并且在2-3年內推動行業(yè)對圖數據的認知,當用戶遇到相關問題的時候可以選擇像費馬科技這樣的供應商來解決問題。而長期目標是希望用戶不僅知道圖數據,還可以將圖數據應用的更好,而費馬科技則希望可以成為一家Oracle級別的軟件公司。

【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯:鳶瑋 來源: 51cto
相關推薦

2010-01-14 18:02:05

C++語言

2012-08-01 13:10:01

微軟Surface

2009-05-25 10:22:00

2016-04-29 13:23:53

大數據公司

2015-11-27 14:05:03

ivvi

2013-03-08 09:46:34

Linux操作系統(tǒng)安全性

2018-02-07 11:34:18

維諦

2024-06-12 14:59:18

2009-03-16 10:22:33

NehalemMac Pro開盒

2021-06-01 15:14:52

戴爾

2009-09-18 08:35:52

SharePoint2Windows2008

2018-01-23 07:31:32

區(qū)塊鏈比特幣數據庫

2014-03-28 16:15:26

2012-07-10 10:51:45

2009-01-07 09:20:00

2009-11-03 09:49:55

2011-12-27 09:51:32

2011科技

2010-08-11 09:30:53

DB2常用函數

2018-06-29 09:10:51

區(qū)塊鏈數字貨幣比特幣
點贊
收藏

51CTO技術棧公眾號