若說2018年9月在杭州召開的云棲大會期間,活躍著多少匹“黑馬”,連同參展的、演講的、參觀的……各色人等一時很難統(tǒng)計出來,但是,不起眼的TigerGraph,一定會是其中最有亮點、最有故事的黑馬之一。
這家成立2012年,在大數(shù)據(jù)圖分析領(lǐng)域默默耕耘了6年的公司,一直低調(diào)從事市場調(diào)研和產(chǎn)品研發(fā)迭代。
直到2017年11月8日,TigerGraph的下一代圖數(shù)據(jù)庫在美國正式發(fā)布,在市場上引起了軒然大波后才為眾人所知。這家總部位于硅谷的公司憑借成熟的技術(shù),贏得了啟明創(chuàng)投、百度、螞蟻金融、華創(chuàng)資本、AME云創(chuàng)投、莫拉多風(fēng)險投資公司、佐德?納齊姆、丹華資本和DCVC風(fēng)投基金公司3100萬美元A輪資金投資。
從大數(shù)據(jù)中掘金
有統(tǒng)計報告顯示,1分鐘之內(nèi),美國數(shù)億封郵件被發(fā)送,谷歌平臺上發(fā)起400萬次搜索,F(xiàn)acebook上有246萬條信息被分享……在中國,類似的數(shù)據(jù)量更大。例如,在中國約有7000多萬家注冊企業(yè),由于數(shù)據(jù)量比較大,要想理清這些公司之間的關(guān)系,如企業(yè)的持股人、投資關(guān)系、訴訟關(guān)系至辦公地址等類似的關(guān)系,是一件很困難的事情;通過檢索可以查出一度內(nèi)有關(guān)系的人,也就是控股人控股關(guān)系,再深入到兩層、三層的關(guān)系就不太現(xiàn)實了。
萬物互聯(lián)的時代,社交網(wǎng)絡(luò)實時在線,物聯(lián)網(wǎng)7*24小時運行,每天大量的數(shù)據(jù)還在持續(xù)不斷的生成。在這樣的情況下,該如何挖掘數(shù)據(jù)的價值,數(shù)據(jù)關(guān)聯(lián)背后隱藏著什么關(guān)系?
TigerGraph創(chuàng)始人兼CEO許昱博士TigerGraph公司的創(chuàng)始人許昱博士從事數(shù)據(jù)庫和并行系統(tǒng)研發(fā)已經(jīng)二十年,創(chuàng)辦TigerGraph之前在Teradata負責大數(shù)據(jù)面向業(yè)界和未來五年的方向研究,領(lǐng)導(dǎo)Teradata和Big Data、Hadoop系統(tǒng)的集成,并且與一些大企業(yè)合作解決報表的查詢與合并技術(shù)。稍早在Twitter工作,作為一個社交網(wǎng)絡(luò),圖的分析對于Twitter意義重大,Twitter自行開發(fā)了一套單機版的純內(nèi)存的系統(tǒng)。再早則是在加州大學(xué)圣地亞哥分校、在中科院計算所從事數(shù)據(jù)庫方面的研發(fā)工作。
可以說,許昱博士是個“不折不扣”的數(shù)據(jù)庫專家,在他的周圍聚集的也是來自硅谷等地高科技公司的數(shù)據(jù)庫專家。
為什么會從事圖數(shù)據(jù)庫研究?
發(fā)掘大數(shù)據(jù)關(guān)聯(lián)和關(guān)聯(lián)后面隱藏的商業(yè)價值,是一個技術(shù)難題,但是它的解決無疑具有極大的商業(yè)價值。如何解決?
始于Hadoop技術(shù)的大數(shù)據(jù)時代迄今已經(jīng)過去了十年,一些簡單的技術(shù)問題如存儲、離線處理等問題都得到了解決。十五年前,業(yè)界也開始了一些圖數(shù)據(jù)庫的嘗試。許昱博士指出,圖是以數(shù)學(xué)上點和邊的關(guān)系把所有的數(shù)據(jù)自然存在一起,成為自然的存儲數(shù)據(jù)關(guān)聯(lián)模型。TigerGraph之所以采用知識圖譜(歐拉圖),是因為圖是解決大數(shù)據(jù)互聯(lián)最好的方法。
從計算角度,歐拉圖更合適大數(shù)據(jù)的機器學(xué)習(xí)、人工智能。但由于每前進一步,接觸數(shù)據(jù)量指數(shù)性增長,又能帶來更多關(guān)聯(lián)信息,所以計算能力至關(guān)重要,而技術(shù)上的限制,比如缺乏大數(shù)據(jù)、并行技術(shù)、多核計算機等的能力,所以在TigerGraph之前一些圖計算的工具計算能力很差。
雖然歐拉圖理論已經(jīng)問世有兩百多年,也是最合適的存儲和計算互聯(lián)數(shù)據(jù)的模型,但現(xiàn)在仍然沒有企業(yè)中得到最廣泛的使用。一方面,圖數(shù)據(jù)庫是較為高級的研究方向,從高深的理論到真正商業(yè)化,大規(guī)模應(yīng)用還是很有難度分不開;另一方面,關(guān)系數(shù)據(jù)庫一直以來都是最大的市場,這也是制約圖數(shù)據(jù)庫發(fā)展的另外一個原因。同樣的道理,雖然關(guān)系型數(shù)據(jù)庫時下正大行其道,但在剛開始的前十年,甲骨文的產(chǎn)品和市場都是經(jīng)過了漫長的迭代。
許昱博士總結(jié)了圖數(shù)據(jù)庫和傳統(tǒng)關(guān)系型數(shù)據(jù)庫的三大區(qū)別。
一是存儲模型不一樣,關(guān)系型數(shù)據(jù)庫數(shù)學(xué)模型是表格,一個最簡單例子,一個人有一個身份證號、一個住址表、一個工資表、一個上學(xué)記錄表等存在幾個不同的表里,但是物理上、邏輯上都分開了,想知道這個人住在哪個地方,讀過哪所學(xué)校,要把表合起來,根據(jù)值一個個去拼才能找出來。而圖里,身份證號碼是唯一節(jié)點,學(xué)校也是唯一節(jié)點,馬上與全校學(xué)生聯(lián)系起來了。另外,圖數(shù)據(jù)庫的壓縮率是關(guān)系型數(shù)據(jù)庫的2倍至10倍,雖然儲存的變化不算太重要,但是計算、內(nèi)存和對緩存的利用度就不一樣,存儲模型不一樣。
關(guān)系型數(shù)據(jù)庫是人為打亂成很多表,然后通過計算“拼湊”起來才能建立起關(guān)系來。它雖然叫關(guān)系型數(shù)據(jù)庫,但這個名字并不恰當,圖數(shù)據(jù)庫才是真正針對關(guān)系的一個數(shù)據(jù)庫。
第二,計算模型不一樣。在關(guān)系型數(shù)據(jù)庫的計算模型本質(zhì)上是“野蠻”的掃描,如兩個表之間值的比較,是否同一個人、同一個產(chǎn)品、同一個城市,城市有多少人口以及公司在哪個城市注冊等。這種方式性能很差,因為要過濾很多無關(guān)的數(shù)據(jù)。圖就不一樣了,從一個人出發(fā),幾步關(guān)聯(lián),就能準確定位。
第三,查詢方式的不同。關(guān)系型數(shù)據(jù)庫的SQL語言比較簡單,不支持復(fù)雜關(guān)系的發(fā)掘和預(yù)測。TigerGraph采取類似于SQL但功能更強的GSQL語言,允許動態(tài)生成各種復(fù)雜的數(shù)據(jù)結(jié)構(gòu)來存儲動態(tài)生成的證據(jù),支持用戶的推薦和打分,這在人工智能、機器學(xué)習(xí)的時代更有價值。
其實,這些不同點恰恰也是TigerGraph新產(chǎn)品發(fā)布之前“沉寂”了五年多時間不為人知的原因,因為他們完全潛心在關(guān)系型數(shù)據(jù)庫領(lǐng)域外“另辟蹊徑”。
TigerGraph的優(yōu)勢:“原生”與“并行”
近六年潛心研發(fā)與精心打磨的TigerGraph有哪些優(yōu)勢?
TigerGraph的技術(shù)突破代表著圖數(shù)據(jù)庫演進的下一個里程碑——一個完整的、分布式的并行圖計算平臺,能夠支持網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的實時分析。TigerGraph通用版本是服務(wù)于企業(yè)級應(yīng)用、世界上第一個也是唯一的企業(yè)級原生并行圖數(shù)據(jù)庫以及圖數(shù)據(jù)庫云服務(wù),一同發(fā)布的還有GraphStudio——TigerGraph的可視化軟件開發(fā)工具包。
TigerGraph是基于原生并行圖(NPG)技術(shù)的全球首個實時圖分析平臺,通過為具有復(fù)雜和海量數(shù)據(jù)的企業(yè)提供實時深度鏈接分析支持,TigerGraph實現(xiàn)了圖平臺的真正承諾和好處。
TigerGraph用C++從頭到尾做了一套基于對圖的存儲引擎,并開發(fā)了一個大規(guī)模并行的圖計算引擎,而且對圖進行了大量界面可視化工作,包括可視化的開發(fā)環(huán)境與探索、挖掘環(huán)境,成為業(yè)界唯一原生并行圖數(shù)據(jù)庫平臺,其核心之處就是“原生”和“并行”。
原生,是基于圖的理論、基于圖的存儲、基于圖的計算,從底層開始開發(fā)的一套系統(tǒng),這是一條性能非常高,但開發(fā)周期比較長的一條路徑。不像用關(guān)系數(shù)據(jù)庫做存儲或者用文檔數(shù)據(jù)庫做存儲,在上面做一個圖的API,馬上就有圖數(shù)據(jù)庫了。
并行,就是多臺機器并行處理,時下數(shù)據(jù)量這么大,一臺服務(wù)器再強大也不能解決用戶一些計算問題。
TigerGraph三大技術(shù)優(yōu)勢
圖數(shù)據(jù)庫從最近十年的表現(xiàn)來看已經(jīng)成為關(guān)注度最高,也是發(fā)展趨勢最明顯的數(shù)據(jù)庫類型。那從市場上產(chǎn)品的比較看,TigerGraph有哪些技術(shù)優(yōu)勢呢?
一是實時計算。查詢涉及到幾千萬到上億個節(jié)點和邊關(guān)聯(lián)(點是實體,邊是關(guān)系),眨眼間就把復(fù)雜的關(guān)聯(lián)結(jié)果推送出來,不論是做欺詐、分析、推薦還是實時的網(wǎng)絡(luò)計算,都可在1秒鐘以內(nèi)實現(xiàn),比傳統(tǒng)?法快多個數(shù)量級。
二是超大規(guī)模,每臺機器每?時可加載50到150GB數(shù)據(jù),不再需要批量加載,在只有20臺商用計算機的集群上,能夠?qū)?0億以上的每日事件實時流式傳輸?shù)骄哂谐^1000億個頂點和超過6000億個邊的大數(shù)據(jù)圖譜。已成功在世界上最大的電子支付公司生產(chǎn)線上運行兩年多,支持數(shù)據(jù)庫的增刪改查,成為可以上線運行的數(shù)據(jù)庫。
三是深度關(guān)聯(lián)。公司現(xiàn)在有高級易用的開發(fā)語言;客戶完全不需要公司支持,借助TigerGraph網(wǎng)站上的技術(shù)文檔,下載軟件自己去寫GSQL,做圖模型、數(shù)據(jù)錄入和二次開發(fā);從數(shù)據(jù)深度發(fā)掘看,可以每秒每機遍歷數(shù)億個頂點/邊,步數(shù)可達三步或更多。
五年來,TigerGraph在研發(fā)中其實踩過很多“坑”,實現(xiàn)了非常革命性的突破。許昱博士認為,公司做得最好的是兩點:一是基于分布式存儲系統(tǒng),選擇了最優(yōu)化的體系結(jié)構(gòu),解決了數(shù)據(jù)一致性的問題;二是選型用C++做底層控制一切的內(nèi)存。盡管Java有很多優(yōu)點,但是當時TigerGraph做出了這個艱難的決定。
這些技術(shù)上的突破對于在最?的數(shù)據(jù)上進?實時分析至關(guān)重。
這些數(shù)據(jù)應(yīng)用包括世界上最大的電子商務(wù)提供商的欺詐預(yù)防、世界上最大的移動電子商務(wù)公司的實時推薦,和管理世界上最大的電力公司的能源傳輸網(wǎng)。
TigerGraph今年6月份在美國發(fā)布了兩個版本:一是終身免費的開發(fā)者版本(單機版),沒有數(shù)據(jù)限制、沒有時間限制;二是企業(yè)版本,是多機版,但有時間限制,比如幾個月。
廣泛的行業(yè)應(yīng)用
TigerGraph是業(yè)界唯一的原生、并行圖計算的大平臺,特別適?于?圖——深度鏈接分析的最佳模型,這是因為它能夠探索、發(fā)現(xiàn)和預(yù)測關(guān)系。
在反欺詐和反洗錢方面,企業(yè)可以借助TigerGraph系統(tǒng)在企業(yè)數(shù)據(jù)全景圖上快速部署復(fù)雜有效的反欺詐和反洗錢業(yè)務(wù),利?實時數(shù)據(jù)和實時深度鏈接分析應(yīng)對?融犯罪。
原本許昱博士認為TigerGraph是反洗錢最天然、最好的應(yīng)用,但去年11月份在美國發(fā)布以后的應(yīng)用結(jié)果令人驚訝——雖然紐約有不少銀行應(yīng)用于客戶的360度畫像、風(fēng)控、合規(guī)等領(lǐng)域,但西雅圖到南加州,到佛羅里達,到美國的明尼蘇達不同的城市各行各業(yè)的客戶蜂擁而來——健康保險公司利用知識圖譜反欺詐、電信公司為流失用戶畫像、昂貴新藥上市后制藥公司通過查悉醫(yī)生的影響力進行精準推送……
此外,采用TigerGraph,可通過了解企業(yè)控制人的關(guān)系、企業(yè)之間的擔保關(guān)聯(lián),銀行可最大限度地降低風(fēng)險。例如,某些企業(yè)可能破產(chǎn)了,為其提供擔保的企業(yè)就可能陷入糾紛中。
專注為客戶創(chuàng)造價值,而非取代
圖數(shù)據(jù)庫最重要的能力是計算能力、關(guān)聯(lián)能力。許昱博士表示,TigerGraph生成很多高質(zhì)量的新的訓(xùn)練數(shù)據(jù),然后交給機器系統(tǒng)去學(xué)習(xí),可極大地減少誤報率,為各行各業(yè)提供做圖分析和知識圖譜的通用圖引擎,客戶可以很快建立針對自己企業(yè)的圖模型,將任何關(guān)聯(lián)方找出來。
TigerGraph有很多的優(yōu)勢,但并不意味著要去顛覆傳統(tǒng)的數(shù)據(jù)庫。許昱博士認為,公司是在做復(fù)雜關(guān)聯(lián)、實時計算等別人以前根本做不了的事情,做新一代的應(yīng)用程序,給客戶帶來價值,以解決他們數(shù)據(jù)量快速增長,或者更新成本太昂貴的難題,方便他們的應(yīng)用程序移植到圖數(shù)據(jù)庫上。
目前,TigerGraph的解決方案已經(jīng)被國內(nèi)的大型金融機構(gòu)、電力等不同行業(yè)的大量的客戶所采用。
在美國,圖數(shù)據(jù)庫是近年來所有數(shù)據(jù)庫里發(fā)展速度最快的。保守的估計,未來五年里將會有十倍的增長,圖數(shù)據(jù)庫市場發(fā)展?jié)摿涂臻g很大。許昱博士十分看好TigerGraph的未來。
評論
查看更多