企業(yè)、數(shù)據(jù)分析公司、數(shù)據(jù)科學家......我們都在努力尋找新的方法來探索數(shù)據(jù)的連接和關(guān)系,看看它們?nèi)绾巫屖澜缏?lián)系更加緊密從而變得更加美好。這可能是為電子商務(wù)網(wǎng)站尋找更好的產(chǎn)品推薦,或者是幫助銀行在欺詐行為發(fā)生之前尋找可疑的指標,或者是為制造企業(yè)尋找提高供應(yīng)鏈效率的方法。
任何業(yè)務(wù)流程最重要的方面是理解任何一個行動或資產(chǎn)的關(guān)系,因為它們在該流程中相互關(guān)聯(lián)。
借助圖分析,我們認識到,所有的數(shù)據(jù)都代表了現(xiàn)實世界中的某些東西,而現(xiàn)實世界中的幾乎所有東西都以某種方式聯(lián)系在一起。數(shù)據(jù)中的這些關(guān)系可以告訴我們很多東西。它們可以告訴我們,幫助我們找到新的模式和相似性(像我們這樣的人--基于人口統(tǒng)計學、生活方式等),告訴我們個人如何相互聯(lián)系,形成類似興趣的群體。
它可以應(yīng)用于社交媒體,用模式和關(guān)系來豐富客戶的觀點,或者遠遠超出商業(yè)社會分析的范圍,在其他無害的通信中檢測出可能預(yù)示著即將發(fā)生的攻擊、市場危機或社會動亂的模式。它們可以揭示出我們在特定情況下可能會購買什么產(chǎn)品。或者它們可以預(yù)測組織或基礎(chǔ)設(shè)施的一個部分的變化會如何影響其他部分。
# 什么是圖數(shù)據(jù)庫
圖可以用來分析各種系統(tǒng)中的各種關(guān)系--甚至超越流程或超越個別操作模型的限制。大多數(shù)常見的業(yè)務(wù)問題需要了解行為者或?qū)ο笾g的關(guān)系。圖數(shù)據(jù)庫和圖分析就是出于這種理解數(shù)據(jù)關(guān)系的需要而產(chǎn)生的。圖數(shù)據(jù)庫是數(shù)據(jù)片斷之間的關(guān)系被預(yù)先連接起來的唯一數(shù)據(jù)模型。圖分析提供了一種分析這些關(guān)系的簡單方法,使用不需要編程專家建立或維護的類似SQL的查詢,揭示了更多關(guān)于人、產(chǎn)品、賬戶和地點等實體的信息。
根據(jù)Gartner分析師Afraz Jaffri在2022年Graph+AI全球峰會上的說法,"到2025年,上下文情境驅(qū)動的分析和人工智能模型將取代60%建立在傳統(tǒng)數(shù)據(jù)上的現(xiàn)有模型。" 這只是表明圖技術(shù)將繼續(xù)在日常業(yè)務(wù)運營中變得更加核心的許多跡象之一。
# 你每天都在應(yīng)用圖
你可能沒有意識到這一點,那就是你每天都在應(yīng)用圖技術(shù),但這是真的。每次搜索時,您都在使用搜索引擎的知識圖譜。像谷歌這樣的企業(yè)也在不斷改進它為用戶搜索返回結(jié)果的方式,但有一件事是可以確定的。每個搜索都使用被稱為 PageRank 的圖算法進行排名。
考慮一下您每次登錄 LinkedIn 時會發(fā)生什么。當您搜索和查看您的專業(yè)聯(lián)系人時,您會看到推薦的聯(lián)系人以及與您有直接或間接聯(lián)系的人的活動。這些關(guān)系顯示為 1 度、2 度和 3 度連接。這是在 LinkedIn 的 Professional Network Graph 上進行圖數(shù)據(jù)庫搜索的結(jié)果,表明從您到正在審查的聯(lián)系人的跳數(shù)。每次看到有二度聯(lián)系人的普通人脈或普通群,或者 LinkedIn 推薦你與專業(yè)聯(lián)系人聯(lián)系時,你都在查詢 LinkedIn 的專業(yè)網(wǎng)絡(luò)圖譜。
對了,不要忘記您每次在零售和電子商務(wù)網(wǎng)站上的購物體驗。每次您使用淘寶、京東、亞馬遜等在線商店時,您現(xiàn)在可能希望這些服務(wù)能夠提供產(chǎn)品推薦。它們由諸如“購買此商品的人也購買了類似產(chǎn)品”或“這些商品經(jīng)常一起被購買”之類的建議來代表。這些都來自圖分析查詢!
而關(guān)系型或 NoSQL 數(shù)據(jù)庫等傳統(tǒng)技術(shù)無法存儲和分析關(guān)系數(shù)據(jù)以使這些功能成為現(xiàn)實。只有圖數(shù)據(jù)庫可以。
# 使用關(guān)系型數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫的挑戰(zhàn)
關(guān)系型數(shù)據(jù)庫將業(yè)務(wù)事實存儲在單獨的數(shù)據(jù)庫表中。為了揭示、分析和理解這些表之間的關(guān)系,包括客戶詳細信息、訂單信息以及產(chǎn)品和付款數(shù)據(jù)等信息,您需要在此設(shè)置中執(zhí)行表連接。這個過程可能需要數(shù)周時間,甚至需要大量的 SQL 編程來構(gòu)建查詢。
NoSQL 數(shù)據(jù)庫旨在通過將所有數(shù)據(jù)存儲在單個表中以進行快速檢索來解決此問題,而不是為分析而設(shè)計。
圖數(shù)據(jù)庫專門用于存儲和分析數(shù)據(jù)之間的關(guān)系,因為數(shù)據(jù)實體和它們之間的關(guān)系是預(yù)先連接的。這消除了對大表執(zhí)行耗時的表連接和多次掃描的需要。利用關(guān)系和上下文的力量,圖技術(shù)為預(yù)測模型帶來了更高的準確性、穩(wěn)健性和多功能性,并將圖分析、基于圖的特征和圖機器學習納入其工作流程,以開發(fā)新的人工智能應(yīng)用程序。
考慮到這些明顯的優(yōu)勢,您可能會問自己,“為什么企業(yè)沒有更快地采用圖數(shù)據(jù)庫?”這是一個很好的問題,借此我們需要了解一下圖技術(shù)發(fā)展背后的歷史。
# 圖數(shù)據(jù)庫在企業(yè)層面的應(yīng)用
第一代圖數(shù)據(jù)庫是用原生圖存儲建立的。比較有代表性的就是Neo4j,它們提供了圖數(shù)據(jù)庫的一些基礎(chǔ)功能,但是它們采用的是單服務(wù)器、單線程的架構(gòu),因此速度和可擴展性受到限制。
它們非常適合加載和可視化中小型的數(shù)據(jù)集,但無法處理上百GB到TB級的大型數(shù)據(jù)集,比如復(fù)雜的查詢和實時的數(shù)據(jù)更新,因此無法在圖內(nèi)執(zhí)行超過三跳或以上的連接。
作為一個學術(shù)概念的證明,它們在可視化業(yè)務(wù)實體之間的關(guān)系方面非常出色。對于現(xiàn)實世界的企業(yè)生產(chǎn)需求來說,最初的規(guī)模根本不存在。這些早期的迭代是建立在Java上的,主要是為研究和開發(fā)而設(shè)計的,而不是為處理大規(guī)模的生產(chǎn)用例的嚴格要求。
第二代圖數(shù)據(jù)庫是建立在NoSQL存儲之上的,解決了擴展性的問題。它們是基于Key-value或列式數(shù)據(jù)庫,比如Apache Cassandra,解決了數(shù)據(jù)加載的問題。所以,基于第二代圖數(shù)據(jù)庫,你可以把TB級的數(shù)據(jù)加載到圖中。但是,由于它們不是原生圖存儲,所以在做多跳查詢深度鏈接時,性能表現(xiàn)并不是很好,因此它們?nèi)匀粺o法擴展涉及三個或更多連接或跳躍的查詢。
而且,由于是使用的NoSQL技術(shù),這不是為了做實時更新的技術(shù),所以在用戶產(chǎn)生了新的交易、新的購買行為時,很難在圖上實時地做數(shù)據(jù)更新。這也就限制了它們進行深度或復(fù)雜分析的能力。
現(xiàn)代圖平臺使用C++,是為企業(yè)使用而設(shè)計的。更現(xiàn)代的方法允許擴展計算能力、突變性(意味著它們支持系統(tǒng)更新)、數(shù)據(jù)流和批處理,同時在圖數(shù)據(jù)庫中進行快速計算,而不是在圖數(shù)據(jù)庫之外將結(jié)果拉入數(shù)據(jù)庫供用戶訪問。
第二代圖數(shù)據(jù)庫通常也不支持數(shù)據(jù)庫分片。這使得擁有TB級數(shù)據(jù)的組織無法將數(shù)據(jù)分布到多個服務(wù)器上,從而使每個服務(wù)器都有幾百G的數(shù)據(jù)。
第一代和第二代圖數(shù)據(jù)庫進一步證明了它們的局限性:
不能擴展到多臺機器上存儲大數(shù)據(jù)(數(shù)據(jù)庫分片)和并行查詢處理
不能支持下一代欺詐檢測、推薦引擎、機器學習和人工智能用例所需的深度鏈接分析(超過三跳)。
無法滿足大數(shù)據(jù)更新和亞秒級查詢性能的實時要求。
# 第三代圖數(shù)據(jù)庫
而也正是前幾代圖數(shù)據(jù)庫的缺點和圖數(shù)據(jù)庫的應(yīng)用趨勢促進了下一代圖數(shù)據(jù)庫和分析技術(shù)的發(fā)展。TigerGraph開發(fā)了第三代圖數(shù)據(jù)庫,來解決第一代和第二代中的這些不足,它又回到了原生圖存儲,我們通過分布式部署、并行計算,不僅針對數(shù)據(jù)存儲做了優(yōu)化,解決了擴展性的問題,而且加快了數(shù)據(jù)加載、數(shù)據(jù)查詢、事務(wù)處理等各個方面的速度。TigerGraph可專門用于在數(shù)小時內(nèi)加載TB級的數(shù)據(jù),并實時分析多達10跳或更多跳的關(guān)系。
第三代圖數(shù)據(jù)庫是第一個可以支持HTAP的圖數(shù)據(jù)庫,HTAP可以同時支持OLTP事務(wù)處理和OLAP數(shù)據(jù)分析,TigerGraph是第一個支持HTAP的圖數(shù)據(jù)庫,它可以使用圖數(shù)據(jù)庫中的同一個實例和schema,支持事務(wù)處理和分析處理,符合ACID標準,并可通過數(shù)據(jù)庫分片擴大和延伸。TigerGraph的開放式查詢語言GSQL,使我們能夠支持修改和可解釋的人工智能,提供一個可應(yīng)用于多種用例和連接數(shù)據(jù)的人工智能應(yīng)用的平臺。
這里我們總結(jié)一下TigerGraph作為第三代原生并行圖數(shù)據(jù)庫的六大優(yōu)勢:
NO.1 可擴展性
TigerGraph可以將大量數(shù)據(jù)快速加載到數(shù)據(jù)庫中進行分析,使每臺機器每小時可以加載約100GB的數(shù)據(jù),并且可以通過幾臺機器并行加載,從而快速地將TB級的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫。同時,TigerGraph可以存儲數(shù)十億個實體,數(shù)千億個關(guān)系,并能通過增加硬件,擴展集群,達到萬億甚至更多。
NO.2 事務(wù)性圖(可變的圖)
系統(tǒng)中每秒可能會產(chǎn)生數(shù)百上千筆交易,比如新的客戶注冊、物料采購支付等,TigerGraph可以支持您的業(yè)務(wù)7X24小時運行,實時地進行數(shù)據(jù)更新。為了對您最新的業(yè)務(wù)進行分析,需要一個可變的圖數(shù)據(jù)庫,這意味著您可以像閱讀圖一樣,輕松地對其進行更新。第一代圖數(shù)據(jù)庫,無法作為客戶日常業(yè)務(wù)處理的數(shù)據(jù)庫,客戶一般也不會這樣應(yīng)用。第二代圖數(shù)據(jù)庫,可以通過NoSQL的方式存儲大量數(shù)據(jù),但是它們不可變,這意味著它們無法支持事務(wù)更新,無法在響應(yīng)查詢的同時吸收新數(shù)據(jù)。而TigerGraph可以用于生產(chǎn)環(huán)境,每天進行數(shù)十億筆交易。
NO.3 實時性能
該功能可以對查詢提供亞秒級的響應(yīng),這對于上千萬級別的實體和關(guān)系來說,可能會非常困難。第一代和第二代圖數(shù)據(jù)庫技術(shù)的查詢,通常會花費很長時間,或者超時,尤其是當數(shù)據(jù)量增長時,整個圖涉及大量的實體和關(guān)系。而TigerGraph已在多個客戶的生產(chǎn)環(huán)境中驗證,具有亞秒級的響應(yīng)時間,可用于金融服務(wù)、電子商務(wù)和醫(yī)療保健等多個行業(yè)客戶的復(fù)雜查詢。
NO.4 深度鏈接多跳分析
當我們進行深層鏈接分析時,遍歷整個圖進行3到10跳以上的計算和分析,可以發(fā)現(xiàn)一些原本不明顯的關(guān)系,這可以用在反欺詐、反洗錢、電商推薦等多個領(lǐng)域,而這些分析超出了通常的分析范圍。第二代圖數(shù)據(jù)庫技術(shù)支持大型的圖上進行2到3跳,然而當進行3跳以上的計算時,由于這些系統(tǒng)的架構(gòu)限制,深度鏈接查詢將耗盡內(nèi)存,或者超時返回。而TigerGraph適用于跨越數(shù)千億個實體的大型圖的深層鏈接分析,用來檢測欺詐者,并識別可能涉及洗錢的復(fù)雜支付及交易。
NO.5 查詢語言GSQL
TigerGraph的查詢語言GSQL非常容易學習,并且很容易開發(fā)復(fù)雜的圖查詢。GSQL不僅包括查詢,還包括數(shù)據(jù)分析和數(shù)據(jù)加載,它們自動創(chuàng)建restful頂點,并以JSON或CSV格式傳輸數(shù)據(jù),這使得和其它系統(tǒng)集成變得非常容易。GSQL可以用于開發(fā)數(shù)據(jù)導(dǎo)出,將圖查詢與其它系統(tǒng)共享,例如BI系統(tǒng),還可以給機器學習工具提供新的訓練數(shù)據(jù)。
NO.6 敏感數(shù)據(jù)的權(quán)限需求
最后,我們要談到一個重要方面——敏感數(shù)據(jù)的權(quán)限需求。TigerGraph有完善的數(shù)據(jù)加密和權(quán)限機制,來保護敏感數(shù)據(jù),以使具有適當權(quán)限的用戶部門或組織,可以查看或更新敏感數(shù)據(jù),而其它沒有權(quán)限的用戶部門或組織,沒有辦法查看或更新這些敏感數(shù)據(jù)。
# 第三代圖數(shù)據(jù)庫的幾個主要特點
TigerGraph是世界上第一個原生并行計算和分布式的圖數(shù)據(jù)庫;
產(chǎn)品架構(gòu)是為實現(xiàn)互操作性而設(shè)計的;
擁有用戶可擴展的圖算法庫;
提供多圖服務(wù);
TigerGraph具有自己的查詢語言GSQL,圖靈完備,且類似SQL,易于學習,并始終確保100%兼容即將出臺的行業(yè)標準語言GQL;
擁有完整的GraphStudio可視化軟件開發(fā)套件,用于端到端圖的設(shè)計、部署、探索;
可以用于機器學習,進行一些深度圖特征的實時計算,給機器學習提供特征補充。
審核編輯:劉清
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9262瀏覽量
85774 -
JAVA
+關(guān)注
關(guān)注
19文章
2973瀏覽量
104913 -
SQL
+關(guān)注
關(guān)注
1文章
772瀏覽量
44193 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3842瀏覽量
64547
原文標題:Vol.30 還有人不知道圖技術(shù)嗎?那就來了解一下
文章出處:【微信號:TigerGraph,微信公眾號:TigerGraph】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論