人類社會和物理空間在信息空間中映射有兩種基本表達(dá)結(jié)構(gòu),分別是針對對象的特征空間結(jié)構(gòu)和針對關(guān)系的關(guān)聯(lián)圖譜結(jié)構(gòu)。在互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)出現(xiàn)之后,這兩種結(jié)構(gòu)所表達(dá)的數(shù)據(jù)都可以擁有時間戳?;跁r間戳的數(shù)據(jù)被稱為 “時序數(shù)據(jù)”,時序數(shù)據(jù)是從2013年開始提出了的概念。從計(jì)算機(jī)算法的角度來看,時序數(shù)據(jù)有幾個特點(diǎn):第一是增量的;第二是時序的,時間不能隔斷;第三是動態(tài)的;第四需要處理復(fù)雜的時序變化。
在2015年的時候,我們開始研究時序數(shù)據(jù),有別于歷史數(shù)據(jù)和實(shí)時數(shù)據(jù)的處理,針對時序大數(shù)據(jù)流的實(shí)時計(jì)算,我們希望做到每秒千萬級并發(fā)訪問,千億級流水和高實(shí)時。
大數(shù)據(jù)、流數(shù)據(jù)到“時序大數(shù)據(jù)”發(fā)展歷程
針對時序大數(shù)據(jù)的處理,我們的研究工作涉及到四項(xiàng)關(guān)鍵技術(shù),分別是:
1. 面向復(fù)雜統(tǒng)計(jì)指標(biāo)的實(shí)時增量計(jì)算?;诙囗?xiàng)式拆解的復(fù)雜算子增量計(jì)算算法,實(shí)現(xiàn)了在長周期、多尺度、高密度時間窗口中的方差、協(xié)方差、K階中心矩等數(shù)十種復(fù)雜算子實(shí)時計(jì)算。例如,從數(shù)學(xué)上,我們需要把計(jì)算協(xié)方差的方法重新寫成增量的方法,以前的數(shù)據(jù)不是簡單的原數(shù)據(jù),而是通過計(jì)算以后的中間量,這需要花費(fèi)很長的時間。我們用了十幾年的時間,把每個算法從數(shù)學(xué)的角度重新定義。
2. 面向時序數(shù)據(jù)處理的動態(tài)時間窗口技術(shù)。時間窗口需要提供滾動、滑動的漂移能力,也要支持長周期時間窗口的動態(tài)精度控制,并且還要支持基于彈性時間窗口的實(shí)時ADHoc查詢。
3. 多源時序數(shù)據(jù)的實(shí)時關(guān)聯(lián)計(jì)算。關(guān)聯(lián)分析非常重要,不僅僅是一個特征的時序分析,還需要關(guān)聯(lián)起來,這個時候需要有一個關(guān)聯(lián)分析的引擎。針對關(guān)聯(lián)分析的引擎,我們必須在內(nèi)存里面有非常大的空間,但是要做到實(shí)時也是非常難的。
4. 基于流的事件序列識別(復(fù)雜事件處理CEP)。主要是支持CEP的增量匹配及數(shù)理統(tǒng)計(jì)問題,要把增量匹配增量統(tǒng)計(jì)。
通過多年的努力,我們基本上解決了四大關(guān)鍵技術(shù)問題,形成了我們稱之為的流立方技術(shù)。流立方能夠和均勻流架構(gòu)完全結(jié)合起來,具有歷史數(shù)據(jù)的大數(shù)據(jù)量的處理能力,同時又具有流處理的實(shí)時能力。這是一個大數(shù)據(jù)處理的方式,因?yàn)樵诰唧w應(yīng)用當(dāng)中,大家會碰到很多大數(shù)據(jù)的分析,但是很多時候,都沒有加上時間這個緯度的分析,當(dāng)然沒有加上時間緯度的分析也許能夠解決問題,但是要花費(fèi)很大的計(jì)算量。這四項(xiàng)關(guān)鍵是處理大數(shù)據(jù)實(shí)時時序的大數(shù)據(jù)流分析,后面結(jié)合AI的模型,可以形成一個實(shí)時的流的管理。
流立方,除了流之外,還可以在圖上展示。特征空間的分析用特征向量就可以,加了一個在每個特征空間里面時間緯度,形成時序的時間分析。圖的分析是關(guān)聯(lián)分析,關(guān)聯(lián)分析圖也是可以加時間緯度。
如下圖所示,在2017年的時候已經(jīng)知道圖數(shù)據(jù)的處理非常重要。同樣的,到了2018年的時候,圖越來越大,需要進(jìn)行實(shí)時的圖計(jì)算,這個時候我們想到很多的方式,分布式的實(shí)時圖數(shù)據(jù)也有,類似于流處理,和以前的批處理的架構(gòu)一樣。以前所謂的圖處理,現(xiàn)在是實(shí)時圖處理,關(guān)鍵是加上時序分析。到了2018年有1.0版,目前我們希望有2.0版,這里有大量的工作需要做。尤其是圖計(jì)算越來越重要,圖計(jì)算能夠產(chǎn)生80%的數(shù)據(jù)創(chuàng)新。通過圖計(jì)算分析能夠洞徹?cái)?shù)據(jù)之間的關(guān)聯(lián)關(guān)系,提高社會運(yùn)行效率,這是戰(zhàn)略的制高點(diǎn)。
從“時序流”到“時序動態(tài)圖”的發(fā)展歷程
圖計(jì)算也是非常難的,實(shí)時圖計(jì)算,時序圖的動態(tài)回溯和分析,百億級頂點(diǎn),萬億億的邊,兩兩都有邊,時間軸會變一下,有的頂點(diǎn)增加,有的頂點(diǎn)減少,有的關(guān)聯(lián)邊沒有了,有的邊增加了,這個關(guān)聯(lián)度要建立起來。這樣的應(yīng)用案例非常多,去年在新冠期間,在實(shí)時的時空關(guān)聯(lián)中,有很多頂點(diǎn),除了每個人是一個頂點(diǎn)之外,把時空分割起來也是一個頂點(diǎn)。所以,一個人在時間、空間上和你關(guān)聯(lián)起來,就是時空關(guān)聯(lián)。幾百億的頂點(diǎn)和邊,怎么做都是困難的,這里通過時序圖的實(shí)時增量計(jì)算和動態(tài)回溯,時序圖的分布式處理,時序圖的智能決策都有很大的挑戰(zhàn)性。在我們的研究工作中,這里依然由四項(xiàng)關(guān)鍵技術(shù)。
1. 時序圖的實(shí)時增量計(jì)算,包括統(tǒng)計(jì)特征,聚合的統(tǒng)計(jì),聚合邊的關(guān)聯(lián)。圖和流不一樣,圖實(shí)時動,圖的結(jié)構(gòu)就變了,到了下一時刻,原來是兩億的點(diǎn)的圖,變成了現(xiàn)在的2.3億,增加三千萬點(diǎn)。需要動態(tài)建圖,并且時序圖的增量匹配是個問題。事件驅(qū)動的圖模式并行匹配,需要很大的工作量,除此之外,更難的是原有的圖算法很多,需要進(jìn)行圖算法的增量計(jì)算,有大量工作要做。
2. 時序圖的實(shí)時動態(tài)回溯。支持長周期、混合時間尺度的時序計(jì)算能力,以及支持彈性時間窗口的視圖實(shí)時回溯能力。關(guān)系在變化,每個切面都要變,需要實(shí)時進(jìn)行查詢。
3. 時序圖的分布式內(nèi)存存儲引擎。這么大的圖做到實(shí)時,一定要把數(shù)據(jù)導(dǎo)進(jìn)內(nèi)存,能不能做一個分布式的內(nèi)存架構(gòu)顯得非常重要。到目前為止,開源的流效益依然不高。我們做的時序圖分布式存儲引擎叫做cubebose,希望對圖的結(jié)構(gòu)更加有效。
4. 面向時序圖的實(shí)時決策(三核智能決策引擎),把數(shù)據(jù)從實(shí)時采集到實(shí)時決策,指標(biāo)計(jì)算特征提取這里面有圖數(shù)據(jù)庫,時間關(guān)系等。
針對時序圖的應(yīng)用,銀行交易反欺詐系統(tǒng)是一個典型的案例。這個系統(tǒng)用到了流的處理引擎,是一個精巧的計(jì)算,可以不用大量的算力和計(jì)算機(jī)來做這個工作。銀聯(lián)要求每秒5萬個并發(fā),希望在50毫秒內(nèi)全球要響應(yīng),IBM的硬件要一千多萬,我們的算法只使用4臺PC設(shè)備。如果沒有時序流的計(jì)算,硬件不僅僅4臺,可能要40臺都不夠。
第二案例是鐵路12306,大量的爬票程序存在,需要在每秒170萬的并發(fā)量,幾千臺設(shè)備管理買票都要宕機(jī)。阿里的雙11支付的峰值是每秒60多萬,鐵路12306峰值達(dá)到180萬,是阿里的雙11的3倍。采用了我們的算法,僅僅使用了22臺設(shè)備?,F(xiàn)在鐵路12306核心處理只有22臺,安裝了22個節(jié)點(diǎn)的流立方,可以做到每秒200萬的處理能力。
在數(shù)字經(jīng)濟(jì)時代,數(shù)據(jù)怎么處理,從時間軸上面考慮,這是非常重要的。因?yàn)橐郧暗乃惴]有時間這個緯度,我們通過很多AI模型來計(jì)算來解決這個問題,但是加上時間,一切問題迎刃而解。黑客攻擊也是一樣,以前沒有時間戳,沒有辦法,加上時間戳很多問題很多模型都簡化很多,所以我建議大家在具體的數(shù)字經(jīng)濟(jì)時代,當(dāng)我們在處理數(shù)據(jù)的時候,結(jié)合場景,加一個緯度(時間)加上去看看,能不能起到一個很好的作用。
審核編輯 :李倩
-
算法
+關(guān)注
關(guān)注
23文章
4625瀏覽量
93123 -
模型
+關(guān)注
關(guān)注
1文章
3279瀏覽量
48978 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8900瀏覽量
137591
原文標(biāo)題:陳純院士報(bào)告分享:時序大數(shù)據(jù)流(圖)實(shí)時計(jì)算及智能決策
文章出處:【微信號:信息與電子工程前沿FITEE,微信公眾號:信息與電子工程前沿FITEE】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論