近年來, Serverless作為一種新型的互聯(lián)網(wǎng)架構直接或間接推動了云計算的發(fā)展,同時基于Serverless的輕量計算也成為了新的技術熱點,而Serverless SQL大數(shù)據(jù)分析產(chǎn)品就在此背景下應運而生。
目前,國內云計算廠商UCloud推出的一款基于Serverless的SQL分析計算引擎USQL,可輕松完成面向海量數(shù)據(jù)的數(shù)據(jù)建模工作,SQL即可完成數(shù)據(jù)查詢和分析,極大降低使用大數(shù)據(jù)的門檻,且無需數(shù)據(jù)庫管理員和運維人員,大幅度改善企業(yè)對大數(shù)據(jù)工程師的依賴。
下面通過實例來對Serverless SQL大數(shù)據(jù)分析技術的應用做出詳解:
愛普新媒是一家專注于移動互聯(lián)網(wǎng)產(chǎn)品研發(fā)和新媒體整合營銷的高新技術型公司,旗下?lián)碛?00余款精品軟件,內容涵蓋日常生活、效率工具、文章資訊等多個方面,主營以天氣預報、快游等綜合自媒體矩陣為載體的推廣業(yè)務和以云魔方DSP移動互聯(lián)網(wǎng)廣告分發(fā)平臺為基礎的廣告投放業(yè)務。
目前愛普新媒廣告業(yè)務數(shù)據(jù)規(guī)模達到數(shù)百TB,日增長量為1TB左右,業(yè)務日常不固定的分析需求非常多。在現(xiàn)有的大數(shù)據(jù)處理方案下,數(shù)據(jù)部門每月需投入大數(shù)據(jù)工程師20個人/日,平均每次需求處理時長為1.8天,此外還需額外花費數(shù)千元維持一個數(shù)據(jù)倉庫集群?;谝延屑軜嫞瑪?shù)據(jù)部門將廣告日志數(shù)據(jù)壓縮后存放于對象存儲UFile中,接收到業(yè)務分析師不固定的數(shù)據(jù)需求后,再將用于分析的原始數(shù)據(jù),臨時加載到數(shù)據(jù)倉庫UDW中,完成SQL分析后實施清除操作。
圖:愛普新媒現(xiàn)有架構
在已有架構的模式下,愛普新媒面臨著來自業(yè)務和數(shù)據(jù)分析部門極大的挑戰(zhàn):
業(yè)務部門:
(1)由于數(shù)據(jù)規(guī)模較大,業(yè)務分析師無法自主完成分析,必須極大程度依賴大數(shù)據(jù)工程師;
(2)任務處理周期長,若出現(xiàn)新的需求變更或分析結果未達預期的情況,需要重新走一遍處理流程;
(3)當對分析結果存有疑問時,無法查看原始數(shù)據(jù)進行校驗。
數(shù)據(jù)部門:
(1)業(yè)務部門每月的不固定數(shù)據(jù)分析需求非常多,數(shù)據(jù)部門有限的技術人力資源難以支撐;
(2)需求變動返工次數(shù)多,導致大量重復性工作;
(3)隨著數(shù)據(jù)日增長量的不斷提升,用于臨時存放不固定需求數(shù)據(jù)的GreenPlum成本不斷在增加。
愛普新媒對業(yè)務改善的訴求便是:可支持數(shù)百TB規(guī)模的數(shù)據(jù)分析、業(yè)務分析師可獨立完成不固定需求分析工作、具有較強的Ad-Hoc能力、可縮短每次需求處理時長、可降低計算成本投入和運維投入。
針對以上問題,UCloud使用USQL產(chǎn)品幫助愛普新媒對現(xiàn)有業(yè)務數(shù)據(jù)處理架構做出了改善。UCloud發(fā)現(xiàn),愛普新媒現(xiàn)有架構中計算與存儲是分離的狀態(tài),其原始數(shù)據(jù)并未與GreenPlum強耦合,這為更換分析引擎的方案實施提供了便利。
GreenPlum數(shù)據(jù)平滑切換至USQL
首先在新架構中使用USQL替換原先用于臨時加載數(shù)據(jù)的GreenPlum,省去數(shù)據(jù)從UFile導入到GreenPlum的過程,使得業(yè)務分析師能夠直接通過SQL分析UFile中海量數(shù)據(jù),全程無需大數(shù)據(jù)工程師的參與。
圖:愛普新媒新架構
USQL升級保障多格式數(shù)據(jù)支持
此外,數(shù)據(jù)對接中發(fā)現(xiàn),愛普新媒的數(shù)據(jù)格式為JSON并通過GZIP格式壓縮,UCloud了解后一周內完成USQL產(chǎn)品升級,得以支持這兩種數(shù)據(jù)格式,減少對接上的障礙,并協(xié)助愛普新媒重新布局其現(xiàn)有數(shù)據(jù),目前愛普新媒實際業(yè)務SQL已全部落地,同時完成產(chǎn)品培訓以及現(xiàn)場演示。
圖:實際業(yè)務SQL示例
最終,我們對應用了USQL的愛普新媒新數(shù)據(jù)平臺與原平臺進行了對比分析:
1、計算成本降低97.5%
相較于愛普新媒現(xiàn)在每月花費在傳統(tǒng)數(shù)據(jù)倉庫(用于臨時存放數(shù)據(jù))的數(shù)千元,處理同樣的數(shù)據(jù),USQL可將成本控制在每月幾十元,因為USQL按照實際分析數(shù)據(jù)量計費,每GB數(shù)據(jù)分析價格極低,且不使用時不計費。
2、任務周期縮短55.6%
愛普新媒現(xiàn)有架構下,處理不固定的數(shù)據(jù)需求,數(shù)據(jù)導入與分析平均處理時長為1.8天,而USQL可省去數(shù)據(jù)導入的步驟,減少運維工作量,大幅度縮短每次任務完成時間。
3、分析效率提升5倍
愛普新媒所有真實業(yè)務SQL均已落地,其中最耗時的SQL分析時間可從600秒降至118秒,整體明顯提高SQL分析效率。
4、大數(shù)據(jù)工程師投入降為0
目前每月需投入大數(shù)據(jù)工程師20個人日,使用USQL產(chǎn)品,業(yè)務分析師可直接通過SQL在對象存儲UFile中完成數(shù)據(jù)分析,極大減少對工程師的依賴,有限的人力資源可得到更好的利用。
愛普新媒CTO牛德恒總結道:“使用USQL產(chǎn)品,用戶在原有的數(shù)據(jù)文件基礎上進行數(shù)據(jù)建模,即可使用SQL進行業(yè)務數(shù)據(jù)的快速查詢,此種方式對原有數(shù)據(jù)文件改動較小,用戶不用關注大數(shù)據(jù)分布式處理的過程,業(yè)務遷移方便。對比我們現(xiàn)有的大數(shù)據(jù)處理方案,節(jié)省80%的服務器成本,提升50%數(shù)據(jù)分析速度,同時也縮短了新業(yè)務的開發(fā)周期,值得推薦。”
-
云計算
+關注
關注
39文章
7846瀏覽量
137622 -
大數(shù)據(jù)
+關注
關注
64文章
8900瀏覽量
137591 -
serverless
+關注
關注
0文章
65瀏覽量
4514
原文標題:提升效率50%+節(jié)約成本80%,Serverless SQL大數(shù)據(jù)分析的最佳實踐
文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論