0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

實例詳解對Serverless SQL大數(shù)據(jù)分析技術的應用

人工智能與大數(shù)據(jù)技術 ? 來源:YXQ ? 2019-07-26 10:54 ? 次閱讀

近年來, Serverless作為一種新型的互聯(lián)網(wǎng)架構直接或間接推動了云計算的發(fā)展,同時基于Serverless的輕量計算也成為了新的技術熱點,而Serverless SQL大數(shù)據(jù)分析產(chǎn)品就在此背景下應運而生。

目前,國內云計算廠商UCloud推出的一款基于Serverless的SQL分析計算引擎USQL,可輕松完成面向海量數(shù)據(jù)的數(shù)據(jù)建模工作,SQL即可完成數(shù)據(jù)查詢和分析,極大降低使用大數(shù)據(jù)的門檻,且無需數(shù)據(jù)庫管理員和運維人員,大幅度改善企業(yè)對大數(shù)據(jù)工程師的依賴。

下面通過實例來對Serverless SQL大數(shù)據(jù)分析技術的應用做出詳解:

愛普新媒是一家專注于移動互聯(lián)網(wǎng)產(chǎn)品研發(fā)和新媒體整合營銷的高新技術型公司,旗下?lián)碛?00余款精品軟件,內容涵蓋日常生活、效率工具、文章資訊等多個方面,主營以天氣預報、快游等綜合自媒體矩陣為載體的推廣業(yè)務和以云魔方DSP移動互聯(lián)網(wǎng)廣告分發(fā)平臺為基礎的廣告投放業(yè)務。

目前愛普新媒廣告業(yè)務數(shù)據(jù)規(guī)模達到數(shù)百TB,日增長量為1TB左右,業(yè)務日常不固定的分析需求非常多。在現(xiàn)有的大數(shù)據(jù)處理方案下,數(shù)據(jù)部門每月需投入大數(shù)據(jù)工程師20個人/日,平均每次需求處理時長為1.8天,此外還需額外花費數(shù)千元維持一個數(shù)據(jù)倉庫集群?;谝延屑軜嫞瑪?shù)據(jù)部門將廣告日志數(shù)據(jù)壓縮后存放于對象存儲UFile中,接收到業(yè)務分析師不固定的數(shù)據(jù)需求后,再將用于分析的原始數(shù)據(jù),臨時加載到數(shù)據(jù)倉庫UDW中,完成SQL分析后實施清除操作。

圖:愛普新媒現(xiàn)有架構

在已有架構的模式下,愛普新媒面臨著來自業(yè)務和數(shù)據(jù)分析部門極大的挑戰(zhàn):

業(yè)務部門:

(1)由于數(shù)據(jù)規(guī)模較大,業(yè)務分析師無法自主完成分析,必須極大程度依賴大數(shù)據(jù)工程師;

(2)任務處理周期長,若出現(xiàn)新的需求變更或分析結果未達預期的情況,需要重新走一遍處理流程;

(3)當對分析結果存有疑問時,無法查看原始數(shù)據(jù)進行校驗。

數(shù)據(jù)部門:

(1)業(yè)務部門每月的不固定數(shù)據(jù)分析需求非常多,數(shù)據(jù)部門有限的技術人力資源難以支撐;

(2)需求變動返工次數(shù)多,導致大量重復性工作;

(3)隨著數(shù)據(jù)日增長量的不斷提升,用于臨時存放不固定需求數(shù)據(jù)的GreenPlum成本不斷在增加。

愛普新媒對業(yè)務改善的訴求便是:可支持數(shù)百TB規(guī)模的數(shù)據(jù)分析、業(yè)務分析師可獨立完成不固定需求分析工作、具有較強的Ad-Hoc能力、可縮短每次需求處理時長、可降低計算成本投入和運維投入。

針對以上問題,UCloud使用USQL產(chǎn)品幫助愛普新媒對現(xiàn)有業(yè)務數(shù)據(jù)處理架構做出了改善。UCloud發(fā)現(xiàn),愛普新媒現(xiàn)有架構中計算與存儲是分離的狀態(tài),其原始數(shù)據(jù)并未與GreenPlum強耦合,這為更換分析引擎的方案實施提供了便利。

GreenPlum數(shù)據(jù)平滑切換至USQL

首先在新架構中使用USQL替換原先用于臨時加載數(shù)據(jù)的GreenPlum,省去數(shù)據(jù)從UFile導入到GreenPlum的過程,使得業(yè)務分析師能夠直接通過SQL分析UFile中海量數(shù)據(jù),全程無需大數(shù)據(jù)工程師的參與。

圖:愛普新媒新架構

USQL升級保障多格式數(shù)據(jù)支持

此外,數(shù)據(jù)對接中發(fā)現(xiàn),愛普新媒的數(shù)據(jù)格式為JSON并通過GZIP格式壓縮,UCloud了解后一周內完成USQL產(chǎn)品升級,得以支持這兩種數(shù)據(jù)格式,減少對接上的障礙,并協(xié)助愛普新媒重新布局其現(xiàn)有數(shù)據(jù),目前愛普新媒實際業(yè)務SQL已全部落地,同時完成產(chǎn)品培訓以及現(xiàn)場演示。

圖:實際業(yè)務SQL示例

最終,我們對應用了USQL的愛普新媒新數(shù)據(jù)平臺與原平臺進行了對比分析:

1、計算成本降低97.5%

相較于愛普新媒現(xiàn)在每月花費在傳統(tǒng)數(shù)據(jù)倉庫(用于臨時存放數(shù)據(jù))的數(shù)千元,處理同樣的數(shù)據(jù),USQL可將成本控制在每月幾十元,因為USQL按照實際分析數(shù)據(jù)量計費,每GB數(shù)據(jù)分析價格極低,且不使用時不計費。

2、任務周期縮短55.6%

愛普新媒現(xiàn)有架構下,處理不固定的數(shù)據(jù)需求,數(shù)據(jù)導入與分析平均處理時長為1.8天,而USQL可省去數(shù)據(jù)導入的步驟,減少運維工作量,大幅度縮短每次任務完成時間。

3、分析效率提升5倍

愛普新媒所有真實業(yè)務SQL均已落地,其中最耗時的SQL分析時間可從600秒降至118秒,整體明顯提高SQL分析效率。

4、大數(shù)據(jù)工程師投入降為0

目前每月需投入大數(shù)據(jù)工程師20個人日,使用USQL產(chǎn)品,業(yè)務分析師可直接通過SQL在對象存儲UFile中完成數(shù)據(jù)分析,極大減少對工程師的依賴,有限的人力資源可得到更好的利用。

愛普新媒CTO牛德恒總結道:“使用USQL產(chǎn)品,用戶在原有的數(shù)據(jù)文件基礎上進行數(shù)據(jù)建模,即可使用SQL進行業(yè)務數(shù)據(jù)的快速查詢,此種方式對原有數(shù)據(jù)文件改動較小,用戶不用關注大數(shù)據(jù)分布式處理的過程,業(yè)務遷移方便。對比我們現(xiàn)有的大數(shù)據(jù)處理方案,節(jié)省80%的服務器成本,提升50%數(shù)據(jù)分析速度,同時也縮短了新業(yè)務的開發(fā)周期,值得推薦。”

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 云計算
    +關注

    關注

    39

    文章

    7846

    瀏覽量

    137622
  • 大數(shù)據(jù)

    關注

    64

    文章

    8900

    瀏覽量

    137591
  • serverless
    +關注

    關注

    0

    文章

    65

    瀏覽量

    4514

原文標題:提升效率50%+節(jié)約成本80%,Serverless SQL大數(shù)據(jù)分析的最佳實踐

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NeuroBlade攜手亞馬遜EC2 F2實例,加速數(shù)據(jù)分析

    里程碑式的合作,標志著NeuroBlade的創(chuàng)新技術將與亞馬遜云科技的先進計算資源強強聯(lián)合,共同推動云原生數(shù)據(jù)分析工作負載的性能與效率邁向新高度。 據(jù)悉,Amazon EC2 F2實例融合了AMD
    的頭像 發(fā)表于 12-31 11:37 ?225次閱讀

    LLM在數(shù)據(jù)分析中的作用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)分析已經(jīng)成為企業(yè)和組織決策的關鍵工具。數(shù)據(jù)科學家和分析師需要從海量數(shù)據(jù)中提取有價值的信息,以支持業(yè)務決策。在這個過
    的頭像 發(fā)表于 11-19 15:35 ?362次閱讀

    如何使用SQL進行數(shù)據(jù)分析

    使用SQL進行數(shù)據(jù)分析是一個強大且靈活的過程,它涉及從數(shù)據(jù)庫中提取、清洗、轉換和聚合數(shù)據(jù),以便進行進一步的分析和洞察。 1.
    的頭像 發(fā)表于 11-19 10:26 ?365次閱讀

    raid 在大數(shù)據(jù)分析中的應用

    的具體應用: 一、提高性能 并行讀寫 :RAID技術通過并行讀寫多個磁盤,可以顯著提高數(shù)據(jù)的讀寫速度。在大數(shù)據(jù)分析環(huán)境中,數(shù)據(jù)讀寫速度是影響分析
    的頭像 發(fā)表于 11-12 09:44 ?273次閱讀

    emc技術大數(shù)據(jù)分析中的角色

    大數(shù)據(jù)分析通常涉及來自多個來源和格式的數(shù)據(jù)。這些數(shù)據(jù)可能包括結構化數(shù)據(jù)(如數(shù)據(jù)庫中的表格數(shù)據(jù)
    的頭像 發(fā)表于 11-01 15:22 ?307次閱讀

    云計算在大數(shù)據(jù)分析中的應用

    云計算在大數(shù)據(jù)分析中的應用廣泛且深入,它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數(shù)據(jù)分析中應用的介紹: 一、存儲和處理海量數(shù)據(jù) 云計算提供了強大的存儲和計算能力
    的頭像 發(fā)表于 10-24 09:18 ?529次閱讀

    IP 地址大數(shù)據(jù)分析如何進行網(wǎng)絡優(yōu)化?

    一、大數(shù)據(jù)分析在網(wǎng)絡優(yōu)化中的作用 1.流量分析 大數(shù)據(jù)分析可以對網(wǎng)絡中的流量進行實時監(jiān)測和分析,了解網(wǎng)絡的使用情況和流量趨勢。通過對流量數(shù)據(jù)
    的頭像 發(fā)表于 10-09 15:32 ?266次閱讀
    IP 地址<b class='flag-5'>大數(shù)據(jù)分析</b>如何進行網(wǎng)絡優(yōu)化?

    大數(shù)據(jù)從業(yè)者必知必會的Hive SQL調優(yōu)技巧

    大數(shù)據(jù)從業(yè)者必知必會的Hive SQL調優(yōu)技巧 摘要 :在大數(shù)據(jù)領域中,Hive SQL被廣泛應用于數(shù)據(jù)倉庫的
    的頭像 發(fā)表于 09-24 13:30 ?295次閱讀

    數(shù)據(jù)分析除了spss還有什么

    數(shù)據(jù)分析是當今世界中一個非常重要的領域,它涉及到從大量數(shù)據(jù)中提取有用信息、發(fā)現(xiàn)模式和趨勢,并為決策提供支持。SPSS(Statistical Package for the Social
    的頭像 發(fā)表于 07-05 15:01 ?685次閱讀

    數(shù)據(jù)分析的工具有哪些

    數(shù)據(jù)分析是一個涉及收集、處理、分析和解釋數(shù)據(jù)以得出有意義見解的過程。在這個過程中,使用正確的工具至關重要。以下是一些主要的數(shù)據(jù)分析工具,以及它們的功能和用途的介紹。 Excel Exc
    的頭像 發(fā)表于 07-05 14:54 ?954次閱讀

    數(shù)據(jù)分析有哪些分析方法

    數(shù)據(jù)分析是一種重要的技能,它可以幫助我們從大量的數(shù)據(jù)中提取有價值的信息,從而做出更明智的決策。在這篇文章中,我們將介紹數(shù)據(jù)分析的各種方法,包括描述性分析、診斷性
    的頭像 發(fā)表于 07-05 14:51 ?675次閱讀

    機器學習在數(shù)據(jù)分析中的應用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數(shù)據(jù)中學習規(guī)律,為企業(yè)和組織提供了更高效、更準確的
    的頭像 發(fā)表于 07-02 11:22 ?708次閱讀

    大數(shù)據(jù)分析平臺網(wǎng)站

    大數(shù)據(jù)分析平臺是一種用于處理和分析大規(guī)模數(shù)據(jù)集的系統(tǒng),旨在從海量數(shù)據(jù)中提取有價值的信息和洞察。以下是大數(shù)據(jù)分析平臺的主要功能和應用場景: 主
    的頭像 發(fā)表于 06-28 15:46 ?711次閱讀

    求助,關于AD采集到的數(shù)據(jù)分析問題

    問題描述:使用AD采集一個10Hz到2MHz的脈沖,脈沖底部可能大于零,由采集到的數(shù)據(jù)分析出該脈沖的上升時間,幅值和占空比。 備注:在分析的時候已經(jīng)知道脈沖的頻率,精度為2X10^-5. 在分析
    發(fā)表于 05-09 07:40

    廣告投放公司運用大數(shù)據(jù)分析,實現(xiàn)精準投放

    廣告投放公司運用大數(shù)據(jù)分析,實現(xiàn)精準投放 隨著大數(shù)據(jù)技術的不斷發(fā)展,廣告投放行業(yè)正經(jīng)歷著一場深刻的變革。傳統(tǒng)的廣告投放方式已經(jīng)難以滿足市場需求,而大數(shù)據(jù)分析則為廣告投放帶來了精準、高效
    的頭像 發(fā)表于 04-11 11:23 ?1017次閱讀