上周,【虹科云課堂】數(shù)據(jù)管理與可視化解決方案前兩期課程圓滿結(jié)束,感謝大家的觀看與支持。虹小科為大家整理了課后筆記,本篇文章為第二次直播課后筆記,請查收。
導(dǎo)語
上周二我們已經(jīng)了解了什么是數(shù)據(jù)可觀察性,它能夠在混合多云環(huán)境中提供端到端的可觀察性的解決方案,數(shù)據(jù)可觀察性可以將現(xiàn)代數(shù)據(jù)系統(tǒng)的數(shù)據(jù)、計算和管道層中的事件關(guān)聯(lián)起來,以提供對企業(yè)數(shù)據(jù)管道的健康和可靠性的全面可見性。
Datadog 和 New Relic 等應(yīng)用程序性能管理 (APM) 工具為開發(fā)人員提供了基礎(chǔ)設(shè)施問題的透明度。在 APM 工具出現(xiàn)之前,只有管理員負責(zé)處理性能問題。
然而數(shù)據(jù)可觀察性可以說是建立在APM的基礎(chǔ)之上的,是由APM演變過來的,它的重點是開發(fā)數(shù)據(jù)的多維視圖,包括性能、質(zhì)量及其對堆棧其他組件的影響。數(shù)據(jù)可觀察性的總體目標(biāo)是查看數(shù)據(jù)對業(yè)務(wù)需求和目標(biāo)的支持程度。
最后一個是它如何幫助企業(yè)降本增效?
那我們先不說答案,把文章看完,你就明白了,最后我們會總結(jié)這個問題的答案。
本文圍繞3部分展開
1、Pulse產(chǎn)品介紹
2、Pulse介紹功能詳解
(數(shù)據(jù)可觀察性具體概念可見3月1日直播)
01 Pulse產(chǎn)品介紹
首先來看一下產(chǎn)品介紹,這里列舉了一些企業(yè)平時可能會遇到的問題,第一個是數(shù)據(jù)系統(tǒng)可能會發(fā)生意外的中斷或減速,系統(tǒng)的不穩(wěn)定導(dǎo)致了耗時的操作問題和日常運維排錯,同時也會對業(yè)務(wù)產(chǎn)生影響,這種操作問題可能會導(dǎo)致開發(fā)人員效率低下,項目進度會被嚴重影響。
第三個就是企業(yè)中需要大量的計算節(jié)點,在大規(guī)模高訪問量業(yè)務(wù)下現(xiàn)有的數(shù)據(jù)系統(tǒng)性能無法跟上其快速擴展的業(yè)務(wù)需求,當(dāng)業(yè)務(wù)訪問處于高峰期時,系統(tǒng)負載過高,訪問速度慢,甚至服務(wù)器可能會崩潰,企業(yè)會經(jīng)歷比較長的(MTTR)平均修復(fù)時間、頻繁的中斷和性能瓶頸。
第四個就是不良的數(shù)據(jù)導(dǎo)致企業(yè)收入降低。在過去的一年中,大概有五分之一的公司因數(shù)據(jù)不良而失去收入和客戶。比如保險行業(yè),與 10 年甚至 5 年前相比,保險公司正在通過越來越多的關(guān)鍵工作流獲取越來越多的第三方數(shù)據(jù)。第三方數(shù)據(jù)(即保單索賠、財務(wù)信息和 PPI)通常是手動匯總的,增加了錯誤的可能性。對于保險業(yè)而言,丟失或錯誤的數(shù)據(jù)可能會對業(yè)務(wù)產(chǎn)生重大影響,導(dǎo)致收入損失、業(yè)務(wù)決策失誤以及缺乏客戶信任。
最后一個就是公司有限的人才和技術(shù)資源來處理日益復(fù)雜的快速變化的技術(shù)。公司創(chuàng)建了數(shù)據(jù)運營團隊,并迅速為他們配備了數(shù)據(jù)架構(gòu)師、數(shù)據(jù)工程師、數(shù)據(jù)管理員等。然而,為了在保持數(shù)據(jù)流動的同時獲得對快速增長的數(shù)據(jù)基礎(chǔ)設(shè)施的控制權(quán),大多數(shù)企業(yè)數(shù)據(jù)運營團隊對手頭的管理工具做出了隨意的選擇,比如選擇數(shù)據(jù)監(jiān)控工具或APM或者混著用免費的開源工具,但問題是技術(shù)發(fā)展如此之快,業(yè)務(wù)需求變化如此之快,管理如此多的工具浪費時間而效率低下,并且用警報轟炸管理人員,卻沒有提供提前解決潛在問題的方法。
那么,面對這些問題,我們推出pulse這個產(chǎn)品,Pulse 是一種數(shù)據(jù)可觀察性和計算性能監(jiān)控工具。它能夠提高跨混合數(shù)據(jù)湖和倉庫的企業(yè)分析和人工智能系統(tǒng)的可見性。Pulse將來自混合系統(tǒng)的信息整理成一個整體視圖,使數(shù)據(jù)團隊能夠?qū)栴}作出快速反應(yīng),預(yù)測和預(yù)防未來的問題,避免重新處理數(shù)據(jù),優(yōu)化現(xiàn)有資源,快速擴展,并有效管理成本。改善數(shù)據(jù)處理的可靠性、規(guī)模和成本。
當(dāng)通過管道的數(shù)據(jù)流受到破壞時,它會阻止用戶獲取所需信息,從而導(dǎo)致根據(jù)不完整或不正確的信息做出決策。同時在各種云平臺、技術(shù)和應(yīng)用程序之間監(jiān)控數(shù)據(jù)流對組織來說是一項重大挑戰(zhàn)。為了在性能問題對業(yè)務(wù)產(chǎn)生負面影響之前識別和解決它們,組織需要能夠提供管道宏觀視圖的數(shù)據(jù)可靠性工具。那么pulse就是這種工具,它提供全面、實時且可操作的策略,它使用外部輸出了對系統(tǒng)內(nèi)部狀態(tài)的度量。通過一個用戶友好的UI界面就可以看到端到端的管道,這使管理人員能夠看到問題發(fā)生在哪里,影響到什么,以及問題來自哪里。
那么是誰在用Pulse呢?
Pulse 為開發(fā)人員、數(shù)據(jù)科學(xué)家和運營人員提供關(guān)于數(shù)據(jù)的集成可見。Pulse將跨基礎(chǔ)設(shè)施、應(yīng)用程序和數(shù)據(jù)層的事件關(guān)聯(lián)起來,并且在一個單一的儀表板管理界面就能綜合多個層次和工作負載的信號,以提供對單個組件、數(shù)據(jù)管道和系統(tǒng)性能的全面了解。這種方法可以幫助眾多團隊通過預(yù)測、識別和修復(fù)數(shù)據(jù)問題來確??煽啃?。
現(xiàn)在都說企業(yè)要實現(xiàn)數(shù)字化轉(zhuǎn)型,成為數(shù)據(jù)驅(qū)動的公司,那獲得良好的數(shù)據(jù)是第一步,比如說銀行保險業(yè)要數(shù)字化轉(zhuǎn)型,但是可能會遇到與傳統(tǒng)經(jīng)營管理方式的新型風(fēng)險,比如數(shù)據(jù)安全、網(wǎng)絡(luò)安全、隱私保護和數(shù)據(jù)合規(guī)使用等等,面對這些數(shù)據(jù)問題,這時候就需要pulse了,它能加速企業(yè)數(shù)字化轉(zhuǎn)型,提高數(shù)據(jù)系統(tǒng)的可靠性、可擴展性和恢復(fù)能力。
預(yù)測和預(yù)防問題,pulse可以識別數(shù)據(jù)問題的早期預(yù)警跡象,快速查明根本原因,并自動化預(yù)防性維護,以避免業(yè)務(wù)中斷,加快云遷移和性能驗證,將新技術(shù)采用率提高50%,滿足SLA,減少MTTR,增加新的MTBF(平均無故障時間)指標(biāo),會以周和月為單位。
接下來我們看一下它的特點:首先它可以實時監(jiān)控和分析數(shù)百個作業(yè)以找出異常值。Pulse與所有現(xiàn)代數(shù)據(jù)系統(tǒng)集成,包括 Amazon EMR,Redshift, Apache HBase, Hive,Spark等等,收集每個軟件平臺對應(yīng)的指標(biāo)進行趨勢分析和異常檢測。
第二個是它使用整個應(yīng)用程序歷史記錄有效地調(diào)試應(yīng)用程序,這就是相當(dāng)我們寫代碼遇到錯誤去調(diào)試代碼一樣的,它根據(jù)應(yīng)用程序正確運行時的歷史記錄、日志什么通過比較去排除問題出現(xiàn)在哪里。
第三個是消除計劃外停機,減少平均修復(fù)時間(MTTR),pulse能減少問題的發(fā)生,因為它能實時監(jiān)控和分析應(yīng)用程序的運行,自然就可以在問題發(fā)生之前及時去解決異常和通知告警,然后就可以減少MTTR。
第四特點是接收符合系統(tǒng)需求的建議,pulse能夠讓客戶去自定義一些標(biāo)準(zhǔn)規(guī)則,并且判斷這些規(guī)則是否能讓系統(tǒng)性能更好。
第五個特點是本地集成到數(shù)據(jù)引擎中提取數(shù)據(jù),pulse與各種平臺的原生功能集成,以優(yōu)化這些平臺內(nèi)的數(shù)據(jù)流程。它與各種數(shù)據(jù)庫引擎原生集成并生成基于原生 SQL 的指令,然后將這些指令下推到處理引擎以在數(shù)據(jù)庫中執(zhí)行。
第六個特點是基于Javascript的儀表盤來管理數(shù)據(jù)系統(tǒng),使用統(tǒng)一的控制臺去管理來自多個應(yīng)用程序和環(huán)境的不同來源的信息,它為管理層提供了對關(guān)鍵 IT 績效指標(biāo)和指標(biāo)的可見性,以調(diào)整業(yè)務(wù)目標(biāo)并將運營指標(biāo)與業(yè)務(wù)優(yōu)先級聯(lián)系起來。
接下來看一下pulse的應(yīng)用場景:
第一個是屬于電信、金融服務(wù)、能源、物聯(lián)網(wǎng)、電子商務(wù)行業(yè)和任何依賴大量靜止數(shù)據(jù)和動態(tài)數(shù)據(jù)以滿足運營和分析需求的企業(yè)。
如今,數(shù)據(jù)在端點和金融服務(wù)架構(gòu)的核心基礎(chǔ)設(shè)施中都以指數(shù)速度增長。隨著網(wǎng)絡(luò)托管轉(zhuǎn)移到云或邊緣點,生成的數(shù)據(jù)量將增加 4-5 倍,并且隨著微服務(wù)組件各自創(chuàng)建自己的數(shù)據(jù)而變得更加復(fù)雜。現(xiàn)有技術(shù)已經(jīng)逐漸無法提供即時快速的響應(yīng)的。如果沒有適合的監(jiān)控系統(tǒng),事件會在更長的時間內(nèi)未被發(fā)現(xiàn)和解決,如果不能快速響應(yīng),將會導(dǎo)致客戶流失,所以十分需要一種技術(shù)工具來幫助監(jiān)控企業(yè)數(shù)據(jù)系統(tǒng)并解決出現(xiàn)的任何問題。
數(shù)據(jù)可觀察性不僅能保證良好的客戶體驗,同時它也能讓CFO財務(wù)總監(jiān)實時訪問財務(wù)數(shù)據(jù)和高級分析,提供對關(guān)鍵數(shù)據(jù)的持續(xù)和不間斷的訪問,因為他是業(yè)務(wù)決策者,數(shù)據(jù)驅(qū)動的決策對于任何企業(yè)的成功都是不可或缺的,因此有必要能夠觀察系統(tǒng)中任何地方發(fā)生的事情,無論其架構(gòu)多么復(fù)雜。
所有公司都可以使用數(shù)據(jù)可觀察性,無論其數(shù)字或數(shù)據(jù)能力如何。與特定于供應(yīng)商的解決方案不同,數(shù)據(jù)可觀察性建立在與技術(shù)無關(guān)的原則之上。而且一種良好的數(shù)據(jù)可觀察性方法實際上將使用機器學(xué)習(xí)和自動化,通過消除手動驗證數(shù)據(jù)的需要,使您的公司更容易訪問和擴展可靠的數(shù)據(jù)。
第二個是擁有過30TB+的數(shù)據(jù)和500核的處理能力的公司。
第三個是希望采用和擴展先進的開源數(shù)據(jù)技術(shù)的組織。
接著看一下pulse的整體架構(gòu)。Pulse 從各種系統(tǒng)收集日志、存儲它們,并在統(tǒng)一的管理平臺顯示洞察和分析。代理運行不同的平臺,例如 Spark、Hive、Tez 或 HBase。對于每個平臺,Pulse 會收集多個指標(biāo)。例如,為Spark收集Yarn 指標(biāo),為Hive收集時間序列數(shù)據(jù),為Tez收集App 數(shù)據(jù)。收集這些指標(biāo)利用AI進行趨勢分析和異常檢測,成功的異常檢測依賴于對時間序列數(shù)據(jù)的分析,這些數(shù)據(jù)由一系列隨時間變化的值組成,并且實時、準(zhǔn)確。由于時間序列數(shù)據(jù)包含可用于對未來進行有根據(jù)的猜測的信息,異常檢測系統(tǒng)使用這些信息來發(fā)現(xiàn)異常并發(fā)出警報。時間序列數(shù)據(jù)異常檢測還可用于以下指標(biāo):網(wǎng)頁瀏覽量、每日活躍用戶、移動應(yīng)用安裝、每個潛在客戶成本等等。了解異常檢測系統(tǒng)可以識別的異常值類型對于從生成的分析中獲得最大價值至關(guān)重要。一旦您的異常檢測系統(tǒng)提醒您存在問題或機會,你就可以做出正確的決定。
將來自指標(biāo)的數(shù)據(jù)收集在以下三個服務(wù)之一中,例如數(shù)據(jù)庫、時序數(shù)據(jù)或日志索引,并通過 docker 容器進行部署。
02 Pulse功能詳解
總結(jié)一下pulse的關(guān)鍵功能,首先它可以監(jiān)控實時的數(shù)據(jù),通過創(chuàng)建警報來監(jiān)控基礎(chǔ)設(shè)施組件的關(guān)鍵模塊,例如 CPU、內(nèi)存、數(shù)據(jù)庫運行狀況和 HDFS,使數(shù)據(jù)和基礎(chǔ)設(shè)施層更易于觀察。在組織內(nèi)的各個級別實現(xiàn)實時決策。
第三個是它能加速數(shù)據(jù)的消耗,優(yōu)化查詢和算法性能,識別瓶頸和多余的開銷,它還可以幫助數(shù)據(jù)團隊提高數(shù)據(jù)管道的可靠性、優(yōu)化 HDFS 性能、整合 Kafka 集群并降低總體數(shù)據(jù)成本。
第四個是它可以優(yōu)化數(shù)據(jù)操作、容量和數(shù)據(jù)工程,將部署配置和資源與業(yè)務(wù)需求對齊,監(jiān)控和預(yù)測共享資源的成本,并以對數(shù)據(jù)使用和熱點的深度可見性管理管道數(shù)據(jù)流。
第五個是它可以與很多關(guān)鍵數(shù)據(jù)系統(tǒng)集成,可以輕松地連接到 Databricks、Spark、Kafka、Hadoop以及其他流行的開源發(fā)行版、數(shù)據(jù)倉庫、查詢引擎和云平臺。
Pulse與底層數(shù)據(jù)庫系統(tǒng)集成,通過特定的技術(shù)連接器收集來自基礎(chǔ)設(shè)施、應(yīng)用程序和數(shù)據(jù)層的數(shù)據(jù),并將其存儲在其特定領(lǐng)域的數(shù)據(jù)存儲中。然后,實時操作數(shù)據(jù)通過專有的Pulse Dashplots進行可視化,它能將所有層的數(shù)據(jù)元素集中起來,用于操作監(jiān)控。它還簡化了對你的性能指標(biāo)進行深入了解的過程,如查詢次數(shù)、復(fù)制狀態(tài)、內(nèi)存使用、合并操作等。最重要的是,這個集成具有對警報、日志集成的自動操作等全生命周期的支持。
03 數(shù)據(jù)可觀察性是如何幫助企業(yè)降本增效
回顧直播開頭,我們留下了一個問題,數(shù)據(jù)可觀察性是如何幫助企業(yè)降本增效呢?相信大家現(xiàn)在已經(jīng)有了答案。那我在這里總結(jié)了一下:第一個它幫助系統(tǒng)是消除計劃外停機,能夠預(yù)測和預(yù)防sev 1級別的問題,它能自動化預(yù)防性維護、性能調(diào)整和問題修復(fù),減少了整個系統(tǒng)維護的成本,第二個是它可以讓數(shù)據(jù)系統(tǒng)基礎(chǔ)設(shè)施實現(xiàn)彈性伸縮負載均衡,自動化工作負載分析,加快持續(xù)創(chuàng)新,執(zhí)行快速測試,并加強 CI/CD (持續(xù)集成和持續(xù)交付或持續(xù)部署)流程以快速支持新技術(shù),通過讓開發(fā)人員專注于業(yè)務(wù)問題,而不是處理與計算、數(shù)據(jù)質(zhì)量或數(shù)據(jù)管道相關(guān)的運營問題。節(jié)省了開發(fā)人員的時間和精力并提高了他們的生產(chǎn)力,技術(shù)+人才+專注=提高工作效率;第三個是降低基礎(chǔ)設(shè)施成本,通過卸載不必要的、過度配置的軟件來降低成本,并使基礎(chǔ)設(shè)施成本與業(yè)務(wù)需求保持一致。降低數(shù)據(jù)處理成本并實現(xiàn)實時分析的目標(biāo)。
虹科電子
虹科在工業(yè)、制造業(yè)領(lǐng)域深耕了長達20年,隨著云技術(shù)的全面發(fā)展和數(shù)字化工廠的逐步落地,虹科參與了越來越多的云主題的業(yè)務(wù),從最初的所有數(shù)據(jù)先統(tǒng)一采集上云,到后續(xù)的邊緣計算再上云,到現(xiàn)在的全面業(yè)務(wù)優(yōu)化、洞察研究、成本優(yōu)化等,虹科的云科技事業(yè)部已經(jīng)為行業(yè)的用戶實操并積累了豐富的解決方案和應(yīng)用場景。它們包括:資源監(jiān)控、安全保障、多云的互聯(lián)互通、應(yīng)用和數(shù)據(jù)牽引等。虹科云科技團隊在不斷順應(yīng)國家策略,從技術(shù)創(chuàng)新、標(biāo)準(zhǔn)制定、豐富生態(tài)、安全保障、節(jié)能減排等五個方面,不斷創(chuàng)造出更好的產(chǎn)品,幫助工業(yè)制造業(yè)的用戶實現(xiàn)數(shù)字化轉(zhuǎn)型、實現(xiàn)基于數(shù)據(jù)的降本增效。
虹科云科技工程師團隊不斷參與美國和歐洲產(chǎn)業(yè)內(nèi)先進的專家培訓(xùn),學(xué)習(xí)和實踐創(chuàng)新的技術(shù)手段、操作性強的應(yīng)用案例,并不斷引入到國內(nèi)的項目中完成落地和推廣,這讓我們團隊充滿了自豪感與使命感,賦予了我們當(dāng)今時代極大的技術(shù)價值、工作成就感。
原文標(biāo)題:直播精彩回顧(二)| 第二堂直播課精簡筆記,歡迎收藏
文章出處:【微信公眾號:廣州虹科電子科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7241瀏覽量
90998 -
可視化
+關(guān)注
關(guān)注
1文章
1244瀏覽量
21636 -
APM
+關(guān)注
關(guān)注
1文章
72瀏覽量
13311
原文標(biāo)題:直播精彩回顧(二)| 第二堂直播課精簡筆記,歡迎收藏
文章出處:【微信號:Hongketeam,微信公眾號:廣州虹科電子科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
YAGEO與Pulse產(chǎn)品在物聯(lián)網(wǎng)設(shè)備中的應(yīng)用
AI開發(fā)工具分類與功能
是德示波器DSOX3024功能詳解及應(yīng)用

請問DLPC150搭配DLP2010支持Phased Mirror Clocking Pulse Steps嗎?
ADF4378: Microwave Wideband Synthesizer with Integrated VCO and Deterministic General-Purpose Pulse Retimer Data Sheet adi

PI Expert在線設(shè)計工具新增功能

安森美系統(tǒng)設(shè)計工具介紹

自動化AI開發(fā)平臺功能介紹
Kali Linux常用工具介紹
Llama 3 模型與其他AI工具對比
網(wǎng)絡(luò)監(jiān)控工具Nagios和Zabbix的功能和使用場景

ESP8266如何將PULSE_NUM、PULSE_HIGH和PULSE_LOW設(shè)置為零?
CAN總線測試工具的主要功能
詳解工業(yè)網(wǎng)關(guān)在線探測功能及用途

評論