應(yīng)用背景
Quartet最初使用Sumo Logic和Slack來提供實時的IT見解。工程師們將他們的事件警報通知直接發(fā)送到Slack中的一個特定頻道,使他們能夠在手機和桌面上接收警報。由于沒有輪流值班的時間表,所以當(dāng)出現(xiàn)問題時,大家都會在同一時間蜂擁而上解決問題。最終,經(jīng)過討論后,一個人就會采取行動--這種群發(fā)過程意味著服務(wù)中斷會持續(xù)下去,導(dǎo)致平均確認時間(MTTA)和平均解決時間(MTTR)增加。Sumo Logic和Slack通知并沒有在團隊內(nèi)部提供一種緊迫感。
隨著公司的發(fā)展,缺乏事故管理解決方案對提供客戶和患者所期望的始終在線的平臺造成了影響。
Quartet
Quartet開發(fā)并提供了一個基于云的平臺,該平臺能夠促進醫(yī)療提供商和行為健康提供商在患者護理方面的溝通與協(xié)作。Quartet依靠先進的分析,和經(jīng)過驗證的治療程序,致力于推動醫(yī)療保健服務(wù)適在提供者,患者和保險公司之間的連貫性。Quartet重點關(guān)注的是那些24/7的醫(yī)療保健提供者,并在最大程度上確保數(shù)據(jù)安全性和隱私性,所以密切關(guān)注內(nèi)部的系統(tǒng)行為,并確保業(yè)務(wù)高效,安全地運行是一件很重要的事。
公司目標(biāo)
改善他們的運營指標(biāo),降低平均確認時間(MTTA)和平均解決時間(MTTR)。
虹科PagerDuty方案
隨著Quartet工程團隊的發(fā)展,部署一個解決方案來協(xié)助維護他們的關(guān)鍵服務(wù)和系統(tǒng)成為一個迫切的問題。PagerDuty被精心挑選出來,幫助公司克服快速解決事故的挑戰(zhàn),同時也支持他們降低MTTA、MTTR和整體事故發(fā)生數(shù)量的目標(biāo)。Quartet看了一些其他的解決方案,但發(fā)現(xiàn)PagerDuty更成熟,總體上在行業(yè)內(nèi)有更好的聲譽。
Quartet的整個基礎(chǔ)設(shè)施都建立在AWS中,他們利用CloudWatch進行系統(tǒng)級的資源報警和監(jiān)控。這些報警是通過網(wǎng)絡(luò)主機PagerDuty觸發(fā)的,外部則是他們的第三方云端日志管理和分析服務(wù)Sumo Logic。他們的所有主機上都運行著代理,這些代理將日志推送到Sumo Logic,并每分鐘創(chuàng)建預(yù)定查詢,這將觸發(fā)PagerDuty的事件警報。
Shabib指出,有一個解決方案可以在問題解決之前發(fā)出警報和提醒,這有助于在團隊內(nèi)部建立一種責(zé)任感。這最終有助于強制生成高質(zhì)量的日志,同時允許個人在問題發(fā)生時更迅速地調(diào)試這些問題。該團隊還有一個升級政策,當(dāng)主要聯(lián)系人無法確認事件時,該政策就會啟動,讓次要的待命聯(lián)系人采取行動。
評價:
"我認為PagerDuty有助于將所有權(quán)交到工程師手中。讓他們離事件更近,所以當(dāng)事件發(fā)生時,真正構(gòu)建該軟件的正確人員會得到通知,并能解決和改進問題。"Shabib表示。這比 "蜂群技術(shù) "要好得多,因為后者有可能將事件放到?jīng)]有適當(dāng)背景或知識的人手中解決,更不用說當(dāng)問題本來只需一個人處理時,整個團隊都參與其中的低效率過程。
編輯:jq
-
IT
+關(guān)注
關(guān)注
2文章
868瀏覽量
63619 -
Logic
+關(guān)注
關(guān)注
1文章
97瀏覽量
46729 -
AWS
+關(guān)注
關(guān)注
0文章
433瀏覽量
24490 -
slack
+關(guān)注
關(guān)注
0文章
18瀏覽量
11096
原文標(biāo)題:虹科方案 | Quartet使用虹科PagerDuty協(xié)助維護關(guān)鍵服務(wù)和系統(tǒng)
文章出處:【微信號:Hongketeam,微信公眾號:廣州虹科電子科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論