編者按:隨時(shí)隨地使用各種系統(tǒng)和工具,對現(xiàn)代人來說早已是司空見慣的事,但這一切完美工作的技術(shù)和服務(wù)并不是憑空出現(xiàn)的。正是因?yàn)槲④泚喼扪芯吭焊痹洪L周禮棟博士和他帶領(lǐng)的團(tuán)隊(duì)這樣從事系統(tǒng)和網(wǎng)絡(luò)研究工作的研發(fā)人員在幕后不斷的努力和創(chuàng)新,才能保證各種技術(shù)無縫、穩(wěn)定、高效、持續(xù)地協(xié)同進(jìn)行。
在本文中,周禮棟博士接受訪談,介紹了在這個(gè)系統(tǒng)擁有前所未有的復(fù)雜性的時(shí)代,如何精進(jìn)系統(tǒng)與網(wǎng)絡(luò)的研究工作,解釋了像CloudBrain這樣的項(xiàng)目針對實(shí)時(shí)故障排查來解決云規(guī)模問題,也探討了網(wǎng)絡(luò)相關(guān)的“灰色故障”問題,并告訴我們?yōu)槭裁船F(xiàn)在是系統(tǒng)和網(wǎng)絡(luò)研究的“最好的時(shí)代”。本文編譯自微軟研究院播客“The brave new world of cloud-scale systems and networking with Dr. Lidong Zhou”。
主持人:作為微軟亞洲研究院的副院長,您領(lǐng)導(dǎo)著計(jì)算機(jī)系統(tǒng)和網(wǎng)絡(luò)方面的研究,我知道您自己也從事很多研究。先簡單告訴我們您做了些什么,為什么要做這些事情。讓您每天起床的動(dòng)力是什么?
周禮棟:我認(rèn)為現(xiàn)在是研究系統(tǒng)和網(wǎng)絡(luò)最激動(dòng)人心的時(shí)刻之一。系統(tǒng)和網(wǎng)絡(luò)的進(jìn)步推動(dòng)了眾多技術(shù)的發(fā)展,比如互聯(lián)網(wǎng)、網(wǎng)絡(luò)搜索、大數(shù)據(jù)、人工智能、云計(jì)算等,現(xiàn)在我們每個(gè)人都依賴這些服務(wù)。反過來,所有的這些技術(shù)進(jìn)展又為系統(tǒng)和網(wǎng)絡(luò)帶來了前所未有的復(fù)雜性、規(guī)模性、動(dòng)態(tài)性。而系統(tǒng)就是在混亂中帶來秩序,把所有那些原本毫無關(guān)聯(lián)的部分整合成一個(gè)統(tǒng)一的整體。
近年來,隨著系統(tǒng)的發(fā)展,一些傳統(tǒng)的系統(tǒng)專業(yè)知識(shí),比如分布式系統(tǒng)、操作系統(tǒng)或網(wǎng)絡(luò),已經(jīng)不足以解決我們面臨的挑戰(zhàn)。我們還必須掌握其它領(lǐng)域的知識(shí),比如數(shù)據(jù)庫系統(tǒng)、編程語言、編譯器、硬件、人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等。在微軟亞洲研究院,我們把一個(gè)擁有不同專業(yè)知識(shí)的團(tuán)隊(duì)聚集起來,一起解決那些最具挑戰(zhàn)性的問題。
主持人:近20年的職業(yè)生涯中,您一直致力于推進(jìn)分布式系統(tǒng)的理論和實(shí)踐。請談?wù)勥@些年來您參與的項(xiàng)目,以及您為分布式系統(tǒng)所做的技術(shù)貢獻(xiàn)。剛剛提到了系統(tǒng)的復(fù)雜性,您如何看待這些年的演變呢?
周禮棟:我們正進(jìn)入分布式系統(tǒng)的時(shí)代。作為分布式系統(tǒng)研究人員,我們總是相信,我們在做最重要的部分。微軟研究院擁有獨(dú)特而優(yōu)越的聯(lián)系理論和應(yīng)用的研究和實(shí)踐環(huán)境,讓我們有機(jī)會(huì)了解產(chǎn)品團(tuán)隊(duì)面臨的的技術(shù)挑戰(zhàn)。在幫他們解決難題的同時(shí),我們也有足夠的靈活性,不局限于解決當(dāng)前具體的問題,而是從更長遠(yuǎn)的視角深入思考問題的本質(zhì),思考開發(fā)什么樣的新理論、新方法來應(yīng)對這些挑戰(zhàn)。2000年初,當(dāng)微軟開始做網(wǎng)絡(luò)搜索時(shí),我和Roy Levin、Leslie Lamport等當(dāng)時(shí)的同事一起和搜索的開發(fā)經(jīng)理開會(huì),了解他們遇到的分布式系統(tǒng)方面的挑戰(zhàn),并分享我們研究的分布式系統(tǒng)協(xié)議,它能保證分布式系統(tǒng)在各種故障下持續(xù)正常運(yùn)行,并提供可靠的故障搜索服務(wù)。剛開始,開發(fā)經(jīng)理認(rèn)為他們可以自己實(shí)現(xiàn)故障處理和容錯(cuò)。但是幾個(gè)月之后,面對眾多復(fù)雜的情況,他開始與我們合作,來支持和實(shí)現(xiàn)那些協(xié)議。
在開發(fā)各種協(xié)議時(shí),我們傾向于做一些假設(shè),比如可以容忍的故障數(shù)量。當(dāng)我們做研究時(shí),這些假設(shè)是可行的。但在實(shí)踐中,我們必須考慮假設(shè)不成立的極端情況。理論和實(shí)踐是有區(qū)別的。在微軟研究院工作的好處是,你可以接觸真正的問題,讓你了解哪些假設(shè)是合理的,哪些假設(shè)不合理,然后思考從更廣泛的意義上解決這些問題的最好方法,而不只是停留在解決某個(gè)特定的問題。
主持人:除了技術(shù)難題的研究,您也一直致力于推動(dòng)系統(tǒng)研究人員的社區(qū)發(fā)展,能否分享一下您推動(dòng)亞太地區(qū)系統(tǒng)研究人員社區(qū)發(fā)展的經(jīng)驗(yàn)?尤其是亞太系統(tǒng)研討會(huì)(APSys)的發(fā)展及成果。
周禮棟:一直以來,美國都擁有非常強(qiáng)大的系統(tǒng)社區(qū)。最近十幾年,我們看到歐洲系統(tǒng)界的成長和壯大,歐洲的系統(tǒng)研討會(huì)開始興起,并發(fā)展成成功的EuroSys會(huì)議。健康的學(xué)術(shù)社區(qū)和學(xué)術(shù)會(huì)議可以極大地促進(jìn)一個(gè)區(qū)域內(nèi)的學(xué)術(shù)研究,吸引更多研究人員的參與。
2010年,我已經(jīng)在微軟亞洲研究院工作,我和同事們想為亞太地區(qū)的系統(tǒng)社區(qū)貢獻(xiàn)一些力量。于是,我們舉辦了第一個(gè)亞太系統(tǒng)研討會(huì)(APSys)。那是一個(gè)非常小的開端,但此后它的發(fā)展遠(yuǎn)遠(yuǎn)超出了我們的預(yù)期。今年8月我們將在杭州舉辦第十屆APSys研討會(huì),來自世界各地的研究人員和專家都在為研討會(huì)的成功做貢獻(xiàn),它的影響力已經(jīng)遠(yuǎn)遠(yuǎn)超出了某個(gè)特定的地區(qū)。
主持人:您把這歸功于什么?
周禮棟:首先這是自然趨勢,這些年亞洲出現(xiàn)很多技術(shù)進(jìn)步,研究社區(qū)向亞太地區(qū)擴(kuò)展是必然的。另一個(gè)原因,是整個(gè)社區(qū)真正走到了一起。許多頂尖的系統(tǒng)研究人員都來自亞太地區(qū),我們想回饋亞太的愿望非常強(qiáng)烈。
主持人:2017年,在您的爭取下,計(jì)算機(jī)系統(tǒng)領(lǐng)域頂級會(huì)議操作系統(tǒng)原理研討會(huì)(SOSP)成功在上海舉辦,據(jù)我所知,競標(biāo)的難度堪比承辦奧運(yùn)會(huì)!
周禮棟:SOSP是計(jì)算機(jī)系統(tǒng)界最重要的會(huì)議之一,最初一直在美國舉行,后來開始在歐洲國家輪流舉辦。2011年開始,我們和上海交通大學(xué)的陳海波教授開始為亞太地區(qū)爭取SOSP的舉辦機(jī)會(huì),并得到了ACM SIGOPS的兩任主席和很多同行的鼎力支持。經(jīng)過三次努力,SOSP最終在2017年來到上海,吸引了創(chuàng)紀(jì)錄的800多名參會(huì)專家。這次會(huì)議對亞太地區(qū)的系統(tǒng)研究的意義重大,我們很高興看到越來越多來自亞太的高質(zhì)量研究出現(xiàn)在頂級的系統(tǒng)學(xué)術(shù)會(huì)議上。
主持人:讓我們談?wù)劷逃?。微軟亞洲研究院舉辦的中國計(jì)算機(jī)系統(tǒng)教學(xué)研討會(huì)今年已經(jīng)是第四屆。圖靈獎(jiǎng)得主John Hopcroft稱贊它是“邁向改善教育和培養(yǎng)世界級人才的一步”,請分享您對這個(gè)研討會(huì)的看法?
周禮棟:首先,系統(tǒng)教育需要更進(jìn)一步。對微軟亞洲研究院來說,我們非常自豪能通過研討會(huì)將來自世界的系統(tǒng)研究和教育人員聯(lián)系在一起,促進(jìn)歐美和亞太地區(qū)的的交流。另外,通過研討會(huì),我們也致力于培養(yǎng)下一代系統(tǒng)科學(xué)家和工程師。在這個(gè)過程中,我們得到了像Lorenzo Alvisi、Robbert Van Renesse、Geoff Voelker等知名教授和中國系統(tǒng)界一線教授的支持,他們?nèi)橥度雲(yún)⑴c研討會(huì)。相信有這些充滿激情的教授,我們將看到中國發(fā)展出更強(qiáng)大的新一代系統(tǒng)研究人員。
主持人:您曾經(jīng)提到,在云計(jì)算和人工智能時(shí)代,我們設(shè)計(jì)系統(tǒng)的方式要發(fā)生根本性轉(zhuǎn)變。哪些事情發(fā)生了變化?如何構(gòu)建下一代系統(tǒng)?
周禮棟:過去的30年里,計(jì)算機(jī)系統(tǒng)界致力于系統(tǒng)可靠性的工作,開發(fā)了很多相關(guān)技術(shù)和網(wǎng)絡(luò)協(xié)議,以為它們可以解決所有的問題。這套機(jī)制源自上世紀(jì)70年代末的飛機(jī)可靠性機(jī)制研究和設(shè)計(jì)。我們根據(jù)這類系統(tǒng)故障做了一些合理的假設(shè),提出了現(xiàn)在仍然適用的網(wǎng)絡(luò)協(xié)議。
但比起之前的系統(tǒng),云計(jì)算系統(tǒng)要復(fù)雜得多,發(fā)展也更迅速,過去的很多假設(shè)被打破,有時(shí)應(yīng)用了所有的現(xiàn)有方法和理論都無法解決這個(gè)僵局。
另一方面,過去的計(jì)算系統(tǒng)很容易理解,但現(xiàn)在的復(fù)雜性已經(jīng)超出了我們的理解。但很多新技術(shù)能帶來更有趣的改變,例如機(jī)器學(xué)習(xí)和深度學(xué)習(xí),我們可以將其應(yīng)用于處理系統(tǒng)的復(fù)雜性,這是一個(gè)非常有前景的方向。
主持人:讓我們聊聊云時(shí)代的故障。在不那么復(fù)雜的“前云時(shí)代”,您如何處理異常和故障,現(xiàn)在又在嘗試哪些新方法呢?
周禮棟:過去,我們研究的系統(tǒng)可靠性機(jī)制是基于過時(shí)的故障假設(shè)。但是,隨著某些故障假設(shè)不再成立,我們定義了一種新的故障類型,“灰色故障”,一個(gè)系統(tǒng)組件不再是“非黑即白”,從某種角度看,它的行為是正確的,但在另外一個(gè)角度卻不是。“灰色故障”是許多云計(jì)算系統(tǒng)宕機(jī)背后的主要原因。
對我們而言,云計(jì)算服務(wù)故障每時(shí)每刻都在發(fā)生,但是很難找出哪些故障更加重要。我們要了解故障,并進(jìn)一步了解整個(gè)系統(tǒng)的運(yùn)行情況。我們在試圖弄清什么時(shí)候、何種情況下,災(zāi)難性的故障會(huì)發(fā)生,進(jìn)而阻止它的發(fā)生。
CloudBrain是一個(gè)云計(jì)算自動(dòng)故障排除的研究,利用系統(tǒng)規(guī)模來幫助我們診斷問題,找出問題所在。它有三個(gè)組成部分:一是準(zhǔn)實(shí)時(shí)監(jiān)控和診斷系統(tǒng)目前的狀況,而不是在事后查看和分析系統(tǒng)日志;二是全局視圖,不僅是對系統(tǒng)進(jìn)行單次觀察,而是融合對系統(tǒng)的所有觀察,理解整個(gè)系統(tǒng)如何運(yùn)行,哪個(gè)部分存在問題;三是統(tǒng)計(jì)推斷:用統(tǒng)計(jì)方法真正推斷出存在問題的部分。這個(gè)項(xiàng)目把大規(guī)模數(shù)據(jù)處理的挑戰(zhàn),轉(zhuǎn)化成了解決系統(tǒng)復(fù)雜性的新手段。
主持人:這個(gè)灰色故障的研究進(jìn)展到了哪個(gè)階段?
周禮棟:我們離徹底解決問題還有距離,但是已經(jīng)可以解決一些特定的問題,如DeepView和CloudBrain兩個(gè)項(xiàng)目已經(jīng)整合到Azure來處理與網(wǎng)絡(luò)有關(guān)的問題。我們也在探索其它有趣而實(shí)用的想法,比如從思維方式上根本改變程序設(shè)計(jì)的范式。以前的防御性編程設(shè)計(jì)強(qiáng)調(diào)的是完善的異常處理,但在大型復(fù)雜的系統(tǒng)中僅僅處理異常是不夠的。因此,在我們最新的研究工作中,我們將異常處理的邏輯改為異常報(bào)告和匯總分析。實(shí)際上,我們也在構(gòu)建一個(gè)系統(tǒng),可以自動(dòng)將傳統(tǒng)的處理錯(cuò)誤的代碼轉(zhuǎn)變成以我們期待的方式進(jìn)行錯(cuò)誤報(bào)告的代碼,這樣開發(fā)者不需要重寫整個(gè)代碼庫。這為我們解決灰色故障提供了全新的思路和可能。
主持人:您是如何來到微軟研究院的?為我們分享一下您的職業(yè)發(fā)展。
周禮棟:在我博士畢業(yè)的時(shí)候,導(dǎo)師給了我一個(gè)非常簡單的建議,就是去那些能找到最好的同事的地方,去和那些可能有圖靈獎(jiǎng)水準(zhǔn)的同事一起工作,所以我最終選擇了微軟研究院,那時(shí),我們并沒有圖靈獎(jiǎng)得主,十年后我們有兩個(gè)!我覺得同事很重要,特別是在我職業(yè)生涯的早期。從某種意義上我學(xué)會(huì)了如何做研究,不是發(fā)多少論文,而是推動(dòng)研究的內(nèi)在激情。我職業(yè)生涯的第一階段更多是個(gè)人發(fā)展,第二階段是來到微軟亞洲研究院,成為一個(gè)研究組的負(fù)責(zé)人,這不僅關(guān)乎個(gè)人發(fā)展,也關(guān)乎著如何組建團(tuán)隊(duì),如何幫助他人成功,為他人的成功產(chǎn)生影響也可以帶來極大的成就感。也是在那段時(shí)間里,我意識(shí)到自己的職責(zé)不僅僅是建設(shè)亞太地區(qū)最好的系統(tǒng)研究團(tuán)隊(duì),還要為社區(qū)做出貢獻(xiàn)。所以我們啟動(dòng)研討會(huì),并將會(huì)議帶入亞太地區(qū),還有人才培養(yǎng)和許多其它事情。在我看來,隨著我們的職業(yè)發(fā)展,這些變得越來越重要。
這就是我職業(yè)生涯的三個(gè)階段:始于個(gè)人發(fā)展、個(gè)人學(xué)習(xí),愛你所做的,做你所愛的;然后開始不斷為他人的成功做出貢獻(xiàn),提高影響他人的能力,并積極地影響他人;最后是思考自己能為整個(gè)社區(qū)、整個(gè)社會(huì)做些什么。我很幸運(yùn)在這個(gè)過程中能結(jié)識(shí)很多優(yōu)秀的領(lǐng)導(dǎo)和同事,并從他們身上學(xué)習(xí)到很多。
主持人:我想請您對剛剛涉足系統(tǒng)和網(wǎng)絡(luò)研究的研究人員提供一些建議,您認(rèn)為即將出現(xiàn)哪些尚未解決的重大問題?
周禮棟:在這個(gè)時(shí)代從事計(jì)算機(jī)系統(tǒng)和網(wǎng)絡(luò)的青年研究員是很幸運(yùn)的。Butler Lampson曾說過他自己非常幸運(yùn),因?yàn)樗?jīng)歷了70年代末、80年代初的計(jì)算范式變革。而現(xiàn)在,我們也正處在一個(gè)變革時(shí)期。上一次的計(jì)算范式變革中,施樂帕克研究中心的研究人員定義了以后30年的計(jì)算機(jī)。即使是現(xiàn)在,我們?nèi)匀簧钤谒麄兌x的世界里:電腦、手機(jī)、鼠標(biāo)、激光打印機(jī)、用戶界面。上一次的計(jì)算范式變革的原因是計(jì)算機(jī)變得越來越強(qiáng)大,能把一臺(tái)巨型計(jì)算機(jī)的計(jì)算能力裝進(jìn)一臺(tái)個(gè)人電腦里。
現(xiàn)在的計(jì)算能力達(dá)到了另一個(gè)里程碑,計(jì)算能力將隱形于我們周圍,計(jì)算支持的智能將無處不在。計(jì)算機(jī)的虛擬世界和我們的物理世界之間的界限將會(huì)消失,這將帶來新一次的范式變革,我們的首要任務(wù)是要探索在接下來的十年二十年里,計(jì)算到底意味著什么。我們必須從一個(gè)不同的角度來看待未來世界,而不僅僅是關(guān)注系統(tǒng)和網(wǎng)絡(luò)協(xié)議的漸進(jìn)式改進(jìn)。未來,我們不會(huì)是在電腦前才能進(jìn)行計(jì)算,而是可以利用身邊無所不在的計(jì)算能力。這一切都亟待我們年輕的研究人員通過研究和創(chuàng)新來實(shí)現(xiàn)。
-
微軟
+關(guān)注
關(guān)注
4文章
6619瀏覽量
104228 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7586瀏覽量
89010 -
人工智能
+關(guān)注
關(guān)注
1792文章
47497瀏覽量
239214
原文標(biāo)題:周禮棟:現(xiàn)在是計(jì)算機(jī)系統(tǒng)和網(wǎng)絡(luò)研究“最好的時(shí)代”
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論