近期在微軟研究院舉辦的機器學(xué)習(xí)前沿論壇中,微軟劍橋研究院院長 Christopher Bishop 與微軟全球資深副總裁 Peter Lee 進行了一場精彩的爐邊對談,分享了各自對機器學(xué)習(xí)研究和前沿問題的思考與展望。本文為大家節(jié)選、整理了此次對話。
Christopher Bishop(左)與 Peter Lee(右)線上對話Christopher Bishop:很高興能與 Peter Lee 交談。首先祝賀你成為微軟研究院的負責(zé)人。你可以談一下為什么微軟選擇把科研和技術(shù)孵化放在同一個屋檐下?
Peter Lee: 謝謝 Chris。我認為在某種程度上,這個問題是非常核心的。在過去的幾年里,我們的研究、由研究驅(qū)動的想法、甚至是研究人員自身,都已經(jīng)越來越多地參與到了微軟創(chuàng)造新技術(shù)、新工程、新業(yè)務(wù)線和新產(chǎn)品的過程中了。我認為這是對行業(yè)發(fā)展方式的直接回應(yīng)。所以當(dāng)你看到諸如硅在云計算中的應(yīng)用、保密計算、或者大規(guī)模 NLP 預(yù)訓(xùn)練模型的應(yīng)用強度時,你會意識到所有的這些事情從根本上都需要研究驅(qū)動,而且需要研究者的思維模式和世界觀。所以和微軟的科研在一起,可以讓我們更能捕捉到新奇的想法,讓微軟的技術(shù)孵化有更多的可能性。
從某種角度來說,特別是從微軟研究院來說,我認為這個方式是振奮人心的。我們有很多同事,比如微軟研究院新體驗與新技術(shù)部杰出工程師 Doug Burger 博士等,他們在創(chuàng)造非常重要的新的機遇;或者有些同事,他們一開始是研究人員,后來領(lǐng)導(dǎo)了工程團隊,現(xiàn)在又回到了研究領(lǐng)域,這種研究領(lǐng)域和公司商業(yè)之間的相互影響,正變得越來越重要。所以我們試圖創(chuàng)建一個組織來最大化其中的優(yōu)勢是合乎邏輯的。
當(dāng)然還有另外一個因素,我希望這個機構(gòu)可以幫助整合微軟的所有研究,從而更好地建立微軟研究院的影響力和領(lǐng)導(dǎo)力。
Christopher Bishop:我同意你的想法,我認為這是一個非常令人興奮的發(fā)展。事實上,當(dāng)你開始擔(dān)任這個職位的時候,你還有另外一個不同尋常的開始,就是專注到公司對新冠疫情的應(yīng)對上,思考科技如何幫助世界對抗這次疫情。能分享一些你的經(jīng)歷和項目嗎?
Peter Lee:當(dāng)然可以。我記得那是一個周四,包括 Satya 在內(nèi)的幾位公司高管與我探討了,接下來要集中精力協(xié)調(diào)微軟可以如何通過科技幫助應(yīng)對新冠疫情。這很有難度,因為如何讓你的想法被聽到、被看到,如何招募以及調(diào)動資源,都不是容易的事。我們解決這個問題的方式之一,就是通過我們每年都會舉辦的駭客松(Hackathon)活動的一個平臺,號召大家加入并提出自己的想法。如果你有一個想法,那么就可以把它寫下來,讓大家知道,并招募想要參與這個項目的人員。之后我們建立了一個虛擬團隊,其中大部分的人來自微軟研究院,由這些科研人員對所有項目進行篩選,整個活動過程非常棒?;顒咏Y(jié)束時,有1100名微軟員工參與了此次活動,共成立了186個項目,有幾十個項目被挑選了出來,其中一些產(chǎn)生了巨大的影響。
有一個項目是直接應(yīng)對醫(yī)院和診所所面臨的危機的。該項目構(gòu)建了一個建立在 Bot Framework 上的 AI 聊天機器人技術(shù) Microsoft Health Bot。要知道疫情期間,人們會涌向熱點地區(qū)的急診科咨詢、就診,或者打電話給醫(yī)院的呼叫中心,這使得醫(yī)護人員不堪重負。Microsoft Health Bot 可以智能地提供建議,進行實時的健康咨詢。我們與疾病控制中心(CDC)合作,在 CDC 官方網(wǎng)站上面向全美用戶推出了這一機器人服務(wù)。目前為止,全球已有2,100多家醫(yī)院和診所部署了這種醫(yī)療機器人服務(wù)。迄今為止,已有3,900萬人使用機器人對自己的癥狀進行評估。使用了該醫(yī)療機器人服務(wù)的多數(shù)醫(yī)療機構(gòu)表示,其急診部、呼叫中心和遠程醫(yī)療服務(wù)有關(guān)新冠肺炎的就診或問詢數(shù)量降低了至少30%。
另一個項目則與診斷有關(guān)。我們與生物技術(shù)公司 Adaptive Biotechnologies 合作,利用機器學(xué)習(xí)技術(shù)參與了 T 細胞對新型冠狀病毒的深入分析,并將所有數(shù)據(jù)公開發(fā)布在 Immune Code 數(shù)據(jù)庫中,以期促進基于 T 細胞的新診斷方法、新藥物療法和新疫苗的研發(fā)工作。除此之外,我們還有許多與公共健康相關(guān)的項目,比如,分析下一個熱點地區(qū)在哪里,各個國家的弱勢群體在哪里,重癥監(jiān)護病房、呼吸機、個人防護裝備的供應(yīng)配備的如何等等。所以我認為我們都應(yīng)該為有很多這樣的項目而感到自豪。微軟的反應(yīng)確實產(chǎn)生了影響,并且還在不斷地持續(xù)下去。在我們整個駭客松活動中,有超過三分之一的參與者和超過三分之一的項目來自微軟的研究部門。我認為這很神奇,在應(yīng)對新冠疫情方面,微軟的科研確實在一個前沿和中心地帶。
Christopher Bishop:你能和我們分享一下你對微軟在醫(yī)療健康領(lǐng)域的戰(zhàn)略嗎?或者說為什么微軟要涉足醫(yī)療領(lǐng)域?
Peter Lee:微軟在醫(yī)療健康領(lǐng)域不僅涉及到科研,還有商業(yè)的業(yè)務(wù),Azure 云計算平臺,以及相關(guān)的實踐和設(shè)備。
我對這個問題的思考可以分為三個階段:相關(guān)性,價值和轉(zhuǎn)變。它們是分階段出現(xiàn)的。當(dāng) Satya 希望我們接手醫(yī)療健康方面的工作時,第一項就是相關(guān)性的問題。我所說的相關(guān)性是指醫(yī)療健康領(lǐng)域的利益相關(guān)者是如何理解微軟可以提供的東西的,我們要如何與醫(yī)療健康行業(yè)、醫(yī)療服務(wù)提供商、醫(yī)院、診所、醫(yī)療系統(tǒng)、保險公司、供應(yīng)商、生物制藥行業(yè)、醫(yī)療技術(shù)公司、創(chuàng)業(yè)公司等等聯(lián)系起來。相關(guān)性就是指我們必須弄清楚如何獲得他們,因為這樣可以讓我們更加深入的進入到合作與伙伴關(guān)系,開始學(xué)習(xí)更多。
在微軟內(nèi)部也存在相關(guān)性,因為醫(yī)療健康是每個人都會直接接觸到的領(lǐng)域之一,每個人都有自己的觀點。這種經(jīng)歷往往受到人們與醫(yī)院醫(yī)生和護士的個人接觸的影響,但很大程度上我們會忽略背后更大的醫(yī)療健康體系。所以我們必須努力贏得內(nèi)部的信譽和相關(guān)性。要做到這一點,就意味著我們也要在微軟內(nèi)部找到合適的合作伙伴。
第二個階段是價值,這主要和數(shù)據(jù)、人工智能相關(guān)。現(xiàn)在,圍繞著所謂的互操作性問題,醫(yī)療數(shù)據(jù)正在發(fā)生巨大的變化,人們試圖讓醫(yī)療數(shù)據(jù)以標(biāo)準(zhǔn)化的格式去到所需要的地方,并使其更容易受到機器學(xué)習(xí)和數(shù)據(jù)分析的影響。因此,我們做了大量的工作來發(fā)展 Azure, Dynamics 和 Microsoft 365,讓它們使用健康數(shù)據(jù)的語言。所以你會聽到 FHIR 等,這些是健康數(shù)據(jù)的新標(biāo)準(zhǔn)。人工智能也是非?;A(chǔ)和重要的。大量的健康數(shù)據(jù)是非結(jié)構(gòu)化的文本,所以 NLP 和機器閱讀就變得非常重要,計算機視覺也可以幫助真正理解醫(yī)學(xué)影像、理解分子、理解人類基因組、了解免疫系統(tǒng)和免疫體等。所有這些問題從根本上來說,都是機器學(xué)習(xí)和人工智能問題。這是我們一直關(guān)注的領(lǐng)域。當(dāng)然,為每一個東西建立技術(shù)堆棧然后再把它們變成產(chǎn)品是一個很大的挑戰(zhàn)。
舉一個例子,全球醫(yī)療健康市場估計大約是7.5萬億美元,這是什么意思呢?比如,與我們合作密切的公司 Optum 是處理醫(yī)療索賠數(shù)據(jù)的,他們會將這些數(shù)據(jù)從醫(yī)療健康提供者傳遞給支付者,然后將支付者的匯款在返回給提供者。所以數(shù)據(jù)流往返在美國的醫(yī)療系統(tǒng)中是一個非常重要的功能。在這種雙向的過程中,大量的數(shù)據(jù)分析將有助于相關(guān)業(yè)務(wù)的發(fā)展。Optum 是美國醫(yī)療系統(tǒng)中第二大提供這種服務(wù)的公司,所以這樣的利基市場支撐了 Optum,而它擁有和微軟一樣的員工數(shù)量和年收入。因此,如果你考慮一下目前正在發(fā)生的醫(yī)療健康向云計算進行巨大轉(zhuǎn)變的可能性,那么我們云計算中的醫(yī)療健康業(yè)務(wù)規(guī)模未來超過微軟目前所有業(yè)務(wù)的總和不是沒有理由的。當(dāng)然,我們合作中最有趣的一個是和 Novartis 公司的合作,我們都很為這件事激動。
Christopher Bishop:是的,這是一個令人興奮的機會。我想,對于微軟研究院來說,這也是一種非常不同的操作模式。我有幸在微軟研究院工作已經(jīng)超過23年了,從歷史上看,我們會做很多基礎(chǔ)研究,有時我們會把技術(shù)轉(zhuǎn)化為產(chǎn)品,產(chǎn)品會被賣出去,客戶會使用它們,然后對現(xiàn)實世界產(chǎn)生影響。這是一個很長的過程,但通過這種方式我們與現(xiàn)實世界連接到了一起。
在與 Novartis 公司的合作中,我們直接與客戶的接觸是令人興奮的,這也和在新的數(shù)據(jù)驅(qū)動的世界里的機器學(xué)習(xí)技術(shù)有關(guān),因為我們不再考慮放之四海而皆準(zhǔn)的技術(shù)——那種放在磁盤里,壓縮、打包再發(fā)送到世界各地的技術(shù),現(xiàn)在更多的是定制,針對特定的領(lǐng)域、特定的合作者、特定的應(yīng)用程序來進行制作。因此,我們與 Novartis 緊密合作,于去年簽署了合作協(xié)議,并在今年1月份正式啟動。在這個合作中, Novartis 的科學(xué)家和微軟研究院的科學(xué)家之間是一個對等的伙伴關(guān)系,Novartis 把制藥方面的專業(yè)知識和積累的數(shù)據(jù)結(jié)合起來,我們則發(fā)揮在機器學(xué)習(xí)方面的專長,利用微軟云的存儲能力和非常強大的計算能力。我們會共同應(yīng)對一些非常艱巨的挑戰(zhàn),而這些挑戰(zhàn)是任何一個組織都無法獨自完成的。
我們所做的一件事就是思考如何將微軟研究院的技術(shù)優(yōu)勢,應(yīng)用到 Novartis 面臨的一些挑戰(zhàn)中。例如,我們幾年前建立了一個關(guān)注醫(yī)學(xué)成像的項目,特別著重在三維醫(yī)學(xué)圖像的分割,比如 MRI(磁共振成像)。它有很多應(yīng)用,其中一個很重要的應(yīng)用就是所謂的放射治療計劃。如果有人有一個惡性腫瘤要接受放射治療,那么就會有一些軟件優(yōu)化光束的三維形狀,以便于最大限度地損害腫瘤并減少對周圍組織的傷害,特別是對重要器官的損害。而為了讓這個軟件工作,它需要一個腫瘤的三維圖像,這就是 MRI 的用武之地。在那時候,放射腫瘤學(xué)家會使用 3D 掃描,然后用電腦屏幕上的手寫筆,一片片地掃描這片區(qū)域,劃出邊界。對于一個簡單的案子來說,這可能就需要20多分鐘。如果轉(zhuǎn)移了,有多個腫瘤,那么則可能需要幾個小時。這是艱苦乏味的,而且必須要準(zhǔn)確。
這就是我們的項目能夠真正幫助放射腫瘤學(xué)家的工作流程的地方。我們的技術(shù)可以通過自動化,在幾秒鐘的時間內(nèi),產(chǎn)生分割的候選區(qū)域,然后專家可以去修改他們想要改變的任何小細節(jié),這大大加快了這一工作進程。目前,這項技術(shù)已經(jīng)被廣泛應(yīng)用于研究環(huán)境中,在劍橋當(dāng)?shù)氐?Addenbrooke 醫(yī)院(歐洲最大的教學(xué)和研究醫(yī)院之一)里,這項技術(shù)在臨床實踐中正在進行有效地探索。
Peter Lee:因為這個醫(yī)學(xué)成像應(yīng)用不可能僅僅采用現(xiàn)有的機器學(xué)習(xí)或計算機視覺系統(tǒng),甚至是現(xiàn)成的算法。為了使該應(yīng)用程序良好地工作,我們必須專門開發(fā)一些新的東西。而且,這確實需要一個世界級的研究機構(gòu)來做這樣的事情。
Christopher Bishop:是的。我認為正是深度研究和現(xiàn)實應(yīng)用的交集讓很多研究人員興奮不已。我們有機會直接影響現(xiàn)實世界,在醫(yī)療健康領(lǐng)域拯救生命,當(dāng)然我們首先要解決一些非常困難的研究問題才能實現(xiàn)。所以,至少對我來說,深度研究和現(xiàn)實世界影響的結(jié)合是非常令人興奮的。
我們與 Novartis 合作的另一個很好的例子是關(guān)于他們的核心業(yè)務(wù)的,也就是創(chuàng)造新藥、新療法,這實際上意味著發(fā)現(xiàn)新的分子。有趣的是,數(shù)據(jù)的性質(zhì)與許多其他應(yīng)用程序相當(dāng)不同。比如成像,圖像往往是固定的大小,或者你可以重新采樣到固定的大小。神經(jīng)網(wǎng)絡(luò)總是以相同的格式,相同的維度來獲取數(shù)據(jù)。但是分子很有趣,因為很明顯它們在大小,形狀和結(jié)構(gòu)上都是不同的,所以你不能用一個簡單的分子展示,然后把這個當(dāng)作神經(jīng)網(wǎng)絡(luò)的輸入信息,因為它的結(jié)構(gòu)是可變的。在微軟研究院,一些圖形神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)處于領(lǐng)先地位,這些技術(shù)解決了如何利用機器學(xué)習(xí),并將其應(yīng)用到數(shù)據(jù)上的問題,這些數(shù)據(jù)具有可變的大小和結(jié)構(gòu),比如分子。這是一個很好的例子,它把微軟研究院的深入研究,與 Novartis 公司在理解結(jié)構(gòu)和分子之間的關(guān)系以及它們的生物活性上的專業(yè)知識,結(jié)合在了一起。在這個項目中,很難想象任何一個小組能夠單獨完成這么好的工作,但是我們合作的時候,就可以做一些非常獨特和非常有趣的事情。
Peter Lee:我認為一個有趣的科學(xué)挑戰(zhàn)是——你不能指望解決一個問題,僅僅是基于數(shù)據(jù)或僅僅通過我們對化學(xué)過程的理解,這真的需要兩者的結(jié)合。
Christopher Bishop:確實。我認為關(guān)于醫(yī)療健康最有趣的事情之一,是對現(xiàn)實世界產(chǎn)生影響,而且有了造福社會的機會。我也認為,醫(yī)療健康確實把焦點放在了很多深層次的挑戰(zhàn),機器學(xué)習(xí)的研究挑戰(zhàn)上。
我們已經(jīng)談了很多關(guān)于新冠疫情的話題了,當(dāng)然,這場全球疫情的另一個重大影響是遠程工作和在家辦公的驚人轉(zhuǎn)變,以及遠程協(xié)作技術(shù)的使用,比如微軟 Teams 的使用。
Johannes Gehrke 是微軟的技術(shù)院士,他最近加入了我們,成為了我們在雷德蒙的研究負責(zé)人。在此之前,Johannes 負責(zé)微軟 Office 的大型工程工作,特別是人工智能和微軟 Teams 的可擴展性方面。我認為 Johannes 是一個理想的人選,來和我們分享他對生產(chǎn)力變化的看法以及支持這種變化的技術(shù),更具體地說是,機器學(xué)習(xí)如何進一步幫助我們的現(xiàn)實生活。
Christopher Bishop(右)與 Johannes Gehrke(左)線上交流
Christopher Bishop:我們很高興你加入了微軟研究院。你認為機器學(xué)習(xí)在生產(chǎn)力、工具和技術(shù)方面能發(fā)揮什么作用呢?
Johannes Gehrke:我想首先看看音頻和視頻堆棧,了解哪里存在舊的控制理論,我們是否可以用機器學(xué)習(xí)來代替。我們即將推出的噪聲抑制,基本上就是用機器學(xué)習(xí)代替了一個舊的堆棧選項噪聲抑制器。進步真的很驚人。這也是機器學(xué)習(xí)研究發(fā)揮重要作用的一個很好的例子,但是發(fā)表的論文和實際應(yīng)用之間還是有很大差距的,所以我們必須做更多的工作來讓模型表現(xiàn)得更出色,同時也要適應(yīng)我們實際看到的各種各樣的噪音。所以在我看來,基本上整個控制平面,甚至音頻/視頻堆棧的數(shù)據(jù)平面都可以用機器學(xué)習(xí)代替。
其次,可能會有非常有趣的面向用戶的特性。試想,我們有一個功能,我可以舉起我的手,但當(dāng)結(jié)束講話時,人們忘記放下來了。所以我認為有很多面向用戶的功能,我們可以根據(jù)微妙的信號減輕互動的程度,在現(xiàn)實世界中交流的時候,我們通常能看到這種信號,但是在虛擬的環(huán)境中,我們是做不到的。
Christopher Bishop:我覺得這很有趣,看看機器學(xué)習(xí)是如何變得無處不在的。就像你說的,在這些更傳統(tǒng)的問題上現(xiàn)在已經(jīng)被機器學(xué)習(xí)所解決了,而且它們在很多時候都更加有效,因為它們被調(diào)整到了特定的數(shù)據(jù)或特定的環(huán)境中使用,而不是通用的。我認為這是當(dāng)今機器學(xué)習(xí)的一大前沿。
Peter Lee:Chris,讓我們回到你身上,在過去的30多年里,你是機器學(xué)習(xí)領(lǐng)域的先驅(qū)之一。在你從事這一行的30多年里,你認為這個領(lǐng)域是如何變化和發(fā)展的?
Christopher Bishop:我認為這30多年來最大的轉(zhuǎn)變是這個領(lǐng)域的重點。老實說,在這30年的前20年里,機器學(xué)習(xí)并不是真的那么很有效,雖然有很多令人興奮的事情,每個人都知道機器學(xué)習(xí)是前途無限的,這很吸引人。但現(xiàn)實是,那時許多機器學(xué)習(xí)系統(tǒng)的性能還不足以在現(xiàn)實世界中使用。可能有一些間隙中的應(yīng)用程序,但大多數(shù)都沒有真正實現(xiàn)它們的承諾,也不令人興奮。當(dāng)然,在過去的十年里,這種情況發(fā)生了改變,特別是隨著深度神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的發(fā)展,以及大規(guī)模數(shù)據(jù)集和大量計算的擴展。
我們所處的世界中,機器學(xué)習(xí)的應(yīng)用有上千種。今天大多數(shù)人都已經(jīng)使用了幾個,甚至可能都不知道。機器學(xué)習(xí)正變得無處不在,這意味著,盡管我們?nèi)猿掷m(xù)強烈關(guān)注機器學(xué)習(xí)在準(zhǔn)確性方面的表現(xiàn),但我們總是想讓它更準(zhǔn)確。因為當(dāng)我們在現(xiàn)實世界中使用機器學(xué)習(xí)時,它帶來了一系列的新挑戰(zhàn)。我把這看做是圍繞著機器學(xué)習(xí)工作核心問題的隱蔽性問題。我認為由于數(shù)據(jù)集的偏見,預(yù)測結(jié)果中就會有隱藏的偏見,比如公平問題,可解釋性問題,因果關(guān)系的問題,如果我們真的想對結(jié)果的偏見進行干預(yù)的話,那么還有很多工作要做。20年前是沒有人會攻擊一篇論文的,但是現(xiàn)在一旦你把東西放到網(wǎng)上,有數(shù)億人在使用互聯(lián)網(wǎng),那么就會有敵對的人,出于各種不同的原因會有人以各種各樣的方式攻擊它。我們不得不擔(dān)心這些問題。
在某種意義上,我不認為我們會得到所有的答案,但通過類似此次機器學(xué)習(xí)前沿論壇這類交流活動,我們肯定會觸及許多關(guān)鍵問題,并聽到一些非常有趣的前沿觀點。關(guān)于我們現(xiàn)在看到的趨勢,我認為是非常令人興奮的。其中一個,我認為是相當(dāng)明顯的,就是縮放。今天機器學(xué)習(xí)工作做得這么好的一個原因是因為我們已經(jīng)學(xué)會了縮放,縮放數(shù)據(jù)集的大小,縮放學(xué)習(xí)算法的大小,縮放參數(shù)數(shù)量方面的模型。當(dāng)然,為了能夠在大數(shù)據(jù)集上訓(xùn)練大模型,我們必須擴大計算機的規(guī)模,而這一趨勢看來還將繼續(xù)下去。例如,當(dāng)我們思考自然語言模型的發(fā)展時,我們并沒有意識到我們已經(jīng)達到了某種漸近線。所有的跡象都表明,更大的數(shù)據(jù)集、更大的模型,更多的計算,將讓我們看到性能上越來越多的改進,越來越多的新屬性。這真的很了不起。對該領(lǐng)域的一個真正的挑戰(zhàn)是如何保持這個趨勢,我們?nèi)绾卫^續(xù)看到這些機器學(xué)習(xí)性能的大規(guī)模突破。我認為這是一個非常重要的趨勢,而且將繼續(xù)下去。
另一個與機器學(xué)習(xí)相關(guān)的是數(shù)據(jù)。數(shù)據(jù)是機器學(xué)習(xí)的核心。當(dāng)我們試圖讓機器學(xué)習(xí)擴展到越來越多的領(lǐng)域,比如我們討論了很多在醫(yī)療健康方面的例子,以及其他領(lǐng)域的,收集數(shù)據(jù)、收集可用的數(shù)據(jù),會給社會帶來巨大的潛在好處。但是很多數(shù)據(jù)非常敏感,非常個人化,比如醫(yī)療數(shù)據(jù),就是一個很好的例子。所以從隱私和安全的角度來看數(shù)據(jù),我們也需要多多注意這方面的發(fā)展。我認為這是一個令人興奮和重要的前沿領(lǐng)域。在為云機器學(xué)習(xí)提供保密性方面,微軟在很多方面都處于領(lǐng)先地位。我們是第一個部署數(shù)據(jù)加密技術(shù)的云提供商,不僅在數(shù)據(jù)通過互聯(lián)網(wǎng)傳輸和存儲的時候,而且在數(shù)據(jù)進入處理器的時候都是加密的。所以解密只發(fā)生在處理器內(nèi)部,這意味著即使數(shù)據(jù)中心里有物理訪問芯片的人,他也只能看到加密的數(shù)據(jù)進出芯片,無法獲得數(shù)據(jù)。這是非常高的安全性和私密性。
我們知道機器學(xué)習(xí)不僅受益于更多的數(shù)據(jù),而且受益于不同的數(shù)據(jù)。有時,你可以將多個數(shù)據(jù)集放在一起,你得到的不僅僅是部分之和。但問題在于,不同的組織,不同的人,如何把他們的數(shù)據(jù)放在一起,匯集這些數(shù)據(jù)來進行機器學(xué)習(xí),而不是簡單地讓其他人或其他組織直接訪問這些數(shù)據(jù)。機密的機器學(xué)習(xí)提供了這種可能性,數(shù)據(jù)可以整合,但只能在芯片上解密。它在芯片中被用來訓(xùn)練一個機器學(xué)習(xí)模型,然后這個機器學(xué)習(xí)模型或者它的預(yù)測結(jié)果被提供給數(shù)據(jù)提供者。由于它是在匯集的數(shù)據(jù)上訓(xùn)練的,所以它更有效,更有能力,但在任何階段,任何實體都不能訪問其他實體的數(shù)據(jù)。事實上,微軟在任何階段也都無法訪問這些數(shù)據(jù)。所以我認為隱私與機器學(xué)習(xí)的交叉將是未來幾年一個非常重要的領(lǐng)域。
Peter Lee:這很有趣。正如你之前所說,確實改變了很多。這也讓我們回到了我們談話的開始——為什么要把科研和技術(shù)孵化結(jié)合起來。
Christopher Bishop:是的,我認為把科研和技術(shù)孵化結(jié)合在一起是非常自然的。由于機器學(xué)習(xí)的普遍性,這意味著機器學(xué)習(xí)不僅會出現(xiàn)在許多不同的地方,而且它正在以我們從未見過的新方式影響著社會。
Q&A
Q:由于醫(yī)療健康數(shù)據(jù)是敏感且隱私的,因此在維護隱私與解釋方面如何實現(xiàn)兩者間的平衡?是否有關(guān)于安全的多方計算研究來維護數(shù)據(jù)隱私?
Christopher Bishop:我認為在讓數(shù)據(jù)增值和保護數(shù)據(jù)隱私之間存在著一種博弈。對于這個問題并沒有一個放之四海而皆準(zhǔn)的答案,但我們在微軟研究院做的一些研究確實是旨在找到這個問題的核心并解決這個問題。
當(dāng)數(shù)據(jù)處于靜止?fàn)顟B(tài)或從一個地方傳輸?shù)搅硪粋€地方時,保護數(shù)據(jù)是非常容易的,因為它是加密的,但要從數(shù)據(jù)中獲得價值,就需要對它進行解密。所以這種安全計算的思想是只在芯片上解密數(shù)據(jù),而真正的目標(biāo)則是:即使有人在數(shù)據(jù)中心里,即使他們有所有的密碼,即使他們有芯片,可以測量輸入輸出的信號,但他們?nèi)匀粺o法看到數(shù)據(jù),他們只會看到隨機噪聲和加密的數(shù)據(jù)。這就是我們的目標(biāo)。
當(dāng)你想把來自不同來源、不同人群、不同提供者的數(shù)據(jù)進行聚合并建立相關(guān)模型時,機器學(xué)習(xí)會特別強大,因為這些模型通常比僅根據(jù)單一數(shù)據(jù)源訓(xùn)練的模型更好,但仍有需要研究的問題。微軟研究院開發(fā)的技術(shù)現(xiàn)在已經(jīng)部署在了 Azure 上。微軟是世界上第一家將這項技術(shù)應(yīng)用于云計算的公司。針對那些仍懸而未決的問題,我們在這個領(lǐng)域還有很多研究要做。
還有一個同態(tài)加密的問題,也很有趣,我把它看作是一種互補的技術(shù)。它能提供非常非常高的安全性和私密性,但它可能缺乏機密計算所提供的通用性和伸縮性。所以我認為現(xiàn)在,機密計算看起來是一個非常實用的技術(shù),而且已經(jīng)應(yīng)用在真實的場景中,但在這個領(lǐng)域還有很多工作要做。
Peter Lee:關(guān)于研究,我還想到了另一個方面,因為即使我們認為一個普遍的同態(tài)加密部署在現(xiàn)在的產(chǎn)品上是沒有必要的,但它也會極大地影響我們的思考。它讓我們對整個問題以及如何處理這個問題有了不同的思考,所以它給了我們更多的空間去創(chuàng)造。
Q:Peter,能分享一下微軟在人工智能公平性上做的努力嗎?
Peter Lee:當(dāng)然,有很多方面。之前聊天的時候,在我的閱讀清單上我貼出了一篇論文,是對偏見的分析,以及 NLP 訓(xùn)練的模型。當(dāng)然,退一步說,我們所有的技術(shù)人員都在尋找工具。在工具方面,我們正在非常密集的研究和開發(fā)像 SHAP 和 LIME 這樣的框架,這讓我們有能力創(chuàng)建模型,分析不同種類的偏見。如果你想問一個問題,假設(shè)這個模型對年齡有偏見,亦或?qū)夏耆?、種族或者性別有歧視,SHAP、LIME 以及類似類型的框架讓你能夠向模型詢問這些問題,進行分析,并了解這些問題是不是真的。這實際上已經(jīng)開始產(chǎn)生影響了。這是一方面,只是一般的政策。但隨后,我們應(yīng)該如何以負責(zé)任的方式來行動、思考、進行研究和部署技術(shù),在某種程度上,這確實讓我們看到了隨著技術(shù)發(fā)展,技術(shù)用最道德的方式產(chǎn)生最積極的社會影響的可能性。所以我們嘗試專注于這些具體的工具上,研究人員和開發(fā)者可以使用這些工具來思考這些技術(shù)對我們政策的影響。
編輯:hfy
-
微軟
+關(guān)注
關(guān)注
4文章
6602瀏覽量
104150 -
人工智能
+關(guān)注
關(guān)注
1792文章
47372瀏覽量
238857 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132744
發(fā)布評論請先 登錄
相關(guān)推薦
評論