醫(yī)療行業(yè)中的深度學(xué)習(xí)技術(shù),主要從計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、強(qiáng)化學(xué)習(xí)和通用方法這些方面入手。
本文從這些計(jì)算技術(shù)對(duì)關(guān)鍵醫(yī)療領(lǐng)域的影響,并探索了如何構(gòu)建端到端系統(tǒng)。計(jì)算機(jī)視覺(jué)方面主要關(guān)注醫(yī)療成像,自然語(yǔ)言處理方面主要涉及電子健康檔案數(shù)據(jù),強(qiáng)化學(xué)習(xí)方面主要討論機(jī)器人輔助手術(shù),通用深度學(xué)習(xí)方法主要涉及基因組學(xué)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子領(lǐng)域,由于算力和數(shù)據(jù)的增長(zhǎng),深度學(xué)習(xí)在過(guò)去 6 年中得到了巨大發(fā)展。該領(lǐng)域見(jiàn)證了機(jī)器理解和控制數(shù)據(jù)能力的顯著進(jìn)展,包括圖像、語(yǔ)言和語(yǔ)音。醫(yī)療行業(yè)從深度學(xué)習(xí)中受益良多,因?yàn)樵撔袠I(yè)生成海量數(shù)據(jù)(光美國(guó)就有 150 艾字節(jié)(10^18 字節(jié))的數(shù)據(jù),每年增長(zhǎng) 48%) ,醫(yī)療設(shè)備和數(shù)據(jù)記錄系統(tǒng)也在不斷增多。
機(jī)器學(xué)習(xí)與其它計(jì)算機(jī)編程類(lèi)型不同,它使用從大量樣本中自動(dòng)提取的統(tǒng)計(jì)、數(shù)據(jù)驅(qū)動(dòng)規(guī)則將算法的輸入轉(zhuǎn)換成輸出(無(wú)需人類(lèi)過(guò)多參與規(guī)則制定)。之前,構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)需要利用領(lǐng)域?qū)I(yè)知識(shí)和人類(lèi)工程來(lái)設(shè)計(jì)特征提取器,將原始數(shù)據(jù)轉(zhuǎn)換成學(xué)習(xí)算法能夠從中檢測(cè)出模式的合適表征。而深度學(xué)習(xí)作為表征學(xué)習(xí)的一種形式,輸入原始數(shù)據(jù)后可以自行習(xí)得模式識(shí)別所需表征,它們由多層表征組成。這些層通常按順序排列,并包含大量粗糙的非線(xiàn)性運(yùn)算,從而使一個(gè)層的表征 (最開(kāi)始是原始數(shù)據(jù)輸入)輸入到下一個(gè)層,最終轉(zhuǎn)換成較抽象的表征。隨著數(shù)據(jù)在系統(tǒng)各層中傳播,輸入空間不斷變形,直到數(shù)據(jù)點(diǎn)可識(shí)別為止(見(jiàn)圖 1a)。用這種方式可以學(xué)得高度復(fù)雜的函數(shù)。
圖 1:深度學(xué)習(xí)。a. 一個(gè)簡(jiǎn)單的多層深度神經(jīng)網(wǎng)絡(luò),輸入為兩個(gè)類(lèi)別的數(shù)據(jù)(分別用不同顏色來(lái)標(biāo)注),數(shù)據(jù)在各層中傳播時(shí)網(wǎng)絡(luò)不斷使其變形,從而使數(shù)據(jù)線(xiàn)性可分。最終輸出層作為分類(lèi)器,輸出的是某個(gè)類(lèi)別的概率。該示例介紹了大型網(wǎng)絡(luò)使用的基本概念。b. 接受多種數(shù)據(jù)類(lèi)型輸入的大型網(wǎng)絡(luò)示例,數(shù)據(jù)類(lèi)型包括圖像、時(shí)序數(shù)據(jù)等,網(wǎng)絡(luò)處理每種數(shù)據(jù)類(lèi)型時(shí)在其低級(jí)塔(tower)中學(xué)習(xí)有用的特征。然后融合每個(gè)塔中的數(shù)據(jù),輸入高層,使深度神經(jīng)網(wǎng)絡(luò)對(duì)不同數(shù)據(jù)類(lèi)型執(zhí)行推斷,這種能力在醫(yī)療行業(yè)中的重要性與日俱增。
深度學(xué)習(xí)模型可擴(kuò)展至大型數(shù)據(jù)集(部分原因在于它們可在專(zhuān)用計(jì)算硬件上運(yùn)行),并繼續(xù)改進(jìn),提高在更多數(shù)據(jù)上的能力,這也使得深度學(xué)習(xí)模型優(yōu)于很多經(jīng)典機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)系統(tǒng)可以接受多種數(shù)據(jù)類(lèi)型的輸入,異質(zhì)醫(yī)療數(shù)據(jù)就具備這種屬性 (圖 1b)。使用監(jiān)督學(xué)習(xí)方法訓(xùn)練的模型最為常見(jiàn),其數(shù)據(jù)集由輸入數(shù)據(jù)點(diǎn)(如皮膚病變圖像)和對(duì)應(yīng)的輸出數(shù)據(jù)標(biāo)簽(如良性或惡性) 組成。強(qiáng)化學(xué)習(xí)中的計(jì)算智能體通過(guò)試錯(cuò)或?qū)<已菔緛?lái)學(xué)習(xí),在采用深度學(xué)習(xí)技術(shù)后,強(qiáng)化學(xué)習(xí)也取得了長(zhǎng)足進(jìn)步,在游戲等領(lǐng)域取得了突出成績(jī)(如圍棋)。在醫(yī)療領(lǐng)域,當(dāng)學(xué)習(xí)需要醫(yī)生演示時(shí),強(qiáng)化學(xué)習(xí)非常有用,例如機(jī)器人輔助手術(shù)中智能體學(xué)習(xí)給傷口縫合。
計(jì)算機(jī)視覺(jué)
深度學(xué)習(xí)的一些偉大成就出現(xiàn)在計(jì)算機(jī)視覺(jué)領(lǐng)域(CV)。CV 主要研究圖像和視頻理解,處理目標(biāo)分類(lèi)、檢測(cè)和分割等任務(wù),這些在判斷病人射線(xiàn)照片中是否包含惡性腫瘤時(shí)非常有用。卷積神經(jīng)網(wǎng)絡(luò)(CNN) 用來(lái)處理具備空間不變性的數(shù)據(jù)(如圖像,它們的意義不會(huì)發(fā)生改變),也因此成為該領(lǐng)域的重要技術(shù)。
拿醫(yī)療成像來(lái)說(shuō),它從圖像分類(lèi)和目標(biāo)檢測(cè)的近期進(jìn)展中受益良多。很多研究在皮膚科、放射科、眼科、病理科的復(fù)雜診斷中取得了不錯(cuò)的結(jié)果(見(jiàn)圖 2)。深度學(xué)習(xí)系統(tǒng)可以為醫(yī)生提供輔助意見(jiàn),標(biāo)注出圖像中有問(wèn)題的區(qū)域。
圖 2:醫(yī)療成像。CNN 可以在多種醫(yī)療影像上訓(xùn)練,包括放射科、病理科、皮膚科和眼科。信息從左到右傳播。輸入圖像饋入 CNN 后,網(wǎng)絡(luò)會(huì)使用卷積、池化、全連接層等簡(jiǎn)單操作按順序?qū)?shù)據(jù)轉(zhuǎn)換成扁平向量。輸出向量的元素表示疾病出現(xiàn)的概率。在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)層的內(nèi)部參數(shù)會(huì)迭代調(diào)整,以提高準(zhǔn)確率。通常,較低的層(左)學(xué)習(xí)簡(jiǎn)單的圖像特征——邊和基本的形狀,這對(duì)右側(cè)的高級(jí)表征有所影響。預(yù)測(cè)任務(wù)包括圖像分類(lèi)(即惡性 vs 良性)和醫(yī)療特征定位(如腫瘤)。
使用 CNN 方法進(jìn)行圖像級(jí)別的診斷已經(jīng)很成功了。這很大程度上歸功于 CNN 在目標(biāo)分類(lèi)任務(wù)上可與人類(lèi)媲美的性能。這些網(wǎng)絡(luò)在遷移學(xué)習(xí)中展現(xiàn)了強(qiáng)大的性能,CNN 最初在與目標(biāo)任務(wù)無(wú)關(guān)的大型數(shù)據(jù)集(如 ImageNet) 上進(jìn)行訓(xùn)練,然后在目標(biāo)任務(wù)相關(guān)的較小數(shù)據(jù)集(如醫(yī)療影像)上進(jìn)行微調(diào)。第一步,算法利用大量數(shù)據(jù)學(xué)習(xí)圖像中的自然統(tǒng)計(jì)數(shù)據(jù),如直線(xiàn)、曲線(xiàn)、顏色等。第二步,重新訓(xùn)練算法的高級(jí)層來(lái)對(duì)診斷病例進(jìn)行辨別。類(lèi)似地,目標(biāo)檢測(cè)和分割算法可識(shí)別圖像中與特定目標(biāo)對(duì)應(yīng)的部分。CNN 方法使用圖像數(shù)據(jù)作為輸入,然后輸入經(jīng)過(guò)多次卷積和非線(xiàn)性操作進(jìn)行迭代變化,直到原始數(shù)據(jù)矩陣被轉(zhuǎn)換成潛在圖像類(lèi)別的概率分布 (如醫(yī)療診斷案例)。
深度學(xué)習(xí)方法在大量診斷任務(wù)上取得了醫(yī)生級(jí)別的準(zhǔn)確率,包括識(shí)別黑痣和黑色素瘤,從眼底圖像和光學(xué)相干斷層掃描 (OCT) 圖像中檢測(cè)糖尿病性視網(wǎng)膜病變、判斷心血管風(fēng)險(xiǎn),提供轉(zhuǎn)診建議,以及從乳房 X 光片中檢測(cè)乳腺病變、使用核磁共振成像進(jìn)行脊柱分析。甚至有研究證明單個(gè)深度學(xué)習(xí)模型在多個(gè)醫(yī)療模態(tài)中都很有效 (如放射科和眼科)。但是,這些研究的一個(gè)關(guān)鍵限制是人類(lèi)醫(yī)生與算法性能之間的對(duì)比缺乏臨床背景,它們把執(zhí)行診斷的情形限制在僅使用圖像的條件下。而這通常會(huì)增加人類(lèi)醫(yī)生進(jìn)行診斷的難度,現(xiàn)實(shí)醫(yī)療環(huán)境中醫(yī)生可以看到醫(yī)療影像和一些補(bǔ)充數(shù)據(jù),包括病人的病史、健康記錄、其他檢測(cè)和口述等。
一些診所開(kāi)始使用圖像目標(biāo)檢測(cè)和分割技術(shù)處理緊急、不易被發(fā)現(xiàn)的病例,如使用放射圖像標(biāo)注大腦中的大動(dòng)脈閉塞,病人在永久性大腦損傷發(fā)生之前所剩的時(shí)間極其有限(幾分鐘)。此外還有癌癥病理切片讀取,該任務(wù)需要人類(lèi)專(zhuān)家費(fèi)力地掃描和診斷超高畫(huà)素圖像 (或同樣大小的實(shí)體圖像),現(xiàn)在該任務(wù)可以使用能夠檢測(cè)有絲分裂細(xì)胞或腫瘤區(qū)域的 CNN 來(lái)輔助進(jìn)行。訓(xùn)練之后的 CNN 用于量化組織病理圖像中的 PD-L1 數(shù)量,這項(xiàng)任務(wù)對(duì)確定病人要接受哪種免疫腫瘤藥物非常重要。結(jié)合像素級(jí)的分析,CNN 甚至被用于發(fā)現(xiàn)生存概率相關(guān)組織的生物學(xué)特征。
為新的醫(yī)療成像任務(wù)構(gòu)建監(jiān)督式深度學(xué)習(xí)系統(tǒng)的主要局限在于是否有足夠大的標(biāo)注數(shù)據(jù)集。用于特定任務(wù)的小型標(biāo)注數(shù)據(jù)集比較容易收集,但算法在新數(shù)據(jù)上的性能會(huì)比較差。在這些情況下,數(shù)據(jù)增強(qiáng)技術(shù)對(duì)提高算法的泛化能力有所幫助。類(lèi)似地,大型無(wú)標(biāo)注數(shù)據(jù)集也很容易收集,但它需要改進(jìn)的半監(jiān)督和無(wú)監(jiān)督技術(shù),如生成對(duì)抗網(wǎng)絡(luò)。
自然語(yǔ)言處理
自然語(yǔ)言處理(NLP)主要通過(guò)分析文本和語(yǔ)音來(lái)推斷詞的語(yǔ)義。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 能高效處理該領(lǐng)域的序列數(shù)據(jù),如語(yǔ)言、語(yǔ)音和時(shí)序數(shù)據(jù)等,它在 NLP 中起到了非常重要的作用。NLP 中的機(jī)器翻譯、文本生成和圖像描述取得了顯著成功。在醫(yī)療領(lǐng)域中,序列深度學(xué)習(xí)和語(yǔ)言技術(shù)為電子健康檔案(EHR)等應(yīng)用提供了很多支持。
EHR 目前正在迅速普及,大型醫(yī)療機(jī)構(gòu)的 EHR 能記錄超過(guò)一千萬(wàn)患者過(guò)去 10 年內(nèi)的醫(yī)療活動(dòng)。此外,單獨(dú)一次住院大約能產(chǎn)生 15 萬(wàn)條數(shù)據(jù),因此從這些數(shù)據(jù)能獲取的有效信息與優(yōu)勢(shì)是十分明顯的。總的來(lái)說(shuō),這種規(guī)模的 EHR 大概表示了 20 萬(wàn)年的醫(yī)生智慧累積和 1 億年的患者醫(yī)療結(jié)果數(shù)據(jù),其中還包含足夠多的罕見(jiàn)病癥。因此將深度學(xué)習(xí)應(yīng)用到 EHR 數(shù)據(jù)是一個(gè)迅速發(fā)展的領(lǐng)域。
下圖 3 展示了為 EHR 構(gòu)建深度學(xué)習(xí)系統(tǒng)的主要技術(shù)流程。其中系統(tǒng)首先會(huì)匯集多個(gè)機(jī)構(gòu)的數(shù)據(jù)來(lái)構(gòu)建原始數(shù)據(jù),這能確保構(gòu)建一個(gè)可泛化的系統(tǒng)。然后將各種非結(jié)構(gòu)化的 EHR 數(shù)據(jù)標(biāo)準(zhǔn)化并解析為患者的時(shí)序數(shù)據(jù),這可以令數(shù)據(jù)更適合使用深度學(xué)習(xí)進(jìn)行訓(xùn)練。
因此,最后我們就能推斷出高級(jí)醫(yī)療問(wèn)題的答案,例如“患者病史中的哪些信息與當(dāng)前疾病相關(guān)?”、“患者目前的疾病或問(wèn)題列表是什么?”、“有哪些介入治療的可能性?”。
圖 3:使用 EHR 進(jìn)行預(yù)測(cè)。其中 a 所示的非結(jié)構(gòu)化 EHR 數(shù)據(jù)是使用不同數(shù)據(jù)格式存儲(chǔ)的,因此基于一所醫(yī)院的病例構(gòu)建的模型無(wú)法用于其他醫(yī)院的數(shù)據(jù)。那么通過(guò)步驟 b 可以將不同格式的數(shù)據(jù)映射為基于 FHIR 的相同格式,它們都標(biāo)準(zhǔn)化為同質(zhì)數(shù)據(jù)。接下來(lái),c 根據(jù)用戶(hù)的時(shí)間線(xiàn)序列化數(shù)據(jù),因此基于時(shí)序的深度學(xué)習(xí)技術(shù)能直接應(yīng)用到整個(gè) EHR 數(shù)據(jù)集上,并為單個(gè)病人做出預(yù)測(cè)。
在進(jìn)行預(yù)測(cè)時(shí),目前大多數(shù)研究工作都在有限的結(jié)構(gòu)化數(shù)據(jù)上使用監(jiān)督學(xué)習(xí),這些數(shù)據(jù)包括實(shí)驗(yàn)室結(jié)果、生命體征、診斷碼和人口統(tǒng)計(jì)數(shù)據(jù)等。為了解釋 EHR 中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),研究者開(kāi)始使用無(wú)監(jiān)督學(xué)習(xí)方法,例如自編碼器等。最近深度學(xué)習(xí)通過(guò)卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)建模結(jié)構(gòu)化事件的時(shí)序序列(這些事件出現(xiàn)在患者的檔案中) ,預(yù)測(cè)未來(lái)的醫(yī)療事件。這些工作大多數(shù)都聚焦在重癥監(jiān)護(hù)醫(yī)學(xué)信息數(shù)據(jù)庫(kù)(MIMIC),它包含來(lái)自單個(gè)醫(yī)療中心的大量重癥監(jiān)護(hù)(ICU)患者數(shù)據(jù)。雖然 ICU 患者比非 ICU 患者能產(chǎn)生更多的 EHR 數(shù)據(jù),但非 ICU 患者的數(shù)量要遠(yuǎn)遠(yuǎn)超過(guò) ICU 患者。因此目前仍然不確定從這些數(shù)據(jù)獲得的模型如何泛化到更廣泛的人群中。
下一代語(yǔ)音識(shí)別和信息抽取模型可能會(huì)開(kāi)發(fā)臨床語(yǔ)音助手,從而準(zhǔn)確地轉(zhuǎn)錄患者就診信息。醫(yī)生在工作日的 11 小時(shí)中,需要花 6 小時(shí)處理 EHR 文檔,而這會(huì)減少用于患者的時(shí)間。因此自動(dòng)化轉(zhuǎn)錄將緩解這種問(wèn)題,并促進(jìn)更多更有價(jià)值的服務(wù)?;?RNN 的語(yǔ)言翻譯模型能夠使用端到端的技術(shù)直接將語(yǔ)音轉(zhuǎn)換為另一種語(yǔ)言的文本。這種技術(shù)能直接將患者和醫(yī)生的對(duì)話(huà)轉(zhuǎn)化為轉(zhuǎn)錄文本記錄。不過(guò)關(guān)鍵難點(diǎn)在于,在準(zhǔn)確總結(jié)對(duì)話(huà)的同時(shí),模型還需要從對(duì)話(huà)中對(duì)每個(gè)醫(yī)療實(shí)體的屬性和狀態(tài)進(jìn)行分類(lèi)。雖然早期的人機(jī)交互實(shí)驗(yàn)非常有前景,但這些技術(shù)還沒(méi)有廣泛部署到醫(yī)療實(shí)踐中。
未來(lái)的研究工作可能會(huì)集中在開(kāi)發(fā)新算法,以更好地利用 EHR 中信息豐富的非結(jié)構(gòu)化數(shù)據(jù)。例如在開(kāi)發(fā)預(yù)測(cè)系統(tǒng)時(shí),臨床記錄通常被省略或采用節(jié)選編輯,這種非結(jié)構(gòu)化數(shù)據(jù)就含有非常多的診斷信息。一般我們通過(guò)半監(jiān)督學(xué)習(xí)結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),其中大規(guī)模 RNN 展現(xiàn)出非常優(yōu)秀的性能與結(jié)構(gòu)。這種數(shù)據(jù)組合允許模型從更廣泛的數(shù)據(jù)類(lèi)型中學(xué)習(xí)更多的知識(shí),并在多項(xiàng)任務(wù)中超過(guò)其它技術(shù),這些任務(wù)包括死亡率、再入院率、住院時(shí)間和診斷預(yù)測(cè)等。
強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是指訓(xùn)練計(jì)算智能體成功與環(huán)境互動(dòng)的技術(shù),通常是為了實(shí)現(xiàn)特定目標(biāo)。強(qiáng)化學(xué)習(xí)可通過(guò)試錯(cuò)、演示或混合方法來(lái)實(shí)現(xiàn)。一旦智能體開(kāi)始在其環(huán)境中采取行動(dòng),獎(jiǎng)勵(lì)和后果的迭代反饋循環(huán)會(huì)訓(xùn)練智能體更好地完成目標(biāo)。從專(zhuān)家演示中學(xué)習(xí)有兩種方式:通過(guò)監(jiān)督學(xué)習(xí)(即模仿學(xué)習(xí)) 直接預(yù)測(cè)專(zhuān)家的行為;推斷專(zhuān)家的目標(biāo)(即逆向 RL)。要想成功訓(xùn)練智能體,模型函數(shù)至關(guān)重要,它把環(huán)境中的感官信號(hào)作為輸入,輸出智能體要采取的下一步行動(dòng)。在深度強(qiáng)化學(xué)習(xí)中,深度學(xué)習(xí)模型作為模型函數(shù),頗具前景。
可以從深度強(qiáng)化學(xué)習(xí)中受益的一大醫(yī)療領(lǐng)域是機(jī)器人輔助手術(shù)(RAS)。目前,機(jī)器人輔助手術(shù)的主要方式是醫(yī)生以遙控方式指導(dǎo)機(jī)器人操縱器械。通過(guò)使用計(jì)算機(jī)視覺(jué)模型(如 CNN) 來(lái)觀察手術(shù)環(huán)境、使用強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)外科醫(yī)生的動(dòng)作,深度學(xué)習(xí)有效提高了機(jī)器人輔助手術(shù)的穩(wěn)健性和適應(yīng)性。
這些技術(shù)支持高度重復(fù)與時(shí)間敏感的手術(shù)任務(wù),如縫合和打結(jié)。例如,計(jì)算機(jī)視覺(jué)技術(shù)(如用于目標(biāo)檢測(cè)/分割和立體視覺(jué)的 CNN)可以根據(jù)圖像數(shù)據(jù)重建開(kāi)放性傷口的樣子,然后通過(guò)解決路徑優(yōu)化問(wèn)題生成縫合或打結(jié)軌跡,該路徑優(yōu)化問(wèn)題試圖在考慮外部約束 (如關(guān)節(jié)限制和障礙)的同時(shí)找到最優(yōu)軌跡。與此類(lèi)似,用圖像訓(xùn)練的 RNN 通過(guò)學(xué)習(xí)外科醫(yī)生的動(dòng)作序列能夠?qū)W會(huì)自動(dòng)打結(jié)。
這些技術(shù)對(duì)完全自動(dòng)化的機(jī)器人手術(shù)或微創(chuàng)手術(shù)尤其有利。在現(xiàn)代腹腔鏡手術(shù)中,需要有幾個(gè)切口把器械插入體內(nèi),這些器械包括相機(jī)機(jī)和手術(shù)工具,然后外科醫(yī)生遙控操作這些器械。深度模仿學(xué)習(xí)、RNN、軌跡遷移算法可以完全自動(dòng)化手術(shù)過(guò)程中的某些遙控操作任務(wù)。在腹腔鏡手術(shù)中,重復(fù)任務(wù)的自動(dòng)化比開(kāi)放手術(shù)對(duì)時(shí)間的要求更嚴(yán)格。例如,在腹腔鏡手術(shù)中打結(jié)可能需要三分鐘,而不像開(kāi)放手術(shù)中只需幾秒。
半自動(dòng)遙操作的主要挑戰(zhàn)之一是在手術(shù)場(chǎng)景附近正確定位儀器的位置和方向。最近,采用改進(jìn) U-Net 架構(gòu) CNN 開(kāi)發(fā)的像素級(jí)儀器分割技術(shù)開(kāi)始嶄露頭角。深度學(xué)習(xí)應(yīng)用于手術(shù)機(jī)器人的另一大挑戰(zhàn)是數(shù)據(jù)收集。深度模仿學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù)集,包含每個(gè)手術(shù)動(dòng)作的多個(gè)示例。由于許多手術(shù)是精細(xì)、獨(dú)特的,收集足夠的數(shù)據(jù)用于其他一般性手術(shù)仍然非常困難。而且,自動(dòng)化系統(tǒng)仍然難以完全適應(yīng)未知和未觀察到的情況,如異常的手術(shù)事故。
深度學(xué)習(xí)的推廣
除了 CV、NLP、RL 任務(wù)之外,深度學(xué)習(xí)也適用于數(shù)據(jù)差別微妙且需要特別對(duì)待的領(lǐng)域。此處以基因組學(xué)為例,在這一領(lǐng)域中,用于處理獨(dú)特?cái)?shù)據(jù)表征的深度學(xué)習(xí)技術(shù)已遠(yuǎn)不止(基于 CNN、RNN 等的)傳統(tǒng)深度學(xué)習(xí)方法。
現(xiàn)代基因組技術(shù)包含許多種度量,從個(gè)人 DNA 序列到血液中多種蛋白質(zhì)的數(shù)量。用于分析這些度量的方法可以通過(guò)深度學(xué)習(xí)得到極大改進(jìn),而這些改進(jìn)將幫助臨床醫(yī)生提高治療和診斷的準(zhǔn)確率。在基因組學(xué)領(lǐng)域,創(chuàng)建一個(gè)深度學(xué)習(xí)系統(tǒng)的典型工作流程包括:
獲取原始數(shù)據(jù)(如基因表現(xiàn)型數(shù)據(jù))
將原始數(shù)據(jù)轉(zhuǎn)化為輸入數(shù)據(jù)張量
將這些張量數(shù)據(jù)傳入神經(jīng)網(wǎng)絡(luò)并用于特定的生物醫(yī)學(xué)應(yīng)用(如圖 4)。
圖 4:基因組學(xué)中的機(jī)器學(xué)習(xí)。a:輸入數(shù)據(jù)?;蚪M數(shù)據(jù)由實(shí)驗(yàn)測(cè)量數(shù)據(jù)組成,從中可以預(yù)測(cè)某些特性或有趣的結(jié)果。這些數(shù)據(jù)通常豐富多樣,可能包含排序、基因表現(xiàn)型、功能性數(shù)據(jù)以及其他形式的分子數(shù)據(jù)。b:示例數(shù)據(jù)張量。原始的實(shí)驗(yàn)度量需要轉(zhuǎn)化為適合深度學(xué)習(xí)算法使用的形式,一般深度學(xué)習(xí)算法將多維數(shù)據(jù)張量和相關(guān)目標(biāo)標(biāo)簽作為輸入。c:DNN。使用帶有標(biāo)注的張量來(lái)訓(xùn)練 DNN,以從輸入數(shù)據(jù)張量中預(yù)測(cè)標(biāo)簽。d:生物醫(yī)學(xué)應(yīng)用。經(jīng)過(guò)訓(xùn)練的 DNN 可以應(yīng)用于生物醫(yī)學(xué),如預(yù)測(cè)以前未見(jiàn)過(guò)數(shù)據(jù)的標(biāo)簽或檢查輸入數(shù)據(jù)和輸出標(biāo)簽之間的關(guān)系。示例應(yīng)用包含解釋實(shí)驗(yàn)數(shù)據(jù)(如從序列工具的輸出中推斷 DNA 序列或推斷 DNA 突變對(duì)基因剪切的影響)、分子診斷學(xué)(如預(yù)測(cè)基因突變對(duì)疾病風(fēng)險(xiǎn)或藥物反應(yīng)的影響)等。
全基因組關(guān)聯(lián)(GWA)分析隱藏著巨大的機(jī)遇,這是一種大型病例對(duì)照研究,旨在發(fā)現(xiàn)影響特定性狀的基因突變。GWA 分析要求算法可以擴(kuò)展到非常大的患者群體,還要能處理潛在的混雜因素。這些挑戰(zhàn)可以通過(guò)優(yōu)化工具和深度學(xué)習(xí)相關(guān)技術(shù)解決,包括隨機(jī)優(yōu)化和其他結(jié)合了平行計(jì)算的現(xiàn)代方法,以及解決不可見(jiàn)混雜因素的建模技術(shù)。在不久的將來(lái),將外部模式和額外的生物數(shù)據(jù)來(lái)源整合到 GWA 研究中的模型,也可能受益于深入學(xué)習(xí),它們能夠更準(zhǔn)確地識(shí)別疾病相關(guān)的因果突變。
了解疾病遺傳學(xué)可以幫助臨床醫(yī)生推薦治療方法并提供更準(zhǔn)確的診斷。確定患者基因組中的新變異是否具有醫(yī)學(xué)相關(guān)性是內(nèi)科醫(yī)生面臨的一大挑戰(zhàn)。在某種程度上,這種決策依賴(lài)于預(yù)測(cè)突變的致病性,目前已有任務(wù)使用蛋白質(zhì)結(jié)構(gòu)和進(jìn)化保守性等特征來(lái)訓(xùn)練學(xué)習(xí)算法。由于能夠有效地整合不同的數(shù)據(jù)類(lèi)型,深度學(xué)習(xí)技術(shù)可能提供比現(xiàn)在更準(zhǔn)確的致病性預(yù)測(cè)。
機(jī)器學(xué)習(xí)對(duì)于從基因數(shù)據(jù)中進(jìn)行表現(xiàn)型預(yù)測(cè)也發(fā)揮著重要作用,包括身高、疾病風(fēng)險(xiǎn)等復(fù)雜的性狀。深度學(xué)習(xí)可以通過(guò)整合醫(yī)療圖像、病例、可穿戴設(shè)備數(shù)據(jù)等其他形式的數(shù)據(jù)進(jìn)一步增強(qiáng)此類(lèi)模型。一種非常有前景的表現(xiàn)型預(yù)測(cè)方法是預(yù)測(cè)中間分子的表現(xiàn)型,如基因表達(dá)或基因剪切等,這些信息接下來(lái)會(huì)用于下游疾病的預(yù)測(cè)。中間分子狀態(tài)預(yù)測(cè)要比人類(lèi)性狀預(yù)測(cè)容易一些,因?yàn)槠湫盘?hào)更多,訓(xùn)練數(shù)據(jù)更加廣泛。這兩個(gè)特征使得這一問(wèn)題非常適合用深度學(xué)習(xí)解決,后者已經(jīng)被證實(shí)非常善于預(yù)測(cè)剪接和轉(zhuǎn)錄因子結(jié)合。
基因組數(shù)據(jù)也可以直接作為疾病產(chǎn)生和衍化的生物標(biāo)志物(biomarker)。例如,血液中含有少量脫離細(xì)胞的 DNA,這些 DNA 是從身體其他部位的細(xì)胞中釋放出來(lái)的。這些 DNA 片段是器官排斥反應(yīng) (即免疫系統(tǒng)攻擊移植細(xì)胞)、細(xì)菌感染及早期癌癥的非侵入性指標(biāo)。脫細(xì)胞 DNA 被成功地應(yīng)用于產(chǎn)前診斷:胎兒 DNA 存在于母親的血液表明染色體畸變,可以揭示胎兒的整個(gè)基因組。生物標(biāo)記數(shù)據(jù)通常非常嘈雜,需要進(jìn)行復(fù)雜的分析(如確定脫細(xì)胞 DNA 是否預(yù)示癌癥);深度學(xué)習(xí)系統(tǒng)可以提高針對(duì) DNA 序列、甲基化、基因表達(dá)及其他度量的生物標(biāo)記分析的質(zhì)量。
評(píng)論
查看更多