如何定義和評價平安集團在醫(yī)療科技層面的未來? 編者按:2020 年 8 月 7 日,全球人工智能和機器人峰會(CCF-GAIR 2020)正式開幕。CCF-GAIR 2020 峰會由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。從 2016 年的學(xué)產(chǎn)結(jié)合,2017 年的產(chǎn)業(yè)落地,2018 年的垂直細(xì)分,2019 年的人工智能 40 周年,峰會一直致力于打造國內(nèi)人工智能和機器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資平臺。 在8月9日的醫(yī)療科技專場上,來自平安集團的首席醫(yī)療科學(xué)家謝國彤先生以《用人工智能重塑醫(yī)療:平安醫(yī)療科技的實踐和探索》為題,分享了平安集團在醫(yī)療領(lǐng)域的深刻認(rèn)知和實踐。 謝國彤博士認(rèn)為,所有AI都無非四個要素:數(shù)據(jù)、算力、算法和應(yīng)用。在這四個要素下面,平安共研發(fā)了2個基礎(chǔ)平臺和4個醫(yī)療AI算法領(lǐng)域,以支持醫(yī)療的各種分析和推理,目前有1.6萬家醫(yī)療機構(gòu),43萬醫(yī)生在使用。兩個基礎(chǔ)平臺主要是賽飛AI平臺(算力)和醫(yī)療五大庫及知識圖譜(數(shù)據(jù))。謝國彤表示,醫(yī)療五大庫及知識圖譜,首先是從數(shù)據(jù)端出發(fā),分四步去解決數(shù)據(jù)處理難題:第一,去掉噪音,補全數(shù)據(jù),提升數(shù)據(jù)輸入質(zhì)量;第二,結(jié)構(gòu)化,通過數(shù)據(jù)和文本抽取,實現(xiàn)數(shù)據(jù)可用;第三,標(biāo)準(zhǔn)化,把不同來源的醫(yī)療數(shù)據(jù)名稱統(tǒng)一;第四,利用算法挖掘疾病的風(fēng)險因子或者治療方法。 而賽飛AI平臺則主要是通過AI平臺化戰(zhàn)略,解決AI產(chǎn)品算力和落地的基礎(chǔ)性問題。 謝國彤說到,平臺的目的就是讓醫(yī)療數(shù)據(jù)科學(xué)家專注在自己領(lǐng)域內(nèi),由平臺去完成AI通用算法、智能標(biāo)注、分布式訓(xùn)練加速、高性能壓縮模型部署等通用問題。 在這兩大基礎(chǔ)平臺之上衍生的4個醫(yī)療AI算法領(lǐng)域,主要側(cè)重在疾病預(yù)測、智能影像、AskBob輔助診療和疾病全周期管理四個場景。 在最后的總結(jié)中,謝國彤說到,醫(yī)療人工智能是利國利民的事情,人命關(guān)天,需要AI界和醫(yī)學(xué)界的緊密合作,用AI的算法解決真實的需求,保證模型的安全性、可用性,才能對“健康中國”產(chǎn)生真正的價值。
以下為謝國彤的現(xiàn)場演講內(nèi)容,雷鋒網(wǎng)《醫(yī)健AI掘金志》作了不改變原意的編輯及整理:
謝國彤:各位現(xiàn)場和線上的朋友,大家好。我叫謝國彤,負(fù)責(zé)平安的醫(yī)療科技。很高興今天有機會跟大家分享平安在醫(yī)療科技方面的進展。
在過去五年時間,平安積累了大量的醫(yī)療業(yè)務(wù)。平安醫(yī)療有三個支柱:患者端、醫(yī)院端和支付端。頂天立地還各有一橫一縱。 患者端,平安目前有全球最大的互聯(lián)網(wǎng)醫(yī)療平臺——平安好醫(yī)生,3億多注冊用戶,每天的問診量在80萬次以上; 醫(yī)院端,平安通過智慧醫(yī)院的解決方案,在1.6萬家醫(yī)院賦能,還有自己的檢測中心、藥品集采平臺,很多跟醫(yī)院相關(guān)的業(yè)務(wù); 保險支付是平安的本行,平安有1億6千萬的保險客戶,平安醫(yī)保科技為兩百多個城市政府做醫(yī)保精算、核賠各種業(yè)務(wù)。 一橫一縱,上面一橫是面向政府。平安擁有的智慧城市、智慧衛(wèi)健業(yè)務(wù),在150多個城市幫助政府提供更好的公共衛(wèi)生、全民信息平臺和醫(yī)共體的解決方案。 下面一縱是我負(fù)責(zé)的平安醫(yī)療科技,從每個業(yè)務(wù)中沉淀數(shù)據(jù),把數(shù)據(jù)變成AI模型。再反哺賦能給各個業(yè)務(wù)。今天,我主要聚焦平安醫(yī)療科技的工作。 所有的AI無非是四個要素:數(shù)據(jù)、算力、算法和應(yīng)用。如果把我們的工作按照四個要素來整理,是2個基礎(chǔ)平臺和4個算法領(lǐng)域。
基礎(chǔ)平臺:包括五大庫數(shù)據(jù)及知識圖譜平臺。這個平臺匯聚了平安各種醫(yī)療業(yè)務(wù)沉淀下來的數(shù)據(jù),將其知識化后變成知識圖譜,支持上層的各種分析和推理。賽飛AI平臺:讓做醫(yī)療的數(shù)據(jù)科學(xué)家專注在自己的領(lǐng)域里,把AI的通用算法、分布式的訓(xùn)練加速、高性能壓縮模型部署等通用問題交給平臺來做。五大庫及知識圖譜首先來說一下,我們的五大庫知識圖譜。
在沉淀大量數(shù)據(jù)后,我們以疾病為中心構(gòu)建知識圖譜,把疾病的癥狀、檢查檢驗、用藥、關(guān)鍵的常用處方、疾病手術(shù)、疾病并發(fā)癥、疾病風(fēng)險因素、疾病和基因的關(guān)系,包括哪個醫(yī)院、哪個醫(yī)生在哪個疾病領(lǐng)域比較擅長,發(fā)表過什么科研成果的信息都收集起來,構(gòu)建出一個包含300萬的醫(yī)學(xué)概念、3300萬的關(guān)系和3000萬醫(yī)學(xué)證據(jù)的醫(yī)療知識圖譜,支持后續(xù)所有的應(yīng)用。
構(gòu)建這樣的圖譜,我們把它總結(jié)為“四化”的過程。拿到數(shù)據(jù)后,要經(jīng)過四個關(guān)鍵步驟:第一步,去噪。去掉噪音,補全數(shù)據(jù),提高輸入數(shù)據(jù)的質(zhì)量;第二步,結(jié)構(gòu)化。圖譜里有大量文本數(shù)據(jù),要做各種實體、關(guān)系進行抽取抽取,對文本進行分類、標(biāo)簽,讓數(shù)據(jù)變得可用;第三步,標(biāo)準(zhǔn)化。不同來源的醫(yī)療數(shù)據(jù),對疾病、藥品、檢查檢驗的描述是不一樣的。我們要用大量的NLP技術(shù),將各種醫(yī)學(xué)術(shù)語統(tǒng)一化、標(biāo)準(zhǔn)化,才能進行下一步的分析;第四步,挖掘。利用各種算法,從數(shù)據(jù)中挖掘疾病的風(fēng)險因子或者常用的治療方法,這些信息最終會沉淀在我們的知識圖譜里。
賽飛AI算法平臺其次,我介紹一下賽飛AI平臺,這個平臺的目標(biāo)要提供從模型訓(xùn)練到模型部署的一整套平臺級服務(wù),讓醫(yī)療數(shù)據(jù)科學(xué)家專注在醫(yī)療領(lǐng)域,不用去考慮通用的問題。 賽飛的工作很多。舉一個例子,我們在進行組織病理影像分析時,一個病理的影像大概有10億像素,如果一個醫(yī)生要很完整的把腎小球和腎小球里的內(nèi)皮細(xì)胞、細(xì)膜細(xì)胞都標(biāo)注完,一個小時都不能完成。 但是,所有的片子都有必要去標(biāo)注嗎?不見得。我們利用主動學(xué)習(xí)的方法,挑選信息量最大的片子。后來我們發(fā)現(xiàn),標(biāo)注52%的訓(xùn)練數(shù)據(jù),就可以達(dá)到跟此前標(biāo)注完所有數(shù)據(jù)差不多的效果。 再比如分布式加速?,F(xiàn)在的NLP模型龐大無比,不管是現(xiàn)在最火的GPT-3擁有的上千億參數(shù),還是常用的BERT,都是幾億參數(shù)的大模型。我們參加ACL比賽時,用了賽飛分布式加速能力,在20天之內(nèi)訓(xùn)練了281次,不停把模型的精度推到極致,最后拿到冠軍。 這就是分布式加速給模型訓(xùn)練帶來的價值。 再比如模型壓縮的例子,這是非?,F(xiàn)實的場景:很多AI模型希望跟硬件進行整合,但是模型很大,硬件存儲卻很小。我們的一個眼底OCT模型大小是6G,一個OCT設(shè)備存儲是2G,無法把這個模型放在存儲里。 最后,我們把6G的模型壓縮到原來的四分之一,精度只損失一點點,最終完成軟硬一體的計算。 當(dāng)然,除了在醫(yī)療領(lǐng)域,賽飛還可以拓展變成更加通用的AI平臺。
現(xiàn)在平安有16個子公司、42個部門、300多名數(shù)據(jù)科學(xué)家在賽飛平臺上完成2.5萬次模型訓(xùn)練。 同時,它是參加比賽刷榜的神器,我們拿了7個世界第一,利用這個平臺,極大地加快建模速度,也有很多相應(yīng)論文的發(fā)表。 說完底層的技術(shù),我們再看上層的四個算法領(lǐng)域,其中大家比較熟悉的是影像。 平安的業(yè)務(wù)很廣,如果聚焦在醫(yī)療AI的算法場景里,則是從疾病的預(yù)測、基于影像的輔助診斷、AskBob輔助診療和患者院外管理的四大場景,我們有大量的模型算法和工作。 從應(yīng)用的角度來看,今年,平安所有的醫(yī)療科技服務(wù)有1.75億次的調(diào)用,服務(wù)了1.6萬家醫(yī)院,43.8萬名醫(yī)生用戶每天在使用我們的醫(yī)療科技服務(wù)。
疾病預(yù)測關(guān)鍵技術(shù)疾病預(yù)測,預(yù)測的不是人的命運,而是人的生命。比如預(yù)測重癥患者院內(nèi)死亡風(fēng)險、慢性病患者的并發(fā)癥風(fēng)險、人群發(fā)病風(fēng)險。 新冠疫情期間,平安醫(yī)療科技向國務(wù)院辦公廳、各個部委提交了130多期預(yù)測報告,預(yù)測什么時候新增發(fā)病人數(shù)會到頂,什么時候出院人數(shù)會急劇增加,最終死亡率是多少,從而幫助政府做決策。 在疾病的預(yù)測過程中,有非常多的關(guān)鍵技術(shù):一、數(shù)據(jù)修復(fù)。拿到100條記錄,要求所有的關(guān)鍵數(shù)據(jù)都有數(shù)值,最后剩下一條就不錯了。我們在IEEE ICHI參加了Data Imputation的比賽拿了冠軍,我們利用數(shù)據(jù)所謂的橫向、縱向和斜向關(guān)系,分析數(shù)據(jù)之前、之后和相關(guān)檢測檢驗的信息,猜測缺失的數(shù)據(jù)可能是多少,均有不錯的效果。二、特征工程。很多預(yù)測是從病例中進行挖掘,這里也有挑戰(zhàn):數(shù)據(jù)是多模態(tài)的,不像影像相對單純。 在這次新冠疫情里,預(yù)測有60%的ICU患者發(fā)生了不同程度的膿毒癥,膿毒癥是ICU的第一大殺手。ICU里的信號非常復(fù)雜,有心率血壓、脈搏等生命體征信息,并且時間序列是連續(xù)的。 我們利用很好的多模態(tài)數(shù)據(jù)特征工程的方法,提前6個小時預(yù)測患者發(fā)生膿毒癥的風(fēng)險,精度比目前最好的方法高20%,這個工作今年發(fā)表在重癥醫(yī)學(xué)頂級期刊CCM上。三、可解釋機器學(xué)習(xí)建模。很多醫(yī)生是很難接受黑盒模型的,尤其是預(yù)測,本來就是在猜,如果怎么猜的都不知道,醫(yī)生很難接受這個模型。 我們的做法是將深度學(xué)習(xí)的方法跟醫(yī)生比較能接受的生存分析survival analysis方法結(jié)合起來,利用SHAP等可視化的方法,把因素和結(jié)局的關(guān)系可視化出來。比如右上角的圖,有一個U字形,那是一個非常典型的例子,紅色的表示當(dāng)值在那個區(qū)域的時候,導(dǎo)致患者出現(xiàn)腎衰竭的風(fēng)險,而綠色部分是保護性因素,值在這個區(qū)間的患者不容易發(fā)生風(fēng)險,但它不是線性的。 我們利用可解釋的模型加上深度學(xué)習(xí)的方法,用算法定量、精準(zhǔn)地把非線性的關(guān)系可視化出來,解釋給醫(yī)生,讓他們更容易接受。
做預(yù)測模型有什么用?現(xiàn)在有兩個面向用戶的場景在使用: 第一個場景是面向C端用戶。平安有最大的全球互聯(lián)網(wǎng)醫(yī)療平臺——平安好醫(yī)生。我們把常見病(高血壓、糖尿病、冠心病、腦卒中)的預(yù)測模型放在平安好醫(yī)生APP上。平安好醫(yī)生有幾億的用戶,他們會填寫數(shù)據(jù)預(yù)測,看看自己有什么風(fēng)險,同時進行相應(yīng)的管理。 第二個場景是針對老年人群體。我們在甘肅收集到185萬老年人數(shù)據(jù)。老年人出現(xiàn)高血壓、糖尿病的比例占老年人口的40%,慢性病管理的挑戰(zhàn)在于知曉率低,治療率低。老年人不知道自己有病,或者有病也不會主動治療。 我們跟甘肅衛(wèi)健委合作,用算法把這些人挑出來,通過甘肅家庭醫(yī)生平臺,讓家庭醫(yī)生有針對性找到高危老年人,對他們進行主動管理,提高疾病的知曉率和治療率。 三是在珠海,我們利用200多萬居民的健康數(shù)據(jù)和12個疾病的預(yù)測模型,可以生成一個完整的風(fēng)險評估報告。 同時,我們會把相應(yīng)患者的教育,以及可訪問的健康服務(wù)跟風(fēng)險因素掛在一起:哪些服務(wù)可以幫助降低哪些風(fēng)險因素,讓政府在進行疾病管理的時候變得更加精準(zhǔn),更有針對性?;谥悄苡跋竦妮o助診斷第二個場景是面向醫(yī)學(xué)影像,我們聚焦的是兩類人群(基層醫(yī)生和專家)、三個場景:
對于基層醫(yī)生,我們聚焦質(zhì)控和篩查。很多基層醫(yī)生拍出來的片子位置不正、關(guān)鍵的器官不在里面、以及各種異物,這些片子拿到北京、上海的大醫(yī)院也用不了。 我們在質(zhì)控領(lǐng)域有很長的積累,在《NEUROCOMPUTING》、《SCIENTIFIC REPORTS》上發(fā)表了一系列的文章,針對DR、CT、內(nèi)窺鏡等影像,發(fā)現(xiàn)質(zhì)量問題后提示醫(yī)生重拍,進而提高優(yōu)片的比例,在內(nèi)窺鏡異物比賽上獲得冠軍。
另外,平安有六個檢測中心,300多家醫(yī)院把數(shù)據(jù)傳到平安影像云上,由平安的醫(yī)生幫助他們閱片。利用質(zhì)控的方法,不管是DR。還是CT,質(zhì)量不好片子的比例下降了20%,讓甲級優(yōu)等片的占比達(dá)到98%,提高了基層片子的質(zhì)量。 第二個場景是篩查,告訴基層醫(yī)生患者的病情,在基層醫(yī)院看不了,要去大醫(yī)院就診。 我舉一個眼科OCT的例子。OCT類似于CT,是三維建模,會看OCT的醫(yī)生很少,尤其是在基層醫(yī)院,五官科的醫(yī)生往往是耳鼻喉科的醫(yī)生,不一定是眼科醫(yī)生。 我們在TVST、MICCAI等連續(xù)發(fā)表了一些文章,用算法對OCT的20多種病灶進行識別,并且做出緊迫性判斷。提示醫(yī)生患者沒問題,或是有問題但只需要隨訪,或者是問題很嚴(yán)重,需要馬上到上級醫(yī)院就診,這是我們在篩查場景里發(fā)揮的作用。 我們在上海、深圳都建立了以權(quán)威眼科三甲醫(yī)院為主、下設(shè)幾十家社康中心的模式,在社康中心進行篩查。在這兩個地方,我們發(fā)現(xiàn),年齡偏高人群中有30%的人有不同程度的眼底病變,其中20%的人需要馬上治療。因此,通過平安的平臺,我們可以將他們轉(zhuǎn)到相應(yīng)的三甲眼科醫(yī)院進行干預(yù)。 第三類是輔助診斷,面向?qū)?漆t(yī)生,對于很難很煩的事情,我們幫助他們加速。 這是腎臟病理的例子。一個醫(yī)生做腎臟診斷時,需要對著10億像素的片子數(shù)腎小球、有沒有硬化,腎小球里面細(xì)胞的比例。一個醫(yī)生數(shù)一個腎小球平均需要平均43秒,一個片子里有幾十到一百個腎小球。 我們利用最近發(fā)表在病理學(xué)頂級期刊上的一套模型,跟國家腎病中心的四個腎內(nèi)科醫(yī)生進行了對比。結(jié)果模型的精度是92%,四個腎內(nèi)科的醫(yī)生平均精度是82%,同時,模型看一個腎小球的速度是0.6秒,而醫(yī)生平均是43秒,我們把速度平均提升了70倍,精度提升了10倍。因此,讓醫(yī)生基于AI模型提供結(jié)果進行判斷,把瑣碎的事情交給計算機,這是我們對AI的定位。今年上半年,有250多個城市使用了平安醫(yī)療科技的技術(shù),影像輔助診斷的服務(wù)就有上億次調(diào)用。 最后一個例子是宮頸癌TCT病理,我們將硬件與模型進行了整合,通過跟復(fù)旦腫瘤醫(yī)院、第三方診斷中心合作一起應(yīng)用。掃描儀會在2分鐘內(nèi)完成切片掃描,在40秒鐘內(nèi)對切片進行陽性、陰性的判斷,同時會把三類高危的陽性切片按照高、中、低列出來,讓醫(yī)生關(guān)注陽性的切片。 即使是陰性的片子,我們會把一些高風(fēng)險的區(qū)域高亮出來,幫助醫(yī)生做判斷。在6000例的數(shù)據(jù)驗證上,敏感度設(shè)到99%,排疑率是80%,減少醫(yī)生閱讀陰性片的時間。AskBob輔助診療輔助診療核心要解決的是診斷治療時如何給醫(yī)生一些輔助,我挑選兩個關(guān)鍵技術(shù)介紹。
目前,我們有2000多種疾病的輔助診斷和120多種精準(zhǔn)治療模型。很多AI應(yīng)用集中在分類,可能也會完成分割的任務(wù)。我們主要用的是深度強化學(xué)習(xí)的方法,結(jié)合短期和長期的結(jié)果做Reward function,短期是血壓、血糖達(dá)標(biāo)率,長期是并發(fā)狀的發(fā)生率,用不同的結(jié)果給深度強化學(xué)習(xí)一些激勵。 利用這樣的方法,我們跟國家生命中心在BMJ子刊上發(fā)表了面向糖尿病、腎病個性化治療的模型,跟安貞醫(yī)院剛剛在AMIA上發(fā)表了房顫的治療模型。 還有一個場景是面向循證醫(yī)學(xué)。醫(yī)生要閱讀大量的文獻,我們用算法把文獻里關(guān)鍵的疾病、用藥抽取出來做分類,比如這類疾病的手術(shù)治療是哪一種,用哪種藥進行治療,我們用算法把關(guān)鍵信息抽取出來。
目前,這一套輔助診療系統(tǒng)在1.6萬家醫(yī)院有應(yīng)用,目標(biāo)對象同樣分為基層醫(yī)生和專家醫(yī)生。我們會像助手一樣,在基層醫(yī)生輸入癥狀之后,不斷提醒可能的檢查、檢驗和用藥、診斷結(jié)果。數(shù)據(jù)顯示,部署我們系統(tǒng)之前,地方診療規(guī)范率不到50%,部署后的規(guī)范率達(dá)到80%以上。而對于專科醫(yī)生,我們希望他們在面對復(fù)雜病例或者科研需求時,可以通過AI的方式檢索到需要的醫(yī)學(xué)證據(jù)。比如胃癌,我們會提供不同臨床治療方案的依據(jù)以及治療的效果。 同時,醫(yī)生可以查詢胃癌領(lǐng)域的權(quán)威在哪些領(lǐng)域發(fā)表了多少文章,有哪些臨床實驗,從而幫助醫(yī)生更好地進行科研。患者院外管理除了幫助醫(yī)生,我們還要關(guān)注的對象是患者,患者離開醫(yī)院后有大量管理的需求。 比如藥物是否需要調(diào)整、是否還要繼續(xù)吃,跟其他藥一起吃有沒有問題。醫(yī)生會對患者進行隨訪,但是單純依靠人的方式是不可能的。中國一年就診人次是80億,但只有300萬醫(yī)生,醫(yī)生治病之余沒有精力做后續(xù)患者隨訪。
為此,我們開發(fā)了多輪對話技術(shù),讓AI盡可能把那些耗時耗力的工作做完,好醫(yī)生一天會產(chǎn)生80萬次的問題。我們分析了好醫(yī)生日志,每次15分鐘的對話里,前5分鐘都是醫(yī)生問患者的病史、診斷治療,后10分鐘患者會問醫(yī)生五花八門的話題,這些都是我們很好的訓(xùn)練數(shù)據(jù)。 在ACL里,我們在醫(yī)療問答項目上拿到了冠軍?;诤A康臄?shù)據(jù),我們訓(xùn)練了一個AskBob的模型,比通用的模型效果更好,可以做意圖理解、FAQ問答和知識圖譜問答,回答各種長尾的問題。 舉一個應(yīng)用的例子。目前,在560多家醫(yī)院、五萬名2型糖尿病患者在我們的平臺上進行院外的管理。這有點像前面這些方案的集大成者。我們會用各種風(fēng)險預(yù)測產(chǎn)生患者畫像,用輔助診療的模型生成一些方案、監(jiān)測方案、用藥方案、飲食運動等,用對話的方式進行動態(tài)跟蹤、隨訪,包括回答各種問題。 這種方式的效果如何?
數(shù)據(jù)顯示,患者入住三個月后,評估他的HBA1C和空腹血糖,可以看到HBA1C達(dá)標(biāo)率提升5倍,空腹血糖達(dá)標(biāo)率提升20%?;颊吆芊e極地閱讀文章,積極地上傳自己的血糖數(shù)據(jù),依從性提升了50%。 與此同時,成本也相應(yīng)降低。因為以前主要靠人工,三個月內(nèi)圍繞一名患者,護士平均要打5個電話?,F(xiàn)在的“AI+護士”,只要打2.9個電話就可以達(dá)到更好的效果,這是院外管理一個很好的案例。 更重要的一點是,打通重點疾病的??颇J?。我們跟國家腎病中心有一個合作的例子,基于病理對慢性腎病的患者進行輔助診斷,進行腎衰竭的風(fēng)險預(yù)測,對高風(fēng)險的人群實現(xiàn)精準(zhǔn)用藥,讓他們接受免疫抑制劑的治療,降低腎衰竭的風(fēng)險。
以腎病為??瓢咐齺砜矗覀兇蛲溯o助診斷、風(fēng)險預(yù)測、精準(zhǔn)治療、患者管理的四大環(huán)節(jié),在每個環(huán)節(jié)都有醫(yī)學(xué)期刊論文發(fā)表,得到醫(yī)學(xué)界的認(rèn)可。 最后,我想說的是,醫(yī)療人工智能是利國利民的事情,人命關(guān)天,需要AI界和醫(yī)學(xué)界的緊密合作,用AI的算法解決真實的需求,保證模型的安全性、可用性,才能真正地對“健康中國”產(chǎn)生價值。采訪問答精選提問:您剛剛在演講中提到了賽飛平臺,想請問一下為什么要投入精力去開發(fā)平臺?未來的面向?qū)ο笫悄男??謝國彤:我們發(fā)現(xiàn),算法工程師要完成好多通用的事情,而且環(huán)境不停地升級,算法要不斷優(yōu)化,例如模型壓縮、高性能部署,這些都是一些通用需求。 我們有四個算法領(lǐng)域:疾病預(yù)測、醫(yī)學(xué)影像、輔助診療還有疾病管理,這四個領(lǐng)域的算法工程師都得學(xué)。兩年前,我們就開始從訓(xùn)練環(huán)節(jié)入手,提供一些通用能力,讓算法工程師只聚焦在自己的領(lǐng)域。 把數(shù)據(jù)可視化、數(shù)據(jù)標(biāo)注、數(shù)據(jù)增強,包括分布式加速訓(xùn)練這些通用能力,還有通用算法庫,沉淀在賽飛上,不用管底層環(huán)境的事情。這樣大家都用得很爽,賽飛是一個GPU的集群,有個集群大家就可以共享,有機會用到一個比以前大10倍的GPU的力量。 我們在內(nèi)部使用后,發(fā)現(xiàn)外部客戶也有類似需求,因為有很多算法是不局限于醫(yī)療領(lǐng)域的,例如NLP領(lǐng)域的BERT,CV領(lǐng)域的ResNet,這些網(wǎng)絡(luò)很多領(lǐng)域的人都在用。 因此,我們就開始讓平安的子公司來使用,現(xiàn)在300多個用戶里有一大半都不是做醫(yī)療的,都是平安16個子公司的用戶,在上面做NLP、CV、OCR等各種各樣的建模。所以,賽飛在持續(xù)地增長,更好地服務(wù)集團,從一個純醫(yī)療的平臺變成通用的AI平臺。提問:平安的醫(yī)療AI產(chǎn)品與布局,與BAT或者AI公司有哪些本質(zhì)上的區(qū)別,怎么才能從這個市場中獲得優(yōu)勢?謝國彤:疾病是一個很復(fù)雜的領(lǐng)域,有2萬到3萬種病。就以影像為例,有些聚焦于放射,細(xì)分來看,會分為DR、CT和核磁等。從病種上來看,有些會聚焦眼科,有些會聚焦病理,還會再細(xì)分還會分為宮頸癌病理、乳腺癌病理、胃癌病理等。 所以,我覺得醫(yī)療AI的空間足夠大,沒有任何一家公司能把世界上所有病的所有AI模型都搞定。 其次,大家選擇的切入點不一樣,從我的角度來看,我們更關(guān)注的是那些真正有需求的場景,如何為基層醫(yī)生賦能,如何為??漆t(yī)生減負(fù),不是非要讓基層醫(yī)生看很難的病,或者要比??漆t(yī)生強很多。在我看來,很多場景就是為了技術(shù)而技術(shù)。 三年前,我離開IBM的時候,很多公司找過我,但是我選擇了平安。我覺得,平安的醫(yī)療生態(tài)patient、provider、payment是一個很完整的生態(tài),有一些公司也不是沒有場景,但是領(lǐng)域很窄。AI是由場景業(yè)務(wù)驅(qū)動,而不是技術(shù)驅(qū)動,技術(shù)驅(qū)動是風(fēng)光一時。只有基于真實的業(yè)務(wù)場景,才能真的有價值,有收入。提問:對于醫(yī)療AI的認(rèn)證和落地,您有哪些看法?謝國彤:我們現(xiàn)在跟國家科技部和國家衛(wèi)健委,在進行AI醫(yī)療領(lǐng)域的一個課題——AI的模型驗證評估平臺。我之前跟科技部、衛(wèi)健委表達(dá)了一個觀點,他們也很認(rèn)同,那就是,讓大家都拿到證才能用是不現(xiàn)實的。拿一個證,沒有兩三年是不會有什么結(jié)果的,這個過程中大家都在干等?這是不可能的,要鼓勵大家去嘗試。 嘗試的過程中,各個地方的衛(wèi)健委和醫(yī)院院長、主任都很困惑,每一家企業(yè)來找我都是99%的準(zhǔn)確率。但是,測試的數(shù)據(jù)集都不一樣,只要選好測試集百分之百也可以,就看怎么選。 例如眼科OCT,可能有20種病變,其中有些病變是常見,有些是罕見,但測試集里只包含了其中10種,這10種雖然識別準(zhǔn)確了,但另外10種還沒有識別,怎么就代表模型準(zhǔn)確了呢? 因此,我們現(xiàn)在跟科技部、國家衛(wèi)健委合作的項目,就是由醫(yī)院、衛(wèi)健委、藥監(jiān)局等部門牽頭,針對特定的疾病和特定的任務(wù),提供中立的測試集。把各家的模型拿上來測試,最后拿出一個評估報告。至少讓各家講自己性能指標(biāo)的時候,有一個統(tǒng)一的數(shù)據(jù)集、一個統(tǒng)一、中立的評測標(biāo)準(zhǔn)。 我覺得,國家推動醫(yī)療AI應(yīng)用中做得很好的一個步驟是,先選擇一些常見的、需求量比較大的AI場景,制定相對成熟的數(shù)據(jù)集,從需求比較大病種開始入手,當(dāng)數(shù)據(jù)集越來越多,能評估的模型也越來越多。
-
醫(yī)療
+關(guān)注
關(guān)注
8文章
1824瀏覽量
58812 -
人工智能
+關(guān)注
關(guān)注
1792文章
47387瀏覽量
238900 -
AI算法
+關(guān)注
關(guān)注
0文章
252瀏覽量
12290
原文標(biāo)題:平安首席醫(yī)療科學(xué)家謝國彤:兩大基礎(chǔ)平臺與四大算法領(lǐng)域,詳解金融巨頭的醫(yī)療科技版圖 | CCF-GAIR 2020
文章出處:【微信號:IoT_talk,微信公眾號:醫(yī)健AI掘金志】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論