0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題,商湯最新研究成果登「Nature」子刊

商湯科技SenseTime ? 來源:未知 ? 2023-09-12 18:50 ? 次閱讀
生成式AI正為醫(yī)療大模型迭代按下加速鍵。 近日,商湯科技聯(lián)合行業(yè)合作伙伴,結(jié)合生成式人工智能和醫(yī)療圖像數(shù)據(jù)的多中心聯(lián)邦學(xué)習(xí)發(fā)表的最新研究成果《通過分布式合成學(xué)習(xí)挖掘多中心異構(gòu)醫(yī)療數(shù)據(jù)》(MiningMulti-Center Heterogeneous Medical Data with Distributed Synthetic Learning),登上國際頂級學(xué)術(shù)期刊Nature子刊《自然-通訊》(NatureCommunications)

《自然-通訊》主要發(fā)表自然科學(xué)各個領(lǐng)域的高質(zhì)量研究成果,影響因子16.6。

wKgZomUAQ4aAXHpLAAG9kpKwPaA348.png研究成果提出一個基于分布式合成對抗網(wǎng)絡(luò)的聯(lián)邦學(xué)習(xí)框架DSL(DistributedSynthetic Learning),可利用多中心的多樣性醫(yī)療圖像數(shù)據(jù)來聯(lián)合學(xué)習(xí)圖像數(shù)據(jù)的生成。

該分布式框架通過學(xué)習(xí)得到一個圖像數(shù)據(jù)生成器,可以更靈活地生成數(shù)據(jù),進而可替代多中心的真實數(shù)據(jù),用于下游具體機器學(xué)習(xí)任務(wù)的訓(xùn)練,并具備較強可擴展性。

伴隨大模型快速發(fā)展,Model as a Service(MaaS,模型即服務(wù))正成為一大趨勢。MaaS的大模型需要從海量的、多類型的數(shù)據(jù)中學(xué)習(xí)通用特征和規(guī)則,從而具備較強的泛化能力。

DSL框架能在保護數(shù)據(jù)隱私的同時,巧妙解決醫(yī)療大模型訓(xùn)練中常見的數(shù)據(jù)量不足的瓶頸,有效賦能MaaS的大模型訓(xùn)練。

在這一技術(shù)支撐下,商湯“醫(yī)療大模型工廠”能夠幫助醫(yī)療機構(gòu)更高效、高質(zhì)量地訓(xùn)練針對不同臨床問題的醫(yī)療大模型,使大模型在醫(yī)療領(lǐng)域的應(yīng)用半徑得以延伸。

兼顧隱私保護和數(shù)據(jù)共享

創(chuàng)新聯(lián)邦學(xué)習(xí)模式打造

“數(shù)據(jù)生產(chǎn)工廠”

深度學(xué)習(xí)模型需要大量且多樣性的數(shù)據(jù)“喂養(yǎng)”。

醫(yī)療領(lǐng)域?qū)τ脩綦[私保護有著極高要求,使得模型訓(xùn)練的醫(yī)療數(shù)據(jù)在多樣性和標(biāo)注質(zhì)量上都受到限制,也使多中心的醫(yī)療數(shù)據(jù)收集和醫(yī)療AI模型的開發(fā)迭代面臨較大挑戰(zhàn)。

如何調(diào)和隱私保護和數(shù)據(jù)共享協(xié)作的矛盾?

聯(lián)邦學(xué)習(xí)提供了全新的解題思路。聯(lián)邦學(xué)習(xí)是一種分布式機器學(xué)習(xí)方法, 可以在不共享數(shù)據(jù)的情況下對多中心的數(shù)據(jù)進行聯(lián)合建模,聯(lián)合學(xué)習(xí)某一特定應(yīng)用模型。

與主流的聯(lián)邦學(xué)習(xí)模式不同,DSL框架的學(xué)習(xí)目標(biāo)是數(shù)據(jù)生成器,而非具體應(yīng)用的任務(wù)模型。

該分布式架構(gòu)由一個位于中央服務(wù)器的數(shù)據(jù)生成器和多個位于不同數(shù)據(jù)中心的數(shù)據(jù)鑒別器組成。

在學(xué)習(xí)過程中,中央生成器負責(zé)生成“假”的圖像數(shù)據(jù),并發(fā)送給各個數(shù)據(jù)中心,各個數(shù)據(jù)中心用本地的真實數(shù)據(jù)和“假”數(shù)據(jù)進行對比后將結(jié)果回傳給中央服務(wù)器,并基于反饋結(jié)果訓(xùn)練中央生成器生成更仿真的圖像數(shù)據(jù)。

分布式的合成學(xué)習(xí)結(jié)束后,中央生成器可作為“數(shù)據(jù)生產(chǎn)工廠”,根據(jù)給定的約束條件(標(biāo)注)生成高質(zhì)量仿真圖像數(shù)據(jù),從而得到一個由生成數(shù)據(jù)組成的數(shù)據(jù)庫。

該數(shù)據(jù)庫可替代真實數(shù)據(jù),用于下游具體任務(wù)的學(xué)習(xí),使下游模型的更新迭代不再受到真實數(shù)據(jù)可訪問性制約。同時,該方法通過分布式架構(gòu)和聯(lián)邦學(xué)習(xí)方式保證中央服務(wù)器無需接觸數(shù)據(jù)中心真實數(shù)據(jù)也不需要同步各中心的鑒別器模型,有效保障了數(shù)據(jù)安全和隱私保護。

wKgZomUAQ4eAZkDSAAE1q9E-7O0726.jpg ?DSL框架包含一個中央生成器和多個分布式鑒別器,每個鑒別器位于一個醫(yī)療實體中。經(jīng)過訓(xùn)練的生成器可以作為“數(shù)據(jù)生產(chǎn)工廠”,為下游具體任務(wù)的學(xué)習(xí)構(gòu)建數(shù)據(jù)庫

賦能MaaS新生態(tài)

為醫(yī)療大模型開發(fā)迭代

按下加速鍵

DSL框架已通過多個具體應(yīng)用的驗證。

包括:大腦多序列MRI圖像生成及下游的大腦腫瘤分割任務(wù),心臟CTA圖像生成及下游的全心臟結(jié)構(gòu)分割任務(wù),多種器官的病理圖像生成及細胞核實例分割任務(wù)等。

在可擴展性方面,該方法還可支持多模態(tài)數(shù)據(jù)中缺失模態(tài)數(shù)據(jù)的生成、持續(xù)學(xué)習(xí)等不同場景。

wKgZomUAQ4iAFnoPAAmOOAsN7sg770.png ?不同應(yīng)用中生成數(shù)據(jù)示例:(a) 心臟CTA,(b) 大腦多模態(tài)MRI,(c) 病理圖像;生成的數(shù)據(jù)構(gòu)成大數(shù)據(jù)庫可用于下游具體任務(wù)模型的學(xué)習(xí),例如:(d) 全心分割,(e) 腦腫瘤分割,(f) 細胞核分割

DSL框架的構(gòu)建,也有利于推動MaaS服務(wù)模式發(fā)展。

MaaS的醫(yī)療大模型在數(shù)據(jù)學(xué)習(xí)過程中,同樣會遇到醫(yī)療數(shù)據(jù)隱私安全保護問題。基于DSL框架,可以有效地從多中心多樣性數(shù)據(jù)中建立數(shù)據(jù)集倉庫,通過生成數(shù)據(jù),為大模型的開發(fā)迭代提供創(chuàng)新思路。

細化到具體應(yīng)用場景,DSL框架可助力醫(yī)療機構(gòu)高效開展跨中心、跨地域模型訓(xùn)練工作

不同區(qū)域醫(yī)療機構(gòu)在疾病數(shù)據(jù)多樣性方面存在明顯地域性差異,過去受限于數(shù)據(jù)安全和隱私保護要求,使用跨中心醫(yī)療數(shù)據(jù)聯(lián)合訓(xùn)練醫(yī)療模型難度大。而借助DSL框架,有望幫助醫(yī)療機構(gòu)更加高效便捷地開展跨中心醫(yī)療模型訓(xùn)練。

在2023 WAIC世界人工智能大會上,商湯科技與行業(yè)伙伴合作推出醫(yī)療大語言模型、醫(yī)療影像大模型、生信大模型等多種垂類基礎(chǔ)模型群,覆蓋CT、MRI、超聲、內(nèi)鏡、病理、醫(yī)學(xué)文本、生信數(shù)據(jù)等不同醫(yī)療數(shù)據(jù)模態(tài)。并展示了融入醫(yī)療大模型的升級版“SenseCare智慧醫(yī)院”綜合解決方案,以及多個醫(yī)療大模型落地案例。

借助商湯大裝置的超大算力和醫(yī)療基礎(chǔ)模型群的堅實基礎(chǔ),商湯得以成為“醫(yī)療大模型工廠”,幫助醫(yī)療機構(gòu)針對不同臨床問題高效訓(xùn)練模型,甚至輔助機構(gòu)實現(xiàn)模型自主訓(xùn)練。

wKgZomUAQ4mAH_JMAAKrxGSsCzI520.jpg ?WAIC期間商湯科技展示大模型在醫(yī)療領(lǐng)域的多個落地應(yīng)用案例

隨著DSL框架的推出,醫(yī)療大模型訓(xùn)練將有望突破“數(shù)據(jù)孤島”的桎梏,一定程度上降低醫(yī)療大模型的訓(xùn)練門檻,有助于加速模型開發(fā)迭代,使醫(yī)療大模型的應(yīng)用范圍得以覆蓋更多臨床醫(yī)療問題。

商湯科技將持續(xù)聚焦醫(yī)療機構(gòu)的多樣化需求,推動醫(yī)療大模型在更多醫(yī)療場景落地。 點擊“閱讀原文“查看論文詳情

wKgZomUAQ4qAYHQEAAATzh3tzFA369.gif

相關(guān)閱讀,戳這里

多場景落地!商湯打造“醫(yī)療模型工廠”引領(lǐng)智慧醫(yī)療持續(xù)創(chuàng)新》

《嘉會醫(yī)療與商湯科技達成戰(zhàn)略合作》

wKgZomUAQ4qAT2AyAAC4LKEIjVg879.jpg


原文標(biāo)題:解決醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題,商湯最新研究成果登「Nature」子刊

文章出處:【微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 商湯科技
    +關(guān)注

    關(guān)注

    8

    文章

    515

    瀏覽量

    36117

原文標(biāo)題:解決醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題,商湯最新研究成果登「Nature」子刊

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    商湯醫(yī)療聯(lián)合成立上海公共服務(wù)MaaS訓(xùn)練成果轉(zhuǎn)化聯(lián)盟

    助力構(gòu)建全鏈條大模型訓(xùn)練成果轉(zhuǎn)化體系,打通產(chǎn)學(xué)研醫(yī)合作生態(tài),商湯醫(yī)療再拓“醫(yī)療
    的頭像 發(fā)表于 11-28 10:57 ?348次閱讀

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語言模型(LLM)是一個復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計算資源和專業(yè)知識。以下是訓(xùn)練LLM模型的一般步驟,以及一些關(guān)
    的頭像 發(fā)表于 11-08 09:30 ?667次閱讀

    商湯醫(yī)療與上海臨床創(chuàng)新轉(zhuǎn)化研究院簽署戰(zhàn)略合作協(xié)議

    近日, 商湯醫(yī)療與上海臨床創(chuàng)新轉(zhuǎn)化研究院(以下簡稱“臨轉(zhuǎn)院”)簽署戰(zhàn)略合作協(xié)議 。
    的頭像 發(fā)表于 11-07 14:45 ?423次閱讀

    AI大模型訓(xùn)練數(shù)據(jù)來源分析

    AI大模型訓(xùn)練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)源對于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對AI大模型
    的頭像 發(fā)表于 10-23 15:32 ?859次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練AI大模型之前,需要明確自己的具體需求,比如是進行自然語言處理、圖像識別、推薦系統(tǒng)還是其他任務(wù)。 二、數(shù)據(jù)收集與預(yù)處理 數(shù)據(jù)收集 根據(jù)任務(wù)需求,收集并準(zhǔn)備好足夠的
    的頭像 發(fā)表于 10-23 15:07 ?2307次閱讀

    SynSense時識科技與海南大學(xué)聯(lián)合研究成果發(fā)布

    近日,SynSense時識科技與海南大學(xué)聯(lián)合在影響因子高達7.7的國際知名期刊《Computers in Biology and Medicine》上發(fā)表了最新研究成果,展示了如何用低維信號通用類腦
    的頭像 發(fā)表于 10-23 14:40 ?340次閱讀
    SynSense時識科技與海南大學(xué)聯(lián)合<b class='flag-5'>研究成果</b>發(fā)布

    中移芯昇發(fā)布智能可信城市蜂窩物聯(lián)網(wǎng)基礎(chǔ)設(shè)施研究成果

    8月23日,雄安新區(qū)RISC-V產(chǎn)業(yè)發(fā)展交流促進會順利召開,芯昇科技有限公司(以下簡稱“中移芯昇”)總經(jīng)理肖青發(fā)布智能可信城市蜂窩物聯(lián)網(wǎng)基礎(chǔ)設(shè)施研究成果,為雄安新區(qū)建設(shè)新型智慧城市賦能增效。該成果
    的頭像 發(fā)表于 08-31 08:03 ?663次閱讀
    中移芯昇發(fā)布智能可信城市蜂窩物聯(lián)網(wǎng)基礎(chǔ)設(shè)施<b class='flag-5'>研究成果</b>

    谷歌發(fā)布革命性AI天氣預(yù)測模型NeuralGCM

    在科技與自然科學(xué)的交匯點上,谷歌公司于7月23日宣布了一項重大突破——全新的人工智能天氣預(yù)測模型NeuralGCM。這一創(chuàng)新成果不僅融合了機器學(xué)習(xí)的前沿技術(shù),還巧妙結(jié)合了傳統(tǒng)氣象學(xué)的精髓,其研究成果已在國際權(quán)威科學(xué)期刊《
    的頭像 發(fā)表于 07-23 14:24 ?532次閱讀

    大語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?477次閱讀

    llm模型訓(xùn)練一般用什么系統(tǒng)

    LLM(Large Language Model,大型語言模型)是近年來在自然語言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計算資源和數(shù)據(jù)來進行
    的頭像 發(fā)表于 07-09 10:02 ?454次閱讀

    人臉識別模型訓(xùn)練流程

    人臉識別模型訓(xùn)練流程是計算機視覺領(lǐng)域中的一項重要技術(shù)。本文將詳細介紹人臉識別模型訓(xùn)練流程,包括數(shù)據(jù)準(zhǔn)備、
    的頭像 發(fā)表于 07-04 09:19 ?1044次閱讀

    人臉識別模型訓(xùn)練失敗原因有哪些

    人臉識別模型訓(xùn)練失敗的原因有很多,以下是一些常見的原因及其解決方案: 數(shù)據(jù)集質(zhì)量問題 數(shù)據(jù)集是訓(xùn)練人臉識別
    的頭像 發(fā)表于 07-04 09:17 ?680次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一個深度學(xué)習(xí)模型,本質(zhì)上是通過優(yōu)化算法調(diào)整
    的頭像 發(fā)表于 07-01 16:13 ?1399次閱讀

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    大語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對預(yù)訓(xùn)練數(shù)據(jù)的需求也相
    發(fā)表于 05-07 17:10

    一種基于AlGaAs/GaAs漸變帶隙pn結(jié)探測器的單像素智能微型光譜儀

    近日,Nature Nature Communications》(IF=16.6)以“Single-pixel p-graded-n junction spectrometers
    的頭像 發(fā)表于 03-06 09:32 ?603次閱讀
    一種基于AlGaAs/GaAs漸變帶隙pn結(jié)探測器的單像素智能微型光譜儀