0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

斯坦福攜手MIT發(fā)布巨大量級(jí)X光胸片數(shù)據(jù)集

電子工程師 ? 來源:cc ? 2019-01-28 17:47 ? 次閱讀

今天,吳恩達(dá)發(fā)推公布了斯坦福發(fā)布的兩個(gè)大型的醫(yī)療數(shù)據(jù)集公開:CheXpert和MIMIC-CXR。其中,CheXpert內(nèi)含224316X光胸部圖片,MIMIC-CXR內(nèi)含371,920張帶標(biāo)簽的圖片。兩個(gè)數(shù)據(jù)集的數(shù)據(jù)量級(jí)和標(biāo)注精準(zhǔn)度都非常高,可以說是造福了一大批相關(guān)從業(yè)者了。

數(shù)據(jù)集下載方式

先給出數(shù)據(jù)集介紹的地址和下載方式。

https://stanfordmlgroup.github.io/competitions/chexpert/

因?yàn)槭轻t(yī)學(xué)數(shù)據(jù)集,斯坦福采取了相對(duì)謹(jǐn)慎的態(tài)度。根據(jù)說明,用戶需要遵守下載規(guī)則,填寫資料然后通過電子郵件給出的鏈接進(jìn)行下載。為了保持?jǐn)?shù)據(jù)集的完整性以及有效性,嚴(yán)禁進(jìn)行“濫用”分享。

數(shù)據(jù)集概況

CheXpert數(shù)據(jù)集里面有224316張胸部X光圖片,共涉及65,240名患者。數(shù)據(jù)集的時(shí)間跨度為2002年10月到2017年7月,都是患者在斯坦福醫(yī)院進(jìn)行胸部X光檢查之后的留存。除此之外,數(shù)據(jù)集還附有相關(guān)的放射學(xué)報(bào)告。

如何為CheXpert數(shù)據(jù)集打標(biāo)簽

每份報(bào)告都對(duì)14項(xiàng)觀察進(jìn)行標(biāo)記,標(biāo)記可能是陽性,陰性或不確定性。

14項(xiàng)觀察是根據(jù)報(bào)告中的流行程度和臨床相關(guān)性確定的,并在適用的情況下符合Fleischner Society推薦的術(shù)語表。

此外,還開發(fā)了一種基于規(guī)則的自動(dòng)貼標(biāo)機(jī),用于從放射學(xué)報(bào)告中提取觀察結(jié)果,用作圖像的結(jié)構(gòu)化標(biāo)簽。貼標(biāo)機(jī)工作分為三個(gè)不同的階段:提及提取,提及分類和提及聚合。

自動(dòng)貼標(biāo)機(jī)github地址:

https://github.com/stanfordmlgroup/chexpert-labeler

在提及提取階段,貼標(biāo)機(jī)從放射學(xué)報(bào)告的“印象”部分的觀察列表中提取提及,這一部分總結(jié)了放射研究中的關(guān)鍵發(fā)現(xiàn)。在提及分類,則是用每一個(gè)提及來分類,把觀察到的歸類為陰性的,不確定的或陽性的。在提到聚合階段,使用每次提及觀察的分類,就會(huì)得到14個(gè)觀察的最終標(biāo)簽。

基準(zhǔn)模型

基準(zhǔn)模型采用以單視角胸片作為輸入,并輸出14次觀測(cè)中每一次的概率。當(dāng)多個(gè)視圖可用的時(shí)候,模型給出最大概率。

利用不確定性標(biāo)簽

數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)集的標(biāo)簽分別為0、1或u。其中,0表示負(fù),1表示正,u表示不確定。在模型訓(xùn)練中,使用了不確定性標(biāo)簽的不同方法。

U-Ignore:在訓(xùn)練期間忽略了不確定的標(biāo)簽。

U-Zeroes:將不確定標(biāo)簽的所有實(shí)例映射到0。

U-Ones:將不確定標(biāo)簽的所有實(shí)例映射到1。

U-SelfTrained:首先使用U-Ignore方法訓(xùn)練模型進(jìn)行收斂,然后使用該模型進(jìn)行預(yù)測(cè),利用模型輸出的概率預(yù)測(cè)重新標(biāo)記每個(gè)不確定性標(biāo)簽。

U-MultiClass:將不確定性標(biāo)簽視為自己的類別。

專注于評(píng)估5項(xiàng)觀察,進(jìn)行“競(jìng)爭(zhēng)任務(wù)”,根據(jù)臨床經(jīng)驗(yàn)和患病率分為:(a)肺不張,(b)心臟擴(kuò)大,(c)肺實(shí)變,(d)水腫(e)胸腔積液。通過比較了不同不確定性方法在200個(gè)研究的驗(yàn)證集上的表現(xiàn),其中三個(gè)放射科醫(yī)師的注釋作為基礎(chǔ)事實(shí)?;鶞?zhǔn)模型根據(jù)驗(yàn)證集上每個(gè)競(jìng)賽任務(wù)的最佳表現(xiàn)方法選擇的:U- Ones用于肺不張和水腫,U-MultiClass用于心臟擴(kuò)大和胸腔積液,U-SelfTrained用于肺實(shí)變。

測(cè)試集如何設(shè)計(jì)

CheXpert中的測(cè)試集由來自500“未知”患者的500張X光胸片組成。八名權(quán)威認(rèn)證的放射科醫(yī)師分別對(duì)測(cè)試集中的每張圖片進(jìn)行了注釋。他們將每張圖片標(biāo)記為:現(xiàn)存(present)、不確定(uncertain likely)、不可能(uncertain unlikely)和缺失(absent)。

然后將標(biāo)簽二值化,將現(xiàn)存和不確定病例視為陽性,而缺失和不可能病例視為陰性。根據(jù)5位專家的投票確定圖片標(biāo)簽,然后用剩下的三位專家檢驗(yàn)五位專家的表現(xiàn)。

基準(zhǔn)模型在測(cè)試集上表現(xiàn)如何

該模型在胸腔積液(0.97)上達(dá)到最佳AUC,在肺不張(0.85)上達(dá)到最差。所有其他觀測(cè)的AUC至少為0.9。在心臟擴(kuò)大,水腫和胸腔積液上,該模型比所有3位放射科醫(yī)師獲得更高的表現(xiàn),但卻不是他們的多數(shù)投票。在肺實(shí)變方面,模型性能超過3位放射科醫(yī)師中的2位,而在Atelectasis上,所有3位放射科醫(yī)師的表現(xiàn)均優(yōu)于模型。

與麻省理工學(xué)院的聯(lián)合發(fā)布MIMIC-CXR數(shù)據(jù)集

此外還有和MIMIC-CXR共同發(fā)布包含371,920張胸部X射線圖片的大型數(shù)據(jù)集。該數(shù)據(jù)集的時(shí)間跨度為2011年~2016年。這些數(shù)據(jù)與Beth Israel Deaconess醫(yī)療中心的227,943個(gè)影像學(xué)研究相關(guān)。每個(gè)成像研究可能包含一個(gè)或多個(gè)圖像,但一般是兩個(gè)圖像:正面視圖和側(cè)視圖。

相關(guān)論文下載地址:https://arxiv.org/pdf/1901.07042.pdf

圖像提供有14個(gè)標(biāo)簽,這些標(biāo)簽來自放射學(xué)報(bào)告的自然語言處理工具。CheXpert數(shù)據(jù)集和MIMIC-CXR共享一個(gè)共同的貼標(biāo)機(jī),CheXpert貼標(biāo)機(jī),用于從放射學(xué)報(bào)告中獲取相同的標(biāo)簽集。

最后展望

阻礙胸部X光片解釋模型發(fā)展之一是,缺乏具有強(qiáng)放射學(xué)家注釋的地面真實(shí)性和專家評(píng)分的數(shù)據(jù)集。研究人員可以根據(jù)這些數(shù)據(jù)對(duì)其模型進(jìn)行比較。希望CheXpert將填平這一溝谷,以便在臨床重要任務(wù)中隨時(shí)跟蹤模型的進(jìn)展。

此外,吳恩達(dá)團(tuán)隊(duì)本次開發(fā)并開源了CheXpert貼標(biāo)機(jī),這是一種基于規(guī)則的自動(dòng)貼標(biāo)機(jī),用于從自由文本放射學(xué)報(bào)告中提取觀察結(jié)果,用作圖像的結(jié)構(gòu)化標(biāo)簽。我們希望這可以幫助其他機(jī)構(gòu)輕松地從報(bào)告中提取結(jié)構(gòu)化標(biāo)簽,并發(fā)布其他大型數(shù)據(jù)庫(kù),以便對(duì)醫(yī)學(xué)成像模型進(jìn)行跨機(jī)構(gòu)測(cè)試。

最后,斯坦福也作出展望,希望該數(shù)據(jù)集能夠幫助開發(fā)和驗(yàn)證胸部X光片解釋模型,以改善全球醫(yī)療服務(wù)的獲取和交付。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    253

    瀏覽量

    23417
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24737

原文標(biāo)題:斯坦福聯(lián)合MIT,發(fā)布兩類巨大量級(jí)X光胸片數(shù)據(jù)集

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    上能電氣助力巴基斯坦綠色發(fā)展

    近日,上能電氣在巴基斯坦拉合爾成功舉辦交流晚宴。超過260位來自行業(yè)內(nèi)的專業(yè)人士和思想領(lǐng)袖出席本次活動(dòng),共同探討巴基斯坦伏市場(chǎng)發(fā)展趨勢(shì)及其蘊(yùn)藏的巨大增長(zhǎng)機(jī)遇。
    的頭像 發(fā)表于 12-18 14:36 ?211次閱讀

    斯坦福STANFORD FS725銣鐘

    斯坦福STANFORD FS725銣鐘 SRS斯坦福FS725 10MHzRb頻率標(biāo)準(zhǔn) ? SRS斯坦福FS72510MHzRb頻率標(biāo)準(zhǔn)FS725成了一個(gè)銣振蕩器(SRS模型PRS1
    的頭像 發(fā)表于 12-13 15:22 ?97次閱讀

    斯坦福研究:電動(dòng)汽車電池實(shí)際壽命比預(yù)估長(zhǎng)得多

    。 這項(xiàng)研究是由斯坦福大學(xué)的普考特能源研究所與美國(guó)SLAC國(guó)家加速器實(shí)驗(yàn)室共同成立的SLAC-斯坦福電池研究中心的科學(xué)家們完成的。經(jīng)過超過兩年的時(shí)間,他們對(duì)92種商用鋰離子電池進(jìn)行了詳盡的充放電測(cè)試。 結(jié)果顯示,當(dāng)放電模式模擬真
    的頭像 發(fā)表于 12-11 17:24 ?287次閱讀

    STANFORD斯坦福SR830 鎖相放大器

    原裝STANFORD斯坦福SR830 鎖相放大器 鎖相放大器是一種對(duì)交變信號(hào)進(jìn)行相敏檢波的放大器。鎖相放大器利用和被測(cè)信號(hào)有相同頻率和相位關(guān)系的參考信號(hào)作為比較基準(zhǔn),只對(duì)被測(cè)信號(hào)本身和那些與參考信號(hào)
    的頭像 發(fā)表于 11-23 16:38 ?177次閱讀

    國(guó)產(chǎn)儀器崛起:斯坦福替代方案來了!

    眾所周知,斯坦福的東西一直以來,好用,貴,貨期長(zhǎng)動(dòng)輒幾個(gè)月,很苦惱 今天,他來了,他的替代來了 首先是最經(jīng)典的型號(hào)斯坦福SR830,它的頻率可以達(dá)到102.4 kHz ,18位的ADC,采樣率可以
    的頭像 發(fā)表于 07-10 17:05 ?389次閱讀
    國(guó)產(chǎn)儀器崛起:<b class='flag-5'>斯坦福</b>替代方案來了!

    斯坦福團(tuán)隊(duì)抄襲國(guó)產(chǎn)大模型,主要責(zé)任人失聯(lián)

    的廣泛關(guān)注,也讓大家對(duì)于開源大模型的規(guī)范使用更加擔(dān)憂。 斯坦福Llama3V模型被證實(shí)抄襲 5月29日,斯坦福大學(xué)的一個(gè)AI團(tuán)隊(duì)在Github等平臺(tái)發(fā)布了一款大模型,名為L(zhǎng)lama3V,該模型的亮點(diǎn)是據(jù)稱
    的頭像 發(fā)表于 06-05 00:10 ?2608次閱讀

    斯坦福大學(xué)研發(fā)全新AI輔助全息成像技術(shù)

    據(jù)最新消息,斯坦福大學(xué)的研究人員成功研制出全新AI輔助全息成像技術(shù),其薄度、重量及質(zhì)量均超過了當(dāng)前方案,有望推動(dòng)增強(qiáng)現(xiàn)實(shí)(AR)眼鏡領(lǐng)域的發(fā)展。
    的頭像 發(fā)表于 05-10 14:48 ?596次閱讀

    斯坦福發(fā)布《2024 AI指數(shù)報(bào)告》

    近日,斯坦福大學(xué)以人為本人工智能研究所(StanfordHAI)發(fā)布了《2024年人工智能指數(shù)報(bào)告》(ArtificialIntelligenceIndexReport2024)。據(jù)
    的頭像 發(fā)表于 04-18 08:28 ?791次閱讀
    <b class='flag-5'>斯坦福</b><b class='flag-5'>發(fā)布</b>《2024 AI指數(shù)報(bào)告》

    斯坦福、伯克利大神教授創(chuàng)業(yè)給機(jī)器人造大腦,OpenAI紅杉搶著投5億

    還記得曾火遍全網(wǎng)的ALOHA家務(wù)機(jī)器人嗎?最近該項(xiàng)目導(dǎo)師,斯坦福計(jì)算機(jī)科學(xué)與電氣工程系教授ChelseaFinn在X宣布,正式與其他幾位伯克利大牛學(xué)者、谷歌DeepMind科學(xué)家共同創(chuàng)業(yè),全力為
    的頭像 發(fā)表于 04-14 08:04 ?135次閱讀
    <b class='flag-5'>斯坦福</b>、伯克利大神教授創(chuàng)業(yè)給機(jī)器人造大腦,OpenAI紅杉搶著投5億

    廣和通發(fā)布基于高通高算力芯片的具身智能機(jī)器人開發(fā)平臺(tái)Fibot

    3月29日,為助力機(jī)器人廠商客戶快速?gòu)?fù)現(xiàn)及驗(yàn)證斯坦福Mobile ALOHA機(jī)器人的相關(guān)算法,廣和通發(fā)布具身智能機(jī)器人開發(fā)平臺(tái)Fibot。
    的頭像 發(fā)表于 03-29 11:16 ?718次閱讀

    廣和通發(fā)布具身智能機(jī)器人開發(fā)平臺(tái)Fibot

    為幫助機(jī)器人制造商更高效地復(fù)現(xiàn)和驗(yàn)證斯坦福Mobile ALOHA機(jī)器人的先進(jìn)算法,廣和通公司近日發(fā)布了全新的具身智能機(jī)器人開發(fā)平臺(tái)——Fibot。這款平臺(tái)被視為國(guó)內(nèi)首款Mobile ALOHA機(jī)器人的升級(jí)版,它在設(shè)計(jì)和功能上均實(shí)現(xiàn)了顯著的提升。
    的頭像 發(fā)表于 03-29 09:29 ?804次閱讀

    SRS斯坦福850~鎖相放大器維修

    放大器示波器儀器儀表
    安泰儀器維修
    發(fā)布于 :2024年03月25日 10:40:48

    英偉達(dá)CEO黃仁勛建議應(yīng)屆畢業(yè)生降低期望

    確實(shí),像斯坦福這類精英學(xué)校的學(xué)生,他們對(duì)未來的期待可能高于一般的應(yīng)屆畢業(yè)生。根據(jù)QS世界大學(xué)排名,斯坦福是美國(guó)第三好的大學(xué),學(xué)生需要支付昂貴的學(xué)費(fèi)——每年62484美元,而全美的平均學(xué)費(fèi)僅為26027美元。
    的頭像 發(fā)表于 03-14 16:22 ?732次閱讀

    斯坦福繼Flash Attention V1和V2又推出Flash Decoding

    斯坦福大學(xué)此前提出的FlashAttention算法,能夠在BERT-large訓(xùn)練中節(jié)省15%,將GPT訓(xùn)練速度提高2/3。
    的頭像 發(fā)表于 03-13 15:23 ?785次閱讀

    英偉達(dá)CEO黃仁勛:競(jìng)爭(zhēng)對(duì)手的芯片免費(fèi)也難以比肩英偉達(dá)GPU

    根據(jù)斯坦福經(jīng)濟(jì)政策研究所在會(huì)上發(fā)布的視頻,美國(guó)斯坦福大學(xué)Charles R. Schwab榮譽(yù)經(jīng)濟(jì)學(xué)教授John Shoven向黃仁勛提問: “貴公司是否能造出最尖端的芯片?
    的頭像 發(fā)表于 03-11 10:08 ?671次閱讀