0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

通過RAPIDS加速單細胞DNA和RNA基因組分析

星星科技指導員 ? 來源:NVIDIA ? 作者:Avantika Lal ? 2022-04-27 16:14 ? 次閱讀

人體由近 40 萬億個細胞組成,有許多不同類型。實驗生物學的最新進展使探索單個細胞的遺傳物質成為可能。隨著單細胞基因組學這一新領域的誕生,科學家們現(xiàn)在可以探測人體內單個細胞的 DNA 和 RNA 。

單細胞基因組分析已經(jīng)確定了人體內的新型細胞,發(fā)現(xiàn)了是什么使這些細胞彼此不同,以及不同類型的細胞如何對疾病或藥物作出反應。單細胞基因組學也被證明是當前 COVID-19 大流行的關鍵,它可以識別易受感染的細胞并揭示感染患者免疫系統(tǒng)的變化。

pYYBAGJo-1qAVx_-AAEaQhZ8kUc974.png

圖 1 。單細胞 RNA 測序實驗的工作流程。分離單個細胞并測量每個細胞的基因活性。具有相似基因活性的細胞聚集在一起以識別群體中的各種類型的細胞。

隨著最近的實驗對數(shù)百萬個細胞進行測序,單細胞數(shù)據(jù)的可用性和數(shù)據(jù)集的大小也在不斷增加。這種分析通常是探索性的,并從互動中得到進一步的好處——在更精細的尺度上識別不同類型的細胞,比較細胞類型并可視化它們之間的關系。當前的工作流仍然非常緩慢,這使得它們對于研究所需的交互分析來說是不可能的。

RAPIDS :用 GPUs 加速數(shù)據(jù)科學

RAPIDS 是一套開源庫,通過 GPU 加速的力量,可以加速端到端的數(shù)據(jù)科學工作流程。 RAPIDS 使得使用類似于 NumPy 、 pandas 和 scikit learn 的 Python api 對大型數(shù)據(jù)集執(zhí)行交互式數(shù)據(jù)分析成為可能。

考慮執(zhí)行單單元分析的典型工作流。這從一個矩陣開始,這個矩陣映射每個細胞中遇到的每個基因的數(shù)量。對數(shù)據(jù)進行預處理,濾除噪聲,然后對數(shù)據(jù)進行歸一化處理,得到每個細胞中每個人類基因的活性。在這一步中,機器學習也常用于糾正數(shù)據(jù)收集中的工件。接下來,在聚類和可視化之前執(zhí)行維數(shù)縮減,以識別具有相似遺傳活動的細胞簇。最后,你比較這些細胞群的遺傳活動,以了解為什么不同類型的細胞表現(xiàn)和反應不同。

poYBAGJo-2CAauOPAACZpci4Dm0534.png

圖 2 :顯示單細胞 RNA 測序數(shù)據(jù)分析步驟的管道。從每個細胞的基因活性矩陣開始, RAPIDS 庫可以用于進行數(shù)據(jù)處理、降維、聚類和可視化,并在不同的簇間發(fā)現(xiàn)不同活性的差異基因。

我們在 clara-parabricks/rapids-single-cell-examples GitHub repo 中發(fā)布了這個精確工作流的 GPU – 加速版本。 repo 包含一個示例 notebook ,它使用 RAPIDS 和 Scanpy 分析 70000 個人體肺細胞的數(shù)據(jù)集,以識別對 COVID-19 敏感的細胞。 Scanpy 是一個用于分析單細胞基因表達數(shù)據(jù)的工具包,提供了使用 RAPIDS 加速特定命令的選項。我們在回購中也有一個筆記本的 CPU 版本 以供比較。

例如,運行 UMAP 以使用 RAPIDS 可視化近 70000 個單元格需要以下命令:

sc.tl.umap(adata, min_dist=umap_min_dist, spread=umap_spread, method='rapids')

umap-visualization-625x298.png

圖 3 。由 RAPIDS 創(chuàng)建的人肺樣本中約 70000 個細胞的 UMAP 可視化。細胞被洛文聚類標記。

使用 RAPIDS 生成這個 UMAP 可視化需要 1 秒,而在 CPU 上則需要 80 秒。事實上, RAPIDS 可以加速整個單單元分析工作流程,甚至可以在大型數(shù)據(jù)集上進行交互式探索性數(shù)據(jù)分析。

在 11 分鐘內分析一百萬個細胞

我們將我們的 RAPIDS 分析工作流程應用于現(xiàn)有最大的單細胞數(shù)據(jù)集之一, 100 萬個小鼠腦細胞通過 10 倍基因組學測序。有關詳細信息,請參閱 1M_brain_gpu_analysis_uvm.ipynb Jupyter 筆記本。

有了如此大的數(shù)據(jù)量,對 CPU 的分析變得不切實際地慢了下來;我們的端到端工作流在 awsm5a CPU 實例上運行了 3 個多小時。這使得交互式分析幾乎不可能。另一方面,我們在這個更大的數(shù)據(jù)集上觀察到了更高的 GPU 加速,并且能夠在一個 GPU 上分析整個數(shù)據(jù)集。在 AWS 上運行 RAPIDS 分析也比 CPU 版本便宜 3 倍!

用于交互式單細胞分析的 GPU 功能單元瀏覽器

如前所述, RAPIDS 的數(shù)據(jù)分析速度使研究人員能夠實時交互式地分析數(shù)據(jù)。我們開發(fā)了一個在 Jupyter 筆記本 中運行的、支持 GPU 的交互式小區(qū)瀏覽器,使這一過程更加簡單。在這個單元格瀏覽器中,您可以可視化數(shù)據(jù)集中的所有單元格,并通過點擊方法對數(shù)據(jù)執(zhí)行聚類分析。使用 RAPIDS ,這些步驟可以實時運行。

在這篇文章中,我將向您展示如何輕松地選擇一組細胞,并執(zhí)行 UMAP 和 Louvain 聚類來識別這種細胞類型中的子種群。

圖 4 通過在交互式單元格瀏覽器中使用 RAPIDS 指向并單擊實時重新聚類選定的單元格組。

結論

在這篇文章中,您看到了使用 RAPIDS 加速 GPUs 上的單細胞基因組分析是多么容易。使用 RAPIDS ,可以方便地實時交互地探索數(shù)據(jù),對不同尺度的單元進行聚類,以及對具有不同參數(shù)的大型數(shù)據(jù)集進行重新分析。所有這些都有助于更快的科學發(fā)現(xiàn)。

除了涵蓋的 API 之外, RAPIDS 還有一個大型的其他算法庫,您會發(fā)現(xiàn)這些算法在您的工作中很有用。

關于作者

Avantika Lal 是 NVIDIA 基因組學團隊的資深科學家。她開發(fā)了使用 GPUs 和深入學習來加速和改進人類基因組分析的工具。在 NVIDIA 之前,她是斯坦福大學遺傳學和病理學系的博士后研究員。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10896

    瀏覽量

    212520
  • 數(shù)據(jù)集

    關注

    4

    文章

    1209

    瀏覽量

    24767
收藏 人收藏

    評論

    相關推薦

    NVIDIA 攜手行業(yè)領先機構推動基因組學、藥物發(fā)現(xiàn)及醫(yī)療健康行業(yè)發(fā)展

    ——NVIDIA 今日宣布新的合作伙伴關系,旨在通過加速藥物發(fā)現(xiàn)、提升基因組研究,以及利用代理式和生成式 AI 開創(chuàng)先進醫(yī)療服務,推動規(guī)模達 10 萬億美元的醫(yī)療健康與生命科學產(chǎn)業(yè)的變革。 ? AI、
    發(fā)表于 01-14 13:39 ?86次閱讀
    NVIDIA 攜手行業(yè)領先機構推動<b class='flag-5'>基因組</b>學、藥物發(fā)現(xiàn)及醫(yī)療健康行業(yè)發(fā)展

    RAPIDS cuDF將pandas提速近150倍

    在 NVIDIA GTC 2024 上,NVIDIA 宣布,RAPIDS cuDF 當前已能夠為 950 萬 pandas 用戶帶來 GPU 加速,且無需修改代碼。
    的頭像 發(fā)表于 11-20 09:52 ?253次閱讀
    <b class='flag-5'>RAPIDS</b> cuDF將pandas提速近150倍

    NVIDIA AI助力日本制藥公司推進藥物研發(fā)

    制藥公司、醫(yī)療技術公司和學術研究人員正在開發(fā)主權 AI 能力,以驅動藥物發(fā)現(xiàn)、加速基因組學和醫(yī)療設備。
    的頭像 發(fā)表于 11-19 15:40 ?342次閱讀

    NVIDIA加速計算技術助力癌癥研究

    總部位于英國的維康桑格研究所的 DNA 測序實驗室每年分析數(shù)以萬計的基因組,為癌癥的形成和治療效果提供洞察。
    的頭像 發(fā)表于 10-29 15:01 ?305次閱讀

    NVIDIA Parabricks v4.3.1版本的新功能

    NVIDIA Parabricks 擴大了 NVIDIA 利用深度學習解決基因組學挑戰(zhàn)的范圍,持續(xù)推動基因組學儀器的發(fā)展。NVIDIA Parabricks v4.3.1 在歐洲人類遺傳學
    的頭像 發(fā)表于 09-10 10:22 ?417次閱讀
    NVIDIA Parabricks v4.3.1版本的新功能

    熒光檢測器適用范圍有哪些

    、材料科學等多個方面。 一、生物分子檢測 核酸檢測 熒光檢測器在核酸檢測中具有重要應用,如DNA測序、基因表達分析、基因突變檢測等。熒光標記的核酸探針與目標核酸序列結合后,
    的頭像 發(fā)表于 08-08 10:35 ?1347次閱讀

    寬帶功率放大器基于微流控技術的細胞分選的應用

    實驗名稱:基于微流控技術的細胞分選和單細胞分析用于腫瘤藥物敏感性研究研究方向:生物醫(yī)療實驗原理:構建了一個集成的微流控芯片用于全血中循環(huán)腫瘤細胞(CTCs)的快速分選和計數(shù)。該芯片首先
    的頭像 發(fā)表于 08-06 14:37 ?1940次閱讀
    寬帶功率放大器基于微流控技術的<b class='flag-5'>細胞</b>分選的應用

    液滴微流控技術在癌癥研究中的應用:從單細胞分析到3D細胞培養(yǎng)

    癌癥具有難發(fā)現(xiàn)、治愈率低和愈后差等特點,已經(jīng)成為全球第二大死亡原因。由癌細胞異質性引起的耐藥性和治療差異是癌癥治療效果不佳的主要原因。
    的頭像 發(fā)表于 05-19 17:36 ?2188次閱讀
    液滴微流控技術在癌癥研究中的應用:從<b class='flag-5'>單細胞</b><b class='flag-5'>分析</b>到3D<b class='flag-5'>細胞</b>培養(yǎng)

    基于熵驅動鏈置換策略的高靈敏mRNA檢測與細胞內成像研究

    信使RNA(Messenger RNA,mRNA)是一類由DNA作為模版轉錄而來的攜帶有遺傳信息的單鏈核糖核酸,作用是指導蛋白質的合成。
    的頭像 發(fā)表于 05-08 09:08 ?633次閱讀
    基于熵驅動鏈置換策略的高靈敏mRNA檢測與<b class='flag-5'>細胞</b>內成像研究

    一種用于微液滴中單細胞無標記分析的液滴篩選(LSDS)方法

    基于液滴的單細胞分析是一種非常強大的工具,可用于以單細胞分辨率研究表型和基因組異質性,從而解決各種生物問題。
    的頭像 發(fā)表于 03-26 11:17 ?600次閱讀
    一種用于微液滴中<b class='flag-5'>單細胞</b>無標記<b class='flag-5'>分析</b>的液滴篩選(LSDS)方法

    集成片上樣品富集模塊的液滴微流控器件,用于單細胞的高效率封裝

    傳統(tǒng)的生物醫(yī)學研究主要依靠對細胞群的分析,這種分析方法只能簡單地分析細胞集合的平均特性,而無法捕捉細胞
    的頭像 發(fā)表于 03-12 15:30 ?919次閱讀
    集成片上樣品富集模塊的液滴微流控器件,用于<b class='flag-5'>單細胞</b>的高效率封裝

    基于啟揚 i.MX8M Mini核心板的全自動細胞分析儀應用解決方案

    全自動細胞分析儀是醫(yī)院臨床檢驗應用非常廣泛的儀器之一,用來檢測紅細胞、血紅蛋白、白細胞、血小板等項目。基于光學原理和圖像分析技術,
    的頭像 發(fā)表于 03-09 08:00 ?378次閱讀
    基于啟揚 i.MX8M Mini核心板的全自動<b class='flag-5'>細胞</b><b class='flag-5'>分析</b>儀應用解決方案

    基于雙極性電極陣列的微流控芯片,可實現(xiàn)細胞可控、非接觸三維旋轉

    細胞的精確旋轉在單細胞分析、藥物發(fā)現(xiàn)和生物體分析等多個領域都具有重要意義。通過細胞的三維旋轉,將有助于發(fā)現(xiàn)隱藏的遺傳和結構細節(jié),在顯微手術、
    的頭像 發(fā)表于 03-07 10:53 ?1461次閱讀
    基于雙極性電極陣列的微流控芯片,可實現(xiàn)<b class='flag-5'>細胞</b>可控、非接觸三維旋轉

    高通量測序技術及原理介紹

    高通量測序技術是生物學領域中一種重要的分析工具,它可以快速、準確地測定DNA序列或RNA序列。高通量測序技術的出現(xiàn),極大地促進了基因組學、轉錄組學以及生物信息學等領域的發(fā)展。本文將從高
    的頭像 發(fā)表于 02-03 14:46 ?1.3w次閱讀

    深度學習破解DNA數(shù)據(jù)復制難題

    RNA轉錄中,知道何時停止是至關重要的。編碼成RNA的信息在整個細胞中用于合成蛋白質和調節(jié)廣泛的代謝過程。要想將正確的信息傳遞給預期的目標,需要這些RNA鏈盡可能多地表達——僅此而已
    的頭像 發(fā)表于 01-25 16:35 ?753次閱讀