0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌推出開源工具DeepVariant,用深度神經(jīng)網(wǎng)絡(luò)識(shí)別基因變異

人工智能和機(jī)器人研究院 ? 2017-12-07 15:05 ? 次閱讀

Google今天推出了一個(gè)名叫DeepVariant的開源工具,用深度神經(jīng)網(wǎng)絡(luò)來從DNA測序數(shù)據(jù)中快速精確識(shí)別堿基變異位點(diǎn)。

學(xué)科研究的革命性進(jìn)展,特別是基因?qū)W上,需要依賴于新技術(shù)的出現(xiàn)。比如桑格發(fā)明了測序法之后,才實(shí)現(xiàn)了人類基因組的測序。

再比如DNA(微陣列)芯片技術(shù)的誕生,使得大規(guī)模的基因測序成為可能。這些技術(shù)讓我們能夠獲得大量遺傳信息,可以更廣泛地應(yīng)用于健康、農(nóng)業(yè)和生態(tài)上。

基因測序領(lǐng)域里,最革命性的技術(shù)當(dāng)屬2000年初首次商用的高通量測序(縮寫為HTS)了。HTS可以大規(guī)模、低成本、快速地獲得任何生物的基因序列。

不過,HTS有個(gè)致命的問題在于,測序出來的結(jié)果不是完整的,而是碎片化的片段信息。

比如測的是人的基因序列的話(也就是說,信息量級(jí)為23對(duì)染色體上的30億對(duì)堿基排序),那么得到的測序結(jié)果是不到10億個(gè)短序列片段,一般每個(gè)短序列片段我們稱為讀取單位(reads)。

每個(gè)讀取單位含有100個(gè)堿基對(duì)(不同讀取單位的信息需要重疊,才能最后拼全),而每個(gè)堿基的錯(cuò)誤率范圍是0.1%到10%。所以,一直以來,對(duì)于HTS來說,最大的挑戰(zhàn)是把碎片化的結(jié)果信息拼成一整段完整的序列信息。

瓶中基因組聯(lián)盟Genome in a Bottle Consortium(GIAB),和精準(zhǔn)FDA平臺(tái)(美國藥監(jiān)局做的基因組信息學(xué)社區(qū)和共享數(shù)據(jù)平臺(tái))一樣,致力于提高基于HTS基因測序結(jié)果。他們能提供高精度的人體基準(zhǔn)基因組序列信息。

把測序結(jié)果與基準(zhǔn)基因序列一比對(duì),就可以得到很多個(gè)堿基變異位點(diǎn)(就是上圖打星的地方),這些位點(diǎn),可能是SNP單核苷酸多態(tài)性導(dǎo)致的,也可能是測序過程中復(fù)制出錯(cuò)造成的。

今天,Google Brain團(tuán)隊(duì),聯(lián)合同屬于Alphabet旗下的生命科學(xué)兄弟公司Verily,用了兩年多時(shí)間,研發(fā)出了一個(gè)名叫DeepVariant的開源工具,專門用深度神經(jīng)網(wǎng)絡(luò)來識(shí)別HTS結(jié)果中DNA測序數(shù)據(jù)里這些堿基變異位點(diǎn)。這個(gè)工具在準(zhǔn)確率上和精確度上,比傳統(tǒng)的比對(duì)拼接方法都高出一大截。

DeepVariant,把工作量巨大的拼接問題(HTS碎片化的結(jié)果拼接成完整的基因序列),轉(zhuǎn)變成了一個(gè)典型的圖像分類問題。而圖像分類正是谷歌擅長的技術(shù)。

2016年,DeepVarient還在PrecisionFDA Truth Challenge中贏得了最高SNP性能獎(jiǎng)(Highest SNP Performance)。在那之后,Google Brain團(tuán)隊(duì)又將錯(cuò)誤率降低了50%。

下面的四幅圖,分別代表實(shí)際測序的片段和基準(zhǔn)序列的比對(duì)結(jié)果。

△A:單核苷酸多態(tài)性造成的堿基變異位點(diǎn);
B:一條染色體上少了一個(gè)堿基;
C:兩條染色體上都少了一個(gè)堿基;
D:復(fù)制錯(cuò)了的堿基變異位點(diǎn)。

在比對(duì)過程中,要回答的一個(gè)關(guān)鍵的問題是,怎么判斷比對(duì)后得到的堿基變異位點(diǎn),是存在于兩條染色體中,還是只在一條里,還是都沒有。造成堿基變異位點(diǎn)的原因不只一種,最常見的三種可能是單核苷酸多態(tài)性,或多插了一個(gè)堿基,或少復(fù)制了一個(gè)堿基。

這些變異位點(diǎn)如果用視覺識(shí)別的算法就能快速找出來。大大提高HTS后的比對(duì)拼接的效率。

因?yàn)槠恐谢蚪M聯(lián)盟Genome in a Bottle Consortium(GIAB)提供的人體基準(zhǔn)基因組序列信息是高精度可信的,或者更嚴(yán)謹(jǐn)?shù)卣f,是最接近真實(shí)序列的信息。

通過這個(gè)基準(zhǔn)序列得到的復(fù)制數(shù)據(jù),谷歌團(tuán)隊(duì)可以拿它們來訓(xùn)練基于Tensor Flow的圖像分類模型,所得到的DeepVariant,最后可以區(qū)別真實(shí)序列數(shù)據(jù)和復(fù)制數(shù)據(jù)。

盡管DeepVariant根本不懂什么是基因組序列,也不懂HTS,但是只用了一年,就已經(jīng)贏得了PrecisionFDA Truth Challenge中的最高SNP性能獎(jiǎng)(Highest SNP Performance)。而且到目前為止,把已有最優(yōu)異的方法拼接錯(cuò)誤率降低了50%多。

在發(fā)布開源代碼的同時(shí),Google Brain還發(fā)布Google Cloud上的DeepVarient工作流,方便開發(fā)者用它來處理大型數(shù)據(jù)集。

最后,附上相關(guān)鏈接:

Google Research Blog介紹:https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

開源代碼:https://github.com/google/deepvariant

Google Cloud版:https://cloud.google.com/genomics/deepvariant


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6178

    瀏覽量

    105704
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47529

    瀏覽量

    239275

原文標(biāo)題:谷歌推出開源工具DeepVariant,用深度學(xué)習(xí)識(shí)別基因變異

文章出處:【微信號(hào):gh_ecbcc3b6eabf,微信公眾號(hào):人工智能和機(jī)器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)工具與框架

    卷積神經(jīng)網(wǎng)絡(luò)因其在圖像和視頻處理任務(wù)中的卓越性能而廣受歡迎。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,多種實(shí)現(xiàn)工具和框架應(yīng)運(yùn)而生,為研究人員和開發(fā)者提供了強(qiáng)大的支持。 TensorFlow 概述
    的頭像 發(fā)表于 11-15 15:20 ?296次閱讀

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之一,在圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的
    的頭像 發(fā)表于 07-24 10:42 ?752次閱讀

    殘差網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    殘差網(wǎng)絡(luò)(Residual Network,通常簡稱為ResNet) 是深度神經(jīng)網(wǎng)絡(luò)的一種 ,其獨(dú)特的結(jié)構(gòu)設(shè)計(jì)在解決深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問題上取得了顯著的突破,并因此成為
    的頭像 發(fā)表于 07-11 18:13 ?1145次閱讀

    pytorch中有神經(jīng)網(wǎng)絡(luò)模型嗎

    處理、語音識(shí)別等領(lǐng)域取得了顯著的成果。PyTorch是一個(gè)開源深度學(xué)習(xí)框架,由Facebook的AI研究團(tuán)隊(duì)開發(fā)。它以其易用性、靈活性和高效性而受到廣泛歡迎。在PyTorch中,有許多預(yù)訓(xùn)練的
    的頭像 發(fā)表于 07-11 09:59 ?735次閱讀

    PyTorch神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過程

    PyTorch,作為一個(gè)廣泛使用的開源深度學(xué)習(xí)庫,提供了豐富的工具和模塊,幫助開發(fā)者構(gòu)建、訓(xùn)練和部署神經(jīng)網(wǎng)絡(luò)模型。在神經(jīng)網(wǎng)絡(luò)模型中,輸出層是
    的頭像 發(fā)表于 07-10 14:57 ?532次閱讀

    人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些

    人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANNs)是一種模擬人腦神經(jīng)元網(wǎng)絡(luò)的計(jì)算模型,它在許多領(lǐng)域,如圖像識(shí)別、語音識(shí)別、自然語言處理、預(yù)測分析等有著廣泛
    的頭像 發(fā)表于 07-05 09:13 ?1299次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時(shí),我們需
    的頭像 發(fā)表于 07-04 13:20 ?1002次閱讀

    如何使用MATLAB神經(jīng)網(wǎng)絡(luò)工具

    神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)元網(wǎng)絡(luò)的計(jì)算模型,廣泛應(yīng)用于各種領(lǐng)域,如圖像識(shí)別、語音識(shí)別、自然語言處理等。在MATLAB中,可以使用神經(jīng)網(wǎng)絡(luò)工具
    的頭像 發(fā)表于 07-03 10:34 ?2584次閱讀

    matlab神經(jīng)網(wǎng)絡(luò)工具箱結(jié)果分析

    神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù),廣泛應(yīng)用于各種領(lǐng)域,如圖像識(shí)別、語音識(shí)別、自然語言處理等。MATLAB提供了一個(gè)功能強(qiáng)大的神經(jīng)網(wǎng)絡(luò)工具箱,可以幫助用戶快速構(gòu)建和訓(xùn)練
    的頭像 發(fā)表于 07-03 10:32 ?655次閱讀

    bp神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)是一種常見的前饋神經(jīng)網(wǎng)絡(luò),它使用反向傳播算法來訓(xùn)練網(wǎng)絡(luò)。雖然BP神經(jīng)網(wǎng)絡(luò)在某些方面與
    的頭像 發(fā)表于 07-03 10:14 ?901次閱讀

    深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為其中的重要分支,已經(jīng)在多個(gè)領(lǐng)域取得了顯著的應(yīng)用成果。從圖像識(shí)別、語音
    的頭像 發(fā)表于 07-02 18:19 ?969次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的原理是什么

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域。本文將詳細(xì)介紹卷積
    的頭像 發(fā)表于 07-02 14:44 ?733次閱讀

    深度神經(jīng)網(wǎng)絡(luò)模型cnn的基本概念、結(jié)構(gòu)及原理

    深度神經(jīng)網(wǎng)絡(luò)模型CNN(Convolutional Neural Network)是一種廣泛應(yīng)用于圖像識(shí)別、視頻分析和自然語言處理等領(lǐng)域的深度學(xué)習(xí)模型。 引言
    的頭像 發(fā)表于 07-02 10:11 ?9855次閱讀

    深度神經(jīng)網(wǎng)絡(luò)模型有哪些

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)是一類具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),它們?cè)谠S多領(lǐng)域取得了顯著的成功,如計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別等。以下是一些常見
    的頭像 發(fā)表于 07-02 10:00 ?1566次閱讀

    神經(jīng)網(wǎng)絡(luò)架構(gòu)有哪些

    神經(jīng)網(wǎng)絡(luò)架構(gòu)是機(jī)器學(xué)習(xí)領(lǐng)域中的核心組成部分,它們模仿了生物神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式,通過復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)信息的處理、存儲(chǔ)和傳遞。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,各種
    的頭像 發(fā)表于 07-01 14:16 ?807次閱讀