碳云智能作為數(shù)字生命健康管理領(lǐng)域全球獨(dú)角獸公司,旨在利用信息學(xué)、統(tǒng)計(jì)學(xué)、人工智能等前沿技術(shù)算法深入挖掘整合人體健康相關(guān)的各類數(shù)字生命數(shù)據(jù),最終實(shí)現(xiàn)數(shù)字化精準(zhǔn)健康管理服務(wù)。
GPU加速數(shù)字生命計(jì)算
基于數(shù)字生命的理念,高通量測(cè)序技術(shù)的發(fā)展、可穿戴設(shè)備的普及、生物多組學(xué)與醫(yī)學(xué)影像分析方法的突破都為個(gè)性化智能健康服務(wù)帶來了機(jī)遇。
碳云智能的數(shù)字生命計(jì)算平臺(tái)將Tesla P40應(yīng)用于多類生物數(shù)據(jù)挖掘分析加速。任務(wù)涵蓋小樣本高維度生命數(shù)據(jù)的特征提取、機(jī)器學(xué)習(xí)分類及基于深度神經(jīng)網(wǎng)絡(luò)的健康狀態(tài)預(yù)測(cè)等。
以碳云針對(duì)類風(fēng)濕關(guān)節(jié)炎病患的宏基因組數(shù)據(jù)提取關(guān)鍵特征任務(wù)為例,通過RAPIDS的加速,使用一塊Tesla P40后,處理相同任務(wù)的速度相較于之前使用傳統(tǒng)10核CPU提高了6倍。同樣,使用GPU的加速也能將碳云的深度模型加速10倍以上。
數(shù)據(jù)激增,性能遇瓶頸
隨著數(shù)據(jù)量的急劇增長,通常的分析流程和算法模型開始在某些IO與計(jì)算密集的部分出現(xiàn)性能瓶頸,同時(shí)人工智能的發(fā)展又為碳云智能提供了新的方式去分析數(shù)據(jù)。一方面,準(zhǔn)確性與響應(yīng)速度對(duì)于用戶體驗(yàn)的重要性與日俱增;另一方面,生物數(shù)據(jù)下機(jī)之后往往需要大量計(jì)算密集的預(yù)處理,導(dǎo)致研發(fā)人員需要把大量的時(shí)間消耗在等待數(shù)據(jù)的讀取與預(yù)處理流程上。碳云智能需要優(yōu)化流程與算法中關(guān)鍵部分的運(yùn)行速度,從而提高用戶體驗(yàn)與整體研發(fā)效率;同時(shí)擁抱各類深度學(xué)習(xí)算法,提高算法準(zhǔn)確度。
RAPIDS加速計(jì)算顯成效
碳云智能采用Tesla P40,并使用RAPIDS提供的接口,在多項(xiàng)組學(xué)數(shù)據(jù)挖掘工作中利用GPU取代傳統(tǒng)CPU,從而使得整體處理速度明顯提高。
不失一般性,以基于腸道微生物數(shù)據(jù)預(yù)測(cè)類風(fēng)濕疾病風(fēng)險(xiǎn)和生理年齡等指標(biāo)為應(yīng)用案例,微生物的K-mer數(shù)據(jù)有超過上億數(shù)目的特征數(shù)量,對(duì)數(shù)據(jù)讀取和分析算法都是巨大的挑戰(zhàn)。分析流程需要先并行地使用顯著性分析進(jìn)行特征過濾,隨后整體進(jìn)行特征降維并用于下游分析。使用RAPIDS對(duì)該流程各模塊提速,其中數(shù)據(jù)讀取提高最大可達(dá)6倍以上;特征降維以PCA為例,在目前CuML的實(shí)現(xiàn)仍不成熟的前提下依然可以將計(jì)算時(shí)間縮短至1/2。
深度學(xué)習(xí)方面,碳云智能使用大量微生物數(shù)據(jù)訓(xùn)練特征深度模型用于特征提取,GPU可使訓(xùn)練過程提速10倍以上,并且基于微生物的深度特征的分類器的F1-score比傳統(tǒng)方法提高30%。這一案例說明,在數(shù)字生命大數(shù)據(jù)通用的運(yùn)算需求下,GPU及RAPIDS框架有效地助力提升了碳云智能挖掘整合多維生命數(shù)據(jù)的運(yùn)算效率。
GPU加速激發(fā)數(shù)字生命計(jì)算新思路
碳云智能使用RAPIDS加速各類數(shù)據(jù)讀取與統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,利用GPU加速的深度學(xué)習(xí)算法在性能表現(xiàn)上顯著超過了傳統(tǒng)方法。RAPIDS的Python接口簡單易用,能幫助碳云智能的數(shù)據(jù)科學(xué)家無需付出過多的額外努力即可改良現(xiàn)有流程,能夠每日為數(shù)據(jù)預(yù)處理節(jié)約大約1小時(shí)。
通常數(shù)字生命中的多組學(xué)大數(shù)據(jù)相較于互聯(lián)網(wǎng)大數(shù)據(jù)(圖片、語音、文字等)具有樣本空間小特征維度高的特點(diǎn)。通過碳云智能的示范案例可以了解到GPU及RAPIDS框架對(duì)于傳統(tǒng)生命大數(shù)據(jù)的降維、分類、回歸預(yù)測(cè)等任務(wù)加速具有強(qiáng)大的潛力,使其得以充分運(yùn)用現(xiàn)有各類生物數(shù)據(jù),深度模型在碳云智能的各類分類與回歸任務(wù)上都對(duì)傳統(tǒng)方法有所提高,給生物信息的方法學(xué)帶來了各種新思路。
-
人工智能
+關(guān)注
關(guān)注
1793文章
47615瀏覽量
239557 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
8840瀏覽量
62030
原文標(biāo)題:碳云智能基于 RAPIDS 加速數(shù)字生命AI應(yīng)用
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論