2月1日,浙江省疾控中心上線自動(dòng)化的全基因組檢測(cè)分析平臺(tái)。利用阿里達(dá)摩院研發(fā)的AI算法,可將原來(lái)數(shù)小時(shí)的疑似病例基因分析縮短至半小時(shí),大幅縮短確診時(shí)間,并能精準(zhǔn)檢測(cè)出病毒的變異情況。
當(dāng)前,全國(guó)新型冠狀病毒肺炎疫情依然嚴(yán)峻,快速、精確診斷對(duì)于疫情控制尤其重要。公開信息顯示,該病毒是基因組序列最長(zhǎng)的病毒之一,全基因組序列全長(zhǎng)29847bp,臨床診斷需要將患者樣本與該病毒基因序列進(jìn)行比對(duì)才能確定診斷結(jié)果。
目前,醫(yī)院普遍采用核酸檢測(cè)方法,其只能檢測(cè)到病毒基因的局部。由于病毒存在變異的可能性,對(duì)于整個(gè)基因序列來(lái)說(shuō)這種檢測(cè)方法猶如盲人摸象,一旦病毒發(fā)生變異,就可能出現(xiàn)漏檢的情況。
浙江的全基因組檢測(cè)分析平臺(tái)由浙江省疾病預(yù)防控制中心、阿里達(dá)摩院醫(yī)療AI團(tuán)隊(duì)和杰毅生物技術(shù)公司共同研發(fā)。該平臺(tái)采用全基因組檢測(cè)技術(shù),對(duì)疑似病例的病毒樣本進(jìn)行全基因組序列分析比對(duì),它不同于核酸檢測(cè)方法,能夠有效防止病毒變異產(chǎn)生的漏檢,并將原需數(shù)小時(shí)的全基因分析流程減少到半小時(shí),大幅提高疑似病例的確診速度和準(zhǔn)確率。
據(jù)阿里方面披露,此次研發(fā)的自動(dòng)化全基因組檢測(cè)分析平臺(tái)屬于高通量測(cè)序。杰毅生物開發(fā)了全自動(dòng)高通量測(cè)序建庫(kù)儀,把整體常規(guī)人工需要12小時(shí)的工作縮短到2個(gè)小時(shí)。每次測(cè)序過(guò)程會(huì)產(chǎn)生海量的數(shù)據(jù),達(dá)摩院采用分布式設(shè)計(jì)的分析算法,病毒檢測(cè)的整體速度由數(shù)小時(shí)縮短到半小時(shí);同時(shí),由于采用分布式算法,病毒拼接的速度由30分鐘至1小時(shí)縮短到15至30分鐘。
疫情發(fā)生后,達(dá)摩院算法專家顧斐博士立即奔赴浙江省疾控中心,第一時(shí)間針對(duì)新型冠狀病毒基因進(jìn)行特征分析,并推出多個(gè)算法模型。在序列比對(duì)過(guò)程中,達(dá)摩院對(duì)算法增加了分布式設(shè)計(jì),有效提升比對(duì)效率;在病毒序列拼接階段使用分布式設(shè)計(jì)的de Bruijn圖算法,變異病毒也能精準(zhǔn)檢測(cè)。
達(dá)摩院還針對(duì)新冠病毒基因的特征進(jìn)行了分析,基于pdb等公共數(shù)據(jù)集的數(shù)據(jù)進(jìn)行算法的優(yōu)化訓(xùn)練。本次分析病毒檢測(cè)和病毒變異部分主要基于開源算法,設(shè)計(jì)分布式算法以加速分析流程。病毒序列拼接完成后,通過(guò)設(shè)計(jì)BiLSTM+DNN的方式訓(xùn)練模型預(yù)測(cè)病毒蛋白二級(jí)結(jié)構(gòu)。同時(shí),達(dá)摩院還在研究基于序列的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)模型以及藥物篩選模型。
阿里方面表示:“檢測(cè)變異病毒就需要拼接出一個(gè)病毒的完整基因組,我們可以百分之百檢測(cè)到變異病毒。目前無(wú)變異病毒案例?!?/p>
目前,通過(guò)核酸檢測(cè)方法,新型冠狀病毒的檢測(cè)時(shí)間也已經(jīng)大大縮短。