世上沒有兩片完全相同的樹葉,人體內(nèi)的每兩個細(xì)胞也是截然不同的。長久以來,基因檢測技術(shù)主要是在組織層面對樣本進(jìn)行解析,獲得的是成千上萬個細(xì)胞的平均值,但這會讓很多信息是被隱匿,對疾病的認(rèn)知和理解存在很大的障礙。
單細(xì)胞檢測技術(shù)將基因檢測的水平提升到了單細(xì)胞的精度,可以揭示每一個細(xì)胞的細(xì)微變化,對疾病的認(rèn)知、診療方式的改變、藥物研發(fā)的方式提供了更好的方法。而其中,高通量測序(NGS)技術(shù)因其高度準(zhǔn)確性和特異性成為了單細(xì)胞測序的理想工具。
尋因生物,是一家自主研發(fā)單細(xì)胞技術(shù)的精準(zhǔn)醫(yī)療生物醫(yī)藥企業(yè),致力于通過國產(chǎn)高通量單細(xì)胞全鏈條產(chǎn)品及服務(wù),將單細(xì)胞技術(shù)普適化,應(yīng)用于臨床及藥物研發(fā),推動相關(guān)疾病研究。
通常,單細(xì)胞測序工作流程包含單細(xì)胞樣本制備、單細(xì)胞分離和文庫制備、測序和初級分析、數(shù)據(jù)可視化和解讀四個步驟。作為國內(nèi)獨(dú)家擁有微孔芯片與油包水雙技術(shù)平臺的尋因生物來說,單細(xì)胞樣本制備、單細(xì)胞分離和文庫制備是其強(qiáng)項。同時,尋因生物具有完備的數(shù)據(jù)分析和解讀能力,底層分析計算效率的提升十分必要。
據(jù)悉,在單細(xì)胞測序數(shù)據(jù)分析環(huán)節(jié),業(yè)界普遍存在數(shù)據(jù)量大、分析時間長的挑戰(zhàn)。僅一個單細(xì)胞測序文件的大小可達(dá)100GB以上,而隨著一個單細(xì)胞項目包含的樣本量越來越多,可能產(chǎn)生數(shù)百GB甚至TB級的細(xì)胞數(shù)據(jù);同時,單細(xì)胞數(shù)據(jù)的分析復(fù)雜,需要反復(fù)做數(shù)據(jù)讀取和參數(shù)調(diào)整,所以處理海量細(xì)胞樣本的分析任務(wù)通常需要數(shù)小時甚至數(shù)天才能完成。因此,超大數(shù)據(jù)量和分析復(fù)雜性所導(dǎo)致的任務(wù)并發(fā)度低和數(shù)據(jù)加載速率慢是未來單細(xì)胞分析性能的主要瓶頸之一。
在單細(xì)胞測序數(shù)據(jù)分析過程中,每個細(xì)胞的表達(dá)量數(shù)據(jù)高達(dá)數(shù)十萬條讀取 (reads),產(chǎn)生的數(shù)據(jù)更是要大得多,這種海量級的數(shù)據(jù)分析對云主機(jī)的內(nèi)存容量提出了更高的要求。而通用的云主機(jī)的內(nèi)存容量與CPU配比有限,單細(xì)胞的分析任務(wù)常會出現(xiàn)因內(nèi)存不足而導(dǎo)致運(yùn)行失敗;而選用傳統(tǒng)的大內(nèi)存云主機(jī),不僅要付出更加高昂的成本,而且會造成CPU算力的浪費(fèi)。所以,內(nèi)存容量的限制使尋因生物不得不將樣本參數(shù)調(diào)低來滿足運(yùn)行任務(wù)。此外,通用的云主機(jī)僅能支持運(yùn)行一個單細(xì)胞分析任務(wù),在測序任務(wù)多的情況下,尋因生物只能將多任務(wù)排隊執(zhí)行,非常耗時;同時,在測序數(shù)據(jù)分析過程中,每次臨時數(shù)據(jù)在磁盤上的導(dǎo)出和加載(IO)過程長達(dá)1000秒,隨著數(shù)據(jù)集的持續(xù)增長,這種處理速度阻礙了預(yù)期的研究發(fā)現(xiàn)時間。
當(dāng)前,尋因生物將單細(xì)胞測序分析任務(wù)部署在了第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器 (代號: Ice Lake) 和 英特爾® 傲騰™ 持久內(nèi)存的阿里云i4p持久內(nèi)存型實例上,并在實例中使用了MemVerge公司開發(fā)的 Memory Machine大內(nèi)存軟件,不但完全消除磁盤讀寫帶來的IO瓶頸,幫助尋因生物成功地運(yùn)行了多細(xì)胞數(shù)、大樣本的測序數(shù)據(jù)分析任務(wù),并能通過Memory Machine的ZeroIO內(nèi)存快照功能使數(shù)據(jù)導(dǎo)出和加載從原來的1000秒降至2.5秒,將數(shù)據(jù)讀取的效率提升了兩個數(shù)量級。
阿里云i4p持久內(nèi)存實例是阿里云基于英特爾® 傲騰™ 持久內(nèi)存推出的第二代持久內(nèi)存實例,傲騰® 持久內(nèi)存讓高性價比的大容量內(nèi)存與對數(shù)據(jù)持久性的支持巧妙地結(jié)合在一起,將更多數(shù)據(jù)保存在更靠近CPU的地方,加速了大內(nèi)存計算, 可以說重新定義了傳統(tǒng)的兩級存儲架構(gòu)。
除基本vCPU和內(nèi)存外,阿里云i4p實例還配置了持久內(nèi)存資源,極大地擴(kuò)展了主機(jī)的內(nèi)存容量,讓內(nèi)存中可以存放更多數(shù)據(jù)用于測序數(shù)據(jù)分析,同時并發(fā)運(yùn)行更多的測序任務(wù),相對于傳統(tǒng)普通大內(nèi)存實例,i4p持久內(nèi)存實例可以幫助用戶打破“內(nèi)存墻”藩籬,獲得更高性能的同時,有效降低整體IT基礎(chǔ)設(shè)施擁有成本(TCO)。
MemVerge開發(fā)的Memory Machine大內(nèi)存虛擬化軟件,可運(yùn)行在i4p持久內(nèi)存實例中,將其中的持久內(nèi)存和普通內(nèi)存進(jìn)行融合,可以透明地使用大內(nèi)存資源,無需對應(yīng)用進(jìn)行改造,即可充分發(fā)揮持久內(nèi)存的全部性能;其軟件的高級功能“ZeroIO內(nèi)存快照”,可以完全避免臨時數(shù)據(jù)的磁盤IO過程,實現(xiàn)客戶應(yīng)用性能的飛躍。同時通過阿里云計算巢還實現(xiàn)了Memory Machine大內(nèi)存虛擬化軟件與云平臺的標(biāo)準(zhǔn)化集成,實現(xiàn)快速的軟件交付部署和標(biāo)準(zhǔn)化的運(yùn)維管理,大幅提升了業(yè)務(wù)效率。
“這能夠使我們的單細(xì)胞數(shù)據(jù)分析業(yè)務(wù)完全消除IO瓶頸,并在實際的分析任務(wù)中將持久內(nèi)存的大容量能力充分利用起來,讓任務(wù)的并發(fā)能力提升了5倍以上,且該方案能讓多細(xì)胞數(shù),大樣本任務(wù)能順利地運(yùn)行成功,對提高我們生信用戶的業(yè)務(wù)吞吐能力和工作效率有非常大的助力。”尋因生物公司生物部張廣鑫表示。






