隨著(zhù)大家對生命未知領(lǐng)域的探索,越來(lái)越多的需要依靠測序技術(shù)對生物的過(guò)程、代謝的特性進(jìn)行解析。尤其是現在廣泛利用的二代測序技術(shù),也是基于短序列的測序方式,它能夠以一種較高性?xún)r(jià)比的方式,給廣大的科研工作者以及實(shí)際的生產(chǎn)過(guò)程中的工作人員,提供非常有用的信息。
這種測序技術(shù)需要我們對生物學(xué)過(guò)程,包括對計算機代碼有些理解的基礎,其中會(huì )包含一些生物信息學(xué)領(lǐng)域的專(zhuān)屬名詞,甚至會(huì )要求具備編程基礎。這也造成了大家對環(huán)境宏基因組的分析過(guò)程上手難度的增加。宏基因組的測序量,一般在6~10GB+,往往帶來(lái)的是對計算成本,尤其是計算時(shí)長(cháng)高的消耗?;诒本┏壴朴嬎阒行?#xff08;以下簡(jiǎn)稱(chēng)北京超算)的算力資源和平臺,我們搭建了能夠對環(huán)境宏基因組數據進(jìn)行分析的軟件和平臺,在這個(gè)平臺上能實(shí)現群落功能的分析,并且整合了宏基因組分箱技術(shù),以及基于深度學(xué)習的病毒組分析。
1Tb的數據大約100個(gè)樣本,每個(gè)樣本測序深度在10個(gè)G左右。單純使用服務(wù)器進(jìn)行分析大約需要150天,在基于北京超算搭建的宏基因組數據分析平臺上進(jìn)行計算,7-20天之內就可以完成數據分析,大大的節約了時(shí)間成本和計算費用成本。
北京超算能夠提供非常強的硬件支持,滿(mǎn)足計算需求的同時(shí)提供7X24小時(shí)的專(zhuān)屬客服支持。近幾年來(lái)通過(guò)與北京超算的合作達成了一些論文計算的分析過(guò)程,并發(fā)表了一些文章。
案例1 濕地植物根際錳氧化物強化氨氧化過(guò)程
在解析錳氧化過(guò)程中,利用宏基因組分析平臺,發(fā)現錳氧化過(guò)程和氨氧化過(guò)程存在耦合作用。錳氧化的過(guò)程中其實(shí)缺乏在濕地中的探索,我們在全國各個(gè)城市進(jìn)行濕地樣本收集。對根際土和非根際土進(jìn)行宏基因組測序,以及常規的理化指標的測定。
可以看到,宏基因組的測序量大約是3.7個(gè)TB。19年底到20年上半年,我的整個(gè)服務(wù)器都在跑這個(gè)數據還沒(méi)有跑完。在開(kāi)發(fā)了基于超算的計算流程和計算軟件后,兩個(gè)月內完成了所有的計算任務(wù)。簡(jiǎn)單分享一下我計算的成果。
我發(fā)現在蘆葦根際中錳氧化物的豐度含量比較高。錳氧化主要是微生物(介導)的,所以我就好奇這個(gè)過(guò)程中到底有沒(méi)有錳氧化基因有一個(gè)富集呢?;虻呢S度是通過(guò)宏基因測序,然后加上計算獲得的。我在對它進(jìn)行不同分類(lèi)比較的時(shí)候發(fā)現,根際和非根際錳氧化基因的組成類(lèi)型其實(shí)是不一樣的,植物根際可以顯著(zhù)的富集幾種類(lèi)型的錳氧化基因。
除此之外,濕地植物的根際核心微生物和錳氧化的含量,有些微生物是和它呈正相關(guān)的,有些是呈負相關(guān)的。正負相關(guān)的這些微生物中,最明顯的功能上的區別在于:正相關(guān)的這些微生物中有一部分是能夠執行氨氧化過(guò)程的。同樣的,在人工濕地中我們發(fā)現了錳氧化物和鐵氧化物都是微生物群落結構關(guān)鍵的驅動(dòng)因子,同時(shí),錳氧化物的含量和氨氮濃度之間呈非常顯著(zhù)的正相關(guān)性。大家都知道氨氧化很大程度上是由微生物(介導)的,尤其是在人工濕地水處理的過(guò)程中。在錳的氧化過(guò)程中,錳氧化物起到了非常關(guān)鍵的作用。它們二者之間到底有沒(méi)有比較強的關(guān)聯(lián)性呢?在生物學(xué)角度,我們對錳氧化基因和氨氧化基因之間進(jìn)行了線(xiàn)性的回歸分析,分析發(fā)現它們兩個(gè)之間有非常強的線(xiàn)性關(guān)系。是不是別的氮轉化的過(guò)程也和錳氧化的基因有這樣的相關(guān)性呢?我們把剩下的一些氮轉化過(guò)程的關(guān)鍵基因與錳氧化基因進(jìn)行了關(guān)聯(lián)分析,發(fā)現除了氨氧化基因,別的氮轉化基因并沒(méi)有和錳氧化基因形成顯著(zhù)的線(xiàn)性相關(guān)性。
我們又通過(guò)自建amoA的數據庫,把執行氨氧化過(guò)程的微生物分成氨氧化古菌、氨氧化細菌和完全氨氧化菌。通過(guò)比較分析,我們發(fā)現人工濕地中常規的水處理環(huán)境中,完全氨氧化菌的比重比較高,高于常規的氨氧化細菌,并且錳氧化基因的豐度也與完全氨氧化菌之間呈正相關(guān)性。
對環(huán)境的解析過(guò)程,最主要的目的之一是為了把它更好的應用于污染治理過(guò)程中,在河北省晉州市龍門(mén)村,我們搭建了一個(gè)人工濕地的中試裝置。面向當地農村的生活污水,我們在一些人工濕地中人為的向其中加入錳砂,即錳氧化物。我們發(fā)現加入的這部分錳氧化物可以提升氨氮的去除負荷,同時(shí)amoA的豐度也是得到了非常強的提升。
從自然發(fā)展到人為干預污染去除的過(guò)程中,由于前期使用超算獲得微生物相關(guān)的數據,大大節省了分析的時(shí)間,有效提升了效率。
案例2 飲用水快速濾池完全氨氧化過(guò)程
在另一個(gè)水處理的環(huán)境中,我們考察了飲用水的快速砂濾池,在這個(gè)工程水處理的裝置中微生物的一些過(guò)程。同樣,我們對它進(jìn)行了采樣和測序,數據集大約是1個(gè)TB的測序深度。同樣在過(guò)程中,我們發(fā)現氨氮轉化比較好,而且和amoA的基因豐度也形成比較線(xiàn)性的關(guān)系。通過(guò)數據庫比對分析發(fā)現,其中完全氨氧化菌起到了非常關(guān)鍵和重要的作用。它和錳的轉化,錳氧化基因的轉化過(guò)程,一同協(xié)同對整個(gè)砂濾池中的污染物形成了降解。
利用基于北京超算開(kāi)發(fā)的宏基因組數據分析平臺,能夠快速的提取其中的微生物信息,并對病毒數據進(jìn)行分析,解析水環(huán)境中相對完整的相互作用的網(wǎng)絡(luò );通過(guò)開(kāi)發(fā)基于A(yíng)I深度學(xué)習的算法,能夠對噬菌體形成非常好的識別,包括對宿主的預測。
北京超算AI智算云平臺可以提供非常豐富的GPU的計算資源,科研工作者無(wú)需自建資源即可完成建模任務(wù),幫助沒(méi)有深度學(xué)習經(jīng)驗的同學(xué)實(shí)現對病毒的解析。
(報告現場(chǎng))
(本文內容整理自:中國科學(xué)院生態(tài)環(huán)境研究中心助理研究員王東麟老師在第四屆“氮素生物地球化學(xué)循環(huán)”學(xué)術(shù)論壇的報告實(shí)錄)
相關(guān)稿件