您現在的位置:華文健康 >健康

微生物組學大資料:如何挖掘與利用?

2021-04-06 00:00:00健康

編者按:

隨著二代測序技術的成熟,微生物組領域蓬勃發展,併產生了大量資料,近年來研究所涉及的樣本量和測序資料量更是快速增加,那麼面對如此龐大的資料我們應該如何處理呢?可以利用這些資料做什麼呢?

今天,我們特別共同關注微生物組領域中的資料科學,並對微生物組初創公司如何利用微生物組資料進行簡要總結。希望本文能夠為相關的產業人士和諸位讀者帶來一些啟發與幫助。

微生物組研究正在產生大量資料

並不是每一個人都認為人類基因組計劃是個好主意。早在 20 世紀 80 年代末和 90 年代初,當這個計劃仍處於籌劃階段時,一些著名的科學家認為,對整個人類基因組進行測序,是一件費力而不討好的事情。

「我認為,這些資訊將有不可估量的效用,但這一點並不那麼顯而易見。」麻省理工學院的生物學家 Robert Weinberg 如是寫道[1]。

批評人士擔心,該計劃將會抽走原本屬於各個獨立實驗室的寶貴經費,然後投入到一個大型的政府計劃中,而這個計劃可能不會產生很多重要且富有意義的成果。

然而,三十年後的今天,人類基因組計劃不僅回了本[2],而且幾乎徹底改變了生物醫學研究領域[3],併為今天的生物技術產業奠定了基礎。

該計劃影響科學和技術發展的主要方式之一,是提供免費可用的參考資料集,研究人員可以利用這些資料集,開發新的計算工具和測序技術。因此,生物醫學研究領域,現已成為最大的資料科學領域之一。

而腸道微生物組也有著類似的發展軌跡。腸道微生物組是指棲息在腸道中的億萬微生物,這些微生物對我們的健康而言至關重要,被看作是我們的「虛擬器官」[4]。研究發現,我們的微生物組對機體的新陳代謝、疾病的易感性乃至藥物反應,都會產生微妙但普遍的影響。

然而,直到最近,微生物組中的大多數微生物物種依然是「不可見的」,因為它們無法在培養皿上生長。為了追蹤這些微生物,科學家們依靠對從糞便樣本中收集的 DNA 進行測序。

與人類基因組計劃一樣,研究人員正試圖透過建立大型參考資料集,來促進微生物組的研究,這些參考資料集,是新的技術和資料分析工具的基礎。

在微生物組研究中,資料分析的關鍵挑戰之一,是將糞便樣本中提取的 DNA 序列片段,組裝成完整的基因組。這份工作就像是,利用垃圾箱裡的書頁碎片,重新將成千上萬的書頁拼裝起來。因此,如果你沒有原始書本作為參考,這是很難做到的。

但是,有了一臺像樣的電腦和一份文字的原版複製,這項工作就將變得十分容易。

這就是為什麼大量的研究團隊,最近醉心於收集數十萬份人類腸道微生物組樣本以建構參考基因組序列[5,6],比如 2019 年 7 月剛釋出的一組新資料[7]。這項研究彙編了數千種微生物的基因組,以及超過 1.7 億條非人類基因序列。在人體內,細菌基因的數量,大約是人類基因數量的 1 萬倍。

微生物組研究是一個資料科學問題

這些龐大的資料集對計算生物學家提出了新的挑戰和機遇。這些計算生物學家為了人類健康,試圖理解,甚至操縱人體微生物組。

其中一個關鍵的挑戰是,細菌基因組本身並沒有那麼有用。它們需要與其他資料一起進行分析。

微生物組對我們很重要,因為它會隨著年齡、飲食、藥物甚至癌症等疾病的變化而變化。不僅如此,我們的腸道微生物還會與我們一起代謝食物,操縱我們的免疫系統,並與人體本身共同構成廣泛的代謝網路。而為了做到這一切,腸道微生物表達了大量的基因。

為了弄清楚微生物組,研究人員需要追蹤這些細菌基因的表達,是如何隨著時間的推移而變化的,以及為什麼在不同患者之間出現差異。

這通常涉及到,將微生物組資訊與患者血液檢測資料、表觀遺傳學資料、臨床結果,甚至組織學影象聯絡起來。研究者正在建立整合這些不同資料型別的平臺資源。

ColPortal[8 ]是一個專注於結腸直腸癌樣本的平臺,其將不同的資料集以一種利於資料分析的形式整合在一起,使得資料分析師更容易回答醫學問題,而不是花費大量力氣將資料整合在一起。

另一個挑戰是將最先進的分析方法,如機器學習,應用於成分混雜的大型微生物組資料集。

機器學習演演算法可以很好地根據複雜資料中存在的微妙模式,對樣本進行分類。例如,微生物組研究的目標之一,是根據患者微生物組組成的特徵變化,來預測早期癌症[9]。

如果這能成功,我們在 50 歲以後都應該做的常規結腸鏡檢查,可以被一種侵入性更小的篩查方法所取代,一種只需要糞便樣本的篩查方法。

然而,機器學習手段一般不適合非專業人員。遺憾的是大多數微生物組學家,不是機器學習的專家,他們也沒有理由成為這方面的專家。為了確保高質量的機器學習技術在這個問題上發揮作用,一些專案專注於為微生物組資料構建機器學習工具。

比如,歐盟資助的 ML4 Microbiome 專案[10]正在收集資料集,建立資料標準,並構建可廣泛應用於研究社群的軟體。而由明尼蘇達大學的 Dan Knights 運營的「Microbiome Learning Repo」[11],則是一個公開的機器學習工具庫。

在不久之前,微生物組資料科學家還需要從零開始構建這樣的工具。如今,他們卻可以把工作重心放在資料分析上了。

初創公司如何利用微生物組資料?

這些新的微生物組平臺資源,在實驗室之外,又會產生怎樣的影響呢?微生物組研究不僅僅是學術團隊的課題;目前已有十多家生物科技初創公司,在這一領域開展工作,許多公司成立還不到五年。

初創公司採用的微生物組技術可以分為幾種常見的手段,以下的每一種手段都依賴於微生物組 DNA 測序和資料分析:

微生物組移植:在治療慢性胃腸道感染方面,利用健康捐贈者的糞便微生物組進行糞菌移植,取得了一定的成功。Rebiotix[12 ]和 MaaT Pharma[13] 等公司,正在對細菌感染和潰瘍性結腸炎等疾病的微生物組療法,進行臨床試驗。

成功的關鍵之一,將是確切地瞭解一個「好的」微生物組是什麼樣子的——這隻有透過分析微生物組測序資料,才能弄清楚。

「將細菌作為藥物」:另一種手段是專注於特定種類的腸道微生物的代謝功能,而不是重現整個健康微生物組。Seres Therapeutics 公司[14]希望改善正在接受免疫療法的轉移性黑色素瘤(一種致死率很高的癌症)患者的治療情況。

由於微生物組與免疫系統相互作用,Seres Therapeutics 公司開發了一種針對免疫系統的細菌混合物,目的是幫助這些患者對治療產生更好的應答。想要了解細菌是如何控制人體免疫系統的,關鍵是要知道它們表達什麼基因,並模擬這些基因是如何協同工作的。

微生物組工程:一種比較有野心的操縱微生物組的方法,是對其進行基因工程。法國公司 Eligo Biosciences[15 ]正在利用一種來源於噬菌體的技術——CRISPR 基因編輯技術。具體地,該公司透過對腸道中的細菌進行基因編輯,讓它們表達有益基因,或殺死傳染性細菌。這項技術可能不會很快出現在臨床上,但它依然可以從新的大型腸道微生物基因資料庫中受益。

Eligo Biosciences 公司的技術,還可以針對感染性細菌中的抗生素耐藥性基因——這種方法依賴於從數億細菌基因中,識別出這些基因。

微生物組診斷:微生物組資料最有前景的應用之一,可能是在診斷上——尤其是對於癌症的診斷。腫瘤會產生很多不同尋常的代謝副產物,從而改變微生物組。

像 Metabiomics[16] 這樣的公司,就是基於這樣一種想法,即微生物組的變化,可以被用於早期癌症的發現——早在症狀出現之前。這種方法要想成功,就需要依靠良好的模型,以從微生物組每天或每週的波動中,梳理出任何有風險的跡象。

微生物組資料非常複雜,即使以當今資料密集的生物醫學科學的標準來看,也是如此。但就像大多數資料科學領域一樣,研究的步伐正在加快,因為微生物組研究人員建立了新的工具和資料庫,其他人可以使用這些工具和資料庫來回答新的問題。

在這種情況下,在這個領域裡,研究工作逐漸從實驗室工作臺上轉移到了鍵盤上的資料分析。

參考資料:

1. https://pubmed.ncbi.nlm.nih.gov/3223969/

2. https://www.genome.gov/27544383/calculating-the-economic-impact-of-the-human-genome-project

3. https://genomemedicine.biomedcentral.com/articles/10.1186/gm483

4. https://pubmed.ncbi.nlm.nih.gov/23833275/

5. https://pubmed.ncbi.nlm.nih.gov/30867587/

6. https://pubmed.ncbi.nlm.nih.gov/30661755/

7. https://pubmed.ncbi.nlm.nih.gov/32690973/

8. https://colportal.imib.es/colportal/help.jsf

9. https://pubmed.ncbi.nlm.nih.gov/32647386/

10. https://www.ml4microbiome.eu/ml4-microbiome-overview/

11. https://bio.tools/ML_Repo

12. https://www.rebiotix.com/about-rebiotix/

13. https://www.maatpharma.com/technology/#gutprint

14. https://www.serestherapeutics.com/our-programs/

15. https://eligo.bio/

16. http://metabiomics.com/preventing-cancer/

原文網址:

https://builtin.com/data-science/microbiome-research-data-science

作者|Michael White

編譯|Jessica