第三屆癌症基因圖譜研討會─大數據癌症研究趨勢

作者/歐陽太閒(美國哥倫比亞大學電機工程研究所博士生)

癌症基因圖譜(The Cancer Genome Atlas, TCGA)是美國國家癌症研究院(National Cancer Institute, NCI)與美國國家人類基因組研究所(National Human Genome Research Institute, NHGRI)於2006年啟動的研究計畫,旨在整合各研究機構資源,分享超過廿種癌症樣本的分子與臨床資料,以加速對癌症之治療與生物機制的系統化研究。除部分尚未發表或限制存取的資料外,該計畫之基因體資料與研究報告大多提供自由下載,並可作為研究發表之用。

本屆癌症基因圖譜研討會於今年5月12、13日兩天,在美國馬里蘭州國立衛生研究院(National Institutes of Health. NIH)舉行,兩天的議程涵蓋了次世代定序(Next-Generation Sequencing, NGS)時代的多體學(multi-omics)大數據分析各項議題,茲摘錄重點如下:

大數據癌症生物學

芝加哥大學教授羅伯特.葛羅斯曼(Robert Grossman)於主題演講(keynote session)中表示,在次世代定序技術的快速發展下,急速增長的多體學資料量帶來了全新的研究課題與困難。短程需解決的問題為生物資訊的分析工具尚缺乏統一標準,導致各機構間的資料共享不易。中程而言,大型基因體資料庫計畫帶來的巨量資料將需要相應的運算設施,例如美國國家癌症研究院(NCI)的「Million Genome Challenge」計畫,將收集百萬個病患的基因體數據,預計會產生約1 EB(exabyte, 1 EB = 1018 byte)的資料。處理此數量級資訊的設施除需具備高速平行處理的能力外,尚須極高的可靠性和安全性。且由於多體學資料是分散式產生,需要極高效率的傳輸。例如目前癌症基因圖譜的資料若要全部下載,10 GBps頻寬也需要四個月。由於可靠度與安全性考量,不適宜以商用雲端取代之。因此,最佳方案是多個機構集中資源,共同建置管理能長期儲存、提供資料中心級運算(data center-scale computing)的設施。而長程困難在於現有的統計工具無法處理高維度資料,以目前最嚴格的統計方法都很難擺脫高假陽性比率的問題,故亟需發展相應的統計建模工具。

多平台的表觀基因體學整合分析

以跨多種體學的整合分析(integrative analysis)加速癌症分子生物機制的研究,是癌症基因圖譜計畫的宗旨之一,延續過去已發表的研究,多個工作小組使用全基因體(genome)或外顯體(exome)定序進行結構變異(structure variation) 分析、偵測mRNA/miRNA/lincRNA 表現、甲基化程度(methylation level)、組蛋白乙醯化程度(histone acetylation level)、蛋白質表現量(protein level) 等平台,對達到足夠樣本數的個別癌症進行整合分析,以求找出潛在標靶或表觀基因體(epigenomics)機轉。例如偵測融合基因(gene fusion,如EML4-ALK)或斷裂點(break point)的方法,可能可以找出非常具有腫瘤專一性的標靶。而目前分析方法還是以癌症顯著標的確認分析(Genomic Identification of Significant Targets In Cancer, GISTIC)、網絡分析(network-analysis)和亞型分析(subtyping)為主流。蛋白質體學(proteomics)在蛋白質微陣列逐漸普及後可能成為下一個熱門主題,因為微陣列探針即是抗體,故有機會直接找到潛在標靶,亦有數項研究建議以蛋白質體表現量作為生物指標(biomarker)。

困難與展望

當前應用NGS資料之一大問題在於採用不同資料組(data set)和不同分析方法易得出不一致的結論,例如採用多個乳癌資料組卻得到不同的亞型,或多個機構對於同一個資料組分析所得的突變點(mutation calls)僅少數重疊等。而跨癌症的分析亦有亞型僅代表其原生器官的狀況,因此面對高度複雜,充滿雜訊的分子機制,量測平台和統計分析工具仍有改進空間。

雖有大量的分子生物資料,但目前仍缺乏高品質的臨床數據,診療和生物機制的研究仍不易突破,故參與機構需提供更完整的臨床數據與病理資料。因此若此類資料充分,利用多體學資料的藥物反應(drug response),腫瘤次群落(sub-colony)、淋巴細胞浸潤(lymphocyte infiltration)、腫瘤內基因異質性(intratumor heterogeneity)研究都仍極有潛力。

最後, 管理上的困難來自於美國「健康保險便利和責任法案」(Health Insurance Portability and Accountability Act, HIPAA)造成的限制。對於存取具有身份識別潛能的資料型態,如基因型– 表現型資料庫(dbGap),官方審核程序相當繁瑣。申請除須倫理委員會核可外,尚須機構的授權簽名與資訊系統主管簽證。且禁止存儲分析設備連接網際網路,故研究者無法使用於現有商業雲端(如亞馬遜網路服務,Amazon Web Services)。因此未來的因應方式可能為多個機構共同申請計畫,並合作建立安全運算中心。


多體學
體學(omics)泛稱生物學上以-omics作為字尾的幾個研究領域, 包含基因體學(gen o m ics)、蛋白質體學(proteomics)等。近年來因各式技術的進步,逐漸發展出廣泛統合各體學來探討生物分子在生物體中之作用的研究,是為多體學(muti-omics),而這牽扯到龐大的資料量,也是生物研究領域進入大數據時代的象徵。

沒有留言:

張貼留言