量化自身:借助雲計算平台,人類解讀基因的成本正在急速降低
編者按:2014年初,美國Illumina公司發布HiSeq X Ten高通量基因測序平台,標誌著人類進入1000美元一個基因組的時代,人人都有條件對自己的基因進行解讀,人人都可以更加全面了解自己的DNA,同時也意味著產生海量的基因數據。 Illumina的員工郝向穩辭職之後,於今年7月創立基雲惠康Genekang,其團隊立志通過對海量人基因組數據的分析為人類的生活和健康服務。這是郝向穩在36氪首發的文章。
現在越來越多的基因界數據分析公司都在開發基於雲計算的數據分析平台,利用雲計算平台的高吞吐能力降低海量基因、健康數據分析的成本。
2014.1.4,Google Ventures投資公司宣布參與DNAnexus公司的第三輪融資,投入1500萬美元開發新型雲計算平台以支持生物醫藥研發研究。 DNAnexus提供的雲計算分析主要在DNA序列數據應用分析上。
2014.9.28,Seven Bridge Genomics(SBG)獲得美國國家癌症研究所的基因組數據分析項目,分享其中的590萬美元。 SBG主要提供的是基於亞馬遜雲計算平台的基因數據分析業務。
2014.10.3,基因界的“英特爾”Illumina公司下屬的雲計算平台BaseSpace與AB SCIEX合作,在基因數據分析之外,開始集成蛋白數據的分析。
而在2013.10.28,Illumina剛剛收購了偏向於臨床醫療數據分析的公司NextBio。
人的基因信息有多大?首先一個普通成年人的身體由3.72 × 1013個不同種類的細胞組成。絕大部分的細胞都是雙倍體基因組的。除精子和卵子這些性細胞外,在每個細胞核中包括23對染色體,所謂雙倍體,就是指23對染色體中各有一半分別來自父親和母親。人所有的基因都包含在這23條染色體上,總的基因序列是大約30億個鹼基(3Gb)。
目前,利用Illumina等公司的新一代基因測序技術,要得到比較準確的信息,一般認為30X的基因測序深度是必須的,所以一個人的基因組檢測大約需要產生90Gb的數據。如此大的數據,在一般的電腦或小型服務器上運行起來非常困難。所以,像基雲惠康這樣的生物信息分析創業公司開始開發基於雲計算的技術平台和工具,利用雲計算的優勢降低成本,提高數據分析的速度。
人的基因有多少?在人的30億個鹼基序列中包括了21000多個編碼蛋白質的基因,每個基因的功能都不太一樣,有控制發育的,有控制運動的,有幫我們抵抗傳染病的。當然,也有能導致腫瘤、白血病的。同時,很多基因不止一個功能,同一個基因在很多功能中起著不同的作用。我們人類這21000多個基因大部分每個人都有,但同一個基因的序列在不同的人身上會有差異,這個差異就導致了千人千面。比如BRCA1基因在每個人的基因組上都存在,但像安吉麗娜朱莉的BRCA1基因序列與其他人就不太一樣,她帶的這個基因更容易導致乳腺癌和卵巢癌。所以,她提前動手,切除了乳腺,摘掉了卵巢,以免自己的孩子將來遭受喪母之痛,大愛。
基因的研究在不斷的進行中,很多基因的功能還未知,已知功能的基因不斷發現有新功能,目前的研究基本上就是收集一定量樣本,把表型數據與基因型數據進行關聯分析,從而發現與表型有關的基因及其功能。但在大數據時代,科研的模式會逐漸發生變化。
回到Illumina收購NextBio公司。 NextBio的平台讓客戶能夠利用獨特的關聯引擎來比較實驗數據和現有的數據集,從而發現新的關聯。它使用高度擴展的軟件即服務(SaaS)企業技術,能夠分析PB級的數據。 Illumina的CEO Jay Flatley表示:“NextBio實現了單一環境下表型和臨床數據的分類和匯總,以前所未有的速度和規模進行數據分析。Illumina BaseSpace雲計算環境與NextBio平台的融合,將讓我們能夠提供解決方案,無縫整合從樣品到結果的整個流程”。
這也解釋了我上次見到Jay Flatley時問他的那個問題:為什麼Illumina收購了NextBio,而沒有收購DNAnexus?因為Illumina需要表型數據。
表型數據多種多樣,如髮型顏色,頭髮彎曲還是直的,眼皮單雙,身高、體重、血壓、心率、血糖、皮膚特點、眼球顏色、指紋、鼻樑、嘴型、呼吸、眉毛等等,這些是比較容易看見或容易測量的特徵。人體並不是一個固定不變的生命體,每個細胞內是不同的,各種組織器官基因變化的數據是一個不斷變化的過程,形成了多種多樣的表達譜。
《失控》的作者KK(凱文·凱利)是全球“量化自身”(Quantified Self – QS)運動的發起者。如今,全球已有500多個量化自身運動的Group 在不定期交流。量化自身產生了各種各樣的數據,特別是可穿戴設備最近如火如荼。它對人體表型數據的獲取從原來去醫院、體檢中心的單點、間斷檢測模式變成了24小時的連續檢測模式,數據的完整性提高,更加客觀反映生命的體徵,同時也意味著數據量更加龐大。
大數據是生命的基本特徵,對於生命體徵的量化,基因組是最基礎、最核心的數據。對於基因數據、眾多體徵數據的整合、挖掘、利用將會是未來健康大數據的一個努力方向,從而讓預防和大數據在大健康領域發揮巨大作用。
[36氪原創文章,作者: 驍騎]
資料來源:36Kr