Amazon的云計算機(jī)構(gòu)Amazon Web Services(AWS)將存儲美國國家衛(wèi)生研究院(NIH)的“千人基因組計劃”—一項(xiàng)對1700人的遺傳信息的調(diào)查,數(shù)據(jù)大小為200TB—的全部內(nèi)容,并向公眾開放。任何人都可以免費(fèi)訪問這些信息,且不對因此而產(chǎn)生的任何研究成果要求共享。
據(jù)外媒報道,美國國立衛(wèi)生研究院29日宣布,他們的千人基因組計劃的全部數(shù)據(jù)將免費(fèi)對外開放。這些數(shù)據(jù)總量達(dá)到200TB,是上大的人類基因變異數(shù)據(jù)集。亞馬遜旗下的云計算公司——“亞馬遜網(wǎng)絡(luò)服務(wù)”將存儲這個龐大的數(shù)據(jù)庫。
千人基因組計劃旨在為基因變異如何影響健康以及與疾病間關(guān)系的研究奠定基礎(chǔ)。所有數(shù)據(jù)免費(fèi)對外開放意味著更多科學(xué)家可以利用這些數(shù)據(jù)進(jìn)行研究,以更快的速度得出基因型與癌癥、糖尿病等疾病間關(guān)系的發(fā)現(xiàn)。這項(xiàng)計劃于2008年啟動,立基于全26個國家和地區(qū)的2600多人的基因組。其中1700人的DNA測序結(jié)果將在不久后公布并進(jìn)行云存儲,余下900人的DNA將在2012年進(jìn)行測序。
國立衛(wèi)生研究院的千人基因組計劃是一項(xiàng)規(guī)模更大的舉措組成部分,用于管理科學(xué)研究產(chǎn)生的海量數(shù)據(jù)——數(shù)據(jù)管理本身就是一門科學(xué)。由于類似千人基因組計劃這樣的數(shù)據(jù)集規(guī)模龐大,很少有研究人員具備處理能力,因此也就無法使用。根據(jù)國立衛(wèi)生研究院的計算,千人基因組計劃的數(shù)據(jù)如果打印出來,可放滿1600萬個檔案柜;如果使用標(biāo)準(zhǔn)DVD存儲,需要3萬多張DVD。
對于科學(xué)家和他們所在的研究機(jī)構(gòu)來說,千人基因組計劃數(shù)據(jù)進(jìn)行云存儲無疑是一個好消息,他們無需擁有更大帶寬,數(shù)據(jù)存儲和分析處理能力便可獲取這些數(shù)據(jù)。亞馬遜網(wǎng)絡(luò)服務(wù)公司產(chǎn)品德帕克·*表示:“這意味著所有研究人員和實(shí)驗(yàn)室都可以獲取完整的千人基因組計劃數(shù)據(jù),無論它們規(guī)模大小和預(yù)算多少。他們可以立即對這些數(shù)據(jù)進(jìn)行分析,而無需在這方面投入資源。通常情況下,他們需要硬件、設(shè)施和人員才能獲取這些數(shù)據(jù)。由于無需投入資源便可獲得研究所需數(shù)據(jù),科學(xué)家可以加快研究步伐。”
對于亞馬遜網(wǎng)絡(luò)服務(wù)公司來說,存儲千人基因組計劃的數(shù)據(jù)可能也是一個好消息。美國《紐約時報》報道稱,處理如此海量數(shù)據(jù)需要極大的運(yùn)算能力,亞馬遜網(wǎng)絡(luò)服務(wù)公司可以要求獲得額外的資源,用于進(jìn)一步處理或者分析這些數(shù)據(jù)。
認(rèn)為云存儲千人基因組計劃數(shù)據(jù)是他們的“大數(shù)據(jù)研究和發(fā)展倡議”所提出的解決方案的一個*。美國科學(xué)和技術(shù)政策辦公室29日宣布,將有2億多美元投向6個聯(lián)邦機(jī)構(gòu),用于推動大數(shù)據(jù)計算領(lǐng)域的研究——包括大數(shù)據(jù)分析——以及大數(shù)據(jù)在科學(xué)探索、環(huán)境和生物醫(yī)學(xué)研究、教育以及國家安全領(lǐng)域的應(yīng)用。