Amazon的云計算機構Amazon Web Services(AWS)將存儲美國國家衛生研究院(NIH)的“千人基因組計劃”—一項對1700人的遺傳信息的調查,數據大小為200TB—的全部內容,并向公眾開放。任何人都可以免費訪問這些信息,且不對因此而產生的任何研究成果要求共享。
據外媒報道,美國國立衛生研究院29日宣布,他們的千人基因組計劃的全部數據將免費對外開放。這些數據總量達到200TB,是上大的人類基因變異數據集。亞馬遜旗下的云計算公司——“亞馬遜網絡服務”將存儲這個龐大的數據庫。
千人基因組計劃旨在為基因變異如何影響健康以及與疾病間關系的研究奠定基礎。所有數據免費對外開放意味著更多科學家可以利用這些數據進行研究,以更快的速度得出基因型與癌癥、糖尿病等疾病間關系的發現。這項計劃于2008年啟動,立基于全26個國家和地區的2600多人的基因組。其中1700人的DNA測序結果將在不久后公布并進行云存儲,余下900人的DNA將在2012年進行測序。
國立衛生研究院的千人基因組計劃是一項規模更大的舉措組成部分,用于管理科學研究產生的海量數據——數據管理本身就是一門科學。由于類似千人基因組計劃這樣的數據集規模龐大,很少有研究人員具備處理能力,因此也就無法使用。根據國立衛生研究院的計算,千人基因組計劃的數據如果打印出來,可放滿1600萬個檔案柜;如果使用標準DVD存儲,需要3萬多張DVD。
對于科學家和他們所在的研究機構來說,千人基因組計劃數據進行云存儲無疑是一個好消息,他們無需擁有更大帶寬,數據存儲和分析處理能力便可獲取這些數據。亞馬遜網絡服務公司產品德帕克·*表示:“這意味著所有研究人員和實驗室都可以獲取完整的千人基因組計劃數據,無論它們規模大小和預算多少。他們可以立即對這些數據進行分析,而無需在這方面投入資源。通常情況下,他們需要硬件、設施和人員才能獲取這些數據。由于無需投入資源便可獲得研究所需數據,科學家可以加快研究步伐。”
對于亞馬遜網絡服務公司來說,存儲千人基因組計劃的數據可能也是一個好消息。美國《紐約時報》報道稱,處理如此海量數據需要極大的運算能力,亞馬遜網絡服務公司可以要求獲得額外的資源,用于進一步處理或者分析這些數據。
認為云存儲千人基因組計劃數據是他們的“大數據研究和發展倡議”所提出的解決方案的一個*。美國科學和技術政策辦公室29日宣布,將有2億多美元投向6個聯邦機構,用于推動大數據計算領域的研究——包括大數據分析——以及大數據在科學探索、環境和生物醫學研究、教育以及國家安全領域的應用。