AWS公開武漢肺炎資料湖供研究人員分析使用

AWS建立了一個公開的武漢肺炎(COVID-19)資料湖(Data Lake),集中收集新型冠狀病毒以及相關病例的資料集儲存庫,AWS提到,他們會持續與多個組織合作,使資料集能夠即時更新,並免費對外開放這個資料湖。

無數醫護人員、科學家與公共衛生官員投入對抗武漢肺炎疫情,而AWS表示,提供這些專家所需要的資料以及工具,能夠幫助理解和追蹤病毒,以進一步阻止病毒擴散,因此AWS對外公開了公共武漢肺炎病毒資料湖,其包含了武漢肺炎病毒的散布和研究等相關資料。

這個資料湖收集了來自約翰霍普金斯大學和紐約時報病例追蹤資料,還有Definitive Healthcare所提供的可用病床資訊,以及超過45,000篇有關武漢肺炎,和來自艾倫人工智慧研究所對其他冠狀病毒的研究論文。

當有新資料公開時,AWS會定時更新到資料湖中,這個資料湖能夠讓研究人員快速取得這些現有資料,不再需要浪費時間從多個來源存取資料,AWS認為,當資料可以被更多人簡單地取用時,便能更快地打擊武漢肺炎病毒疫情。

資料湖使用者能夠將公共資料湖的資料,合併到自己的資料集中,也能透過AWS Data Exchange訂閱來源資料集,在工具使用上,可以利用AWS或是第三方工具,進行趨勢分析、關鍵字搜尋、建置機器學習模型或是進行其他客製化分析。

AWS表示,使用者可以利用Amazon Athena來查詢公共武漢肺炎資料湖中的表格,Athena是一種無伺服器互動式查詢服務,可讓用戶使用SQL直接分析資料湖中的資料,除了Athena,使用者還可以使用Amazon Redshift Spectrum將資料湖中的資料,和資料倉儲的其他資料整合在一起,或是使用Amazon QuickSight視覺化資料集。

AWS也使用武漢肺炎病例追蹤、測試及病床資料,以Amazon QuickSight建立了公開儀表板,提供疫情每日資料更新,使用者能夠查看各國家和各省的詳細資料。

AWS預期相關衛生部門,可以使用公共武漢肺炎資料湖的資料集,建構儀表板追蹤感染,和部署像是呼吸器與病床等重要資源,流行病學家也能利用完整的資料,補充自有的資料集與模型。要使用公共武漢肺炎資料湖,必須要擁有AWS帳戶,並且具有創建AWS CloudFormation堆疊與AWS Glue資源的權限。

原文來自 iThome Online