Meta揭露自家設計的推理晶片MTIA和下一代AI資料中心設計

為了滿足未來10年人工智慧研究的需求,Meta規畫下一代人工智慧基礎設施。專為人工智慧設計的基礎設施主幹,包括使用Meta自己設計的人工智慧加速晶片MTIA,並採用新的資料中心設計。另外,在RSC(Research SuperCluster)計畫第二階段,Meta還將完成具有16,000個GPU的超級電腦,以支援人工智慧研究。

簡稱為MTIA(Meta Training and Inference Accelerator)的晶片,是Meta最新針對推理工作負載所設計的加速晶片,Meta表示,MTIA針對內部的工作負載,具有比CPU更強的計算能力和效率,透過部署MTIA和GPU,Meta能夠以更高效能和更低的延遲執行工作負載。

由於Meta認為,他們特有的推薦工作負載規模,GPU無法總是提供需要的運算效率。因此特別開發了MTIA,這是一個全堆疊解決方案,包含了晶片、PyTorch和推薦模型。MTIA和PyTorch完全整合,因此開發者能夠以與CPU和GPU相同的方式,在MTIA上開發程式,除了使用PyTorch,開發者也能以C/C++最佳化運算核心。MTIA之後也會整合PyTorch 2.0。

最新的資料中心也是針對人工智慧工作負載設計,具有液冷式人工智慧硬體,以及將數千個MTIA人工智慧晶片連結在一起的高效能人工智慧網路,可建立起資料中心規模的人工智慧訓練叢集。新設計將使建置更快更具成本效益,並且與其他ASIC解決方案MSVP等現有硬體互補。

除此之外,Meta也將完成超級電腦RSC的第二階段升級,這個專門用來訓練大型人工智慧模型的超級電腦,將會擁有16,000個GPU,並且所有GPU都可以使用3階段Clos網路(Clos Network),以高流量網路支援2,000個訓練系統。

除了硬體的升級,Meta也透過部署人工智慧程式開發助理CodeCompose,改進內部開發方法,依據Meta的描述,CodeCompose就像GitHub Copilot,是一個生成式人工智慧程式開發助理,能夠加速開發人員工作效率。

原文來自 iThome Online