亞馬遜云科技近期宣布了一項重大進展,旨在推動生成式AI技術,特別是推理模型和Agentic AI系統的發展。該公司正式推出了由NVIDIA Grace Blackwell Superchips加速的Amazon EC2 P6e-GB200 UltraServer,這款服務器專為處理大型復雜AI模型的訓練和部署而打造。
早些時候,亞馬遜云科技已經引入了基于NVIDIA Blackwell GPU的Amazon EC2 P6-B200實例,該實例支持多樣化的AI和高性能計算任務,為用戶提供了更多的選擇。
Amazon EC2 P6e-GB200 UltraServer代表了亞馬遜云科技在GPU產品方面的巔峰之作。它最多可配備72個NVIDIA Blackwell GPU,這些GPU通過第五代NVIDIA NVLink互連技術協同工作,形成一個強大的計算單元。其計算能力高達360 petaflops(FP8),并配備了13.4TB的高帶寬顯存(HBM3e),與P5en實例相比,計算性能提升了20多倍,內存容量也增加了11倍。UltraServer還支持高達28.8 Tbps的第四代Elastic Fabric Adapter(EFAv4)網絡帶寬,進一步提升了數據傳輸效率。
針對廣泛的AI應用場景,Amazon EC2 P6-B200實例提供了靈活的配置選項。每個實例配備了8個通過NVLink互連的NVIDIA Blackwell GPU,擁有1.4TB高帶寬顯存和最高3.2 Tbps的EFAv4網絡帶寬,同時搭載了第五代Intel Xeon Scalable處理器。與P5en實例相比,P6-B200實例在GPU計算能力、顯存容量和顯存帶寬方面均有顯著提升。
為了簡化Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實例的部署過程,亞馬遜云科技提供了多種部署路徑。客戶可以迅速開始使用Blackwell GPU,同時保持其現有的運維模式不變。
Amazon SageMaker HyperPod也將支持這兩款新實例。通過優化工作負載在同一NVLink域內的運行,HyperPod能夠最大化性能表現。亞馬遜云科技還構建了一套完善的多層級恢復機制,能夠在同一NVLink域內自動替換故障節點,確保服務的連續性和穩定性。內置儀表板提供了全面的可視化信息,包括GPU利用率、內存使用情況、工作負載指標和UltraServer的運行狀態等。
Amazon EC2 P6e-GB200 UltraServer還將通過NVIDIA DGX Cloud平臺提供。DGX Cloud是一個經過全面優化的統一AI平臺,具備多節點AI訓練和推理能力,并集成了英偉達完整的AI軟件棧。客戶可以利用英偉達最新的性能優化方案、基準測試方法和技術專長,提升AI項目的效率和性能。該平臺還提供靈活的服務期限選擇和英偉達專家提供的全面支持與服務,助力客戶加速推進AI項目。






