AWS宣布具備EC2超級集群能力的Amazon EC2 P4d實例正式可用

由NVIDIA A100 Tensor Core GPUs和AWS PB級網絡支持的下一代加速計算實例，面向云端的機器學習訓練和高性能計算。與上一代實例相比訓練速度提升3倍，成本降低60%。

AWS

2020-11-06 11:44 4836

日前，亞馬遜云服務(AWS)宣布Amazon Elastic Compute Cloud (Amazon EC2) P4d實例正式可用。

北京2020年11月6日 /美通社/ -- 日前，亞馬遜云服務(AWS)宣布Amazon Elastic Compute Cloud (Amazon EC2) P4d實例正式可用。P4d是下一代GPU驅動的實例，與上一代的P3實例相比，在機器學習訓練和高性能計算(HPC)工作負載場景下，性能提升3倍，成本降低60%，GPU內存增加2.5倍。P4d實例配備8顆NVIDIA A100 Tensor Core GPU，網絡帶寬達400 Gbps(比P3實例多16倍)。通過將P4d實例與AWS的Elastic Fabric Adapter(EFA)和NVIDIA GPUDirect RDMA(遠程直接訪問內存)技術一起使用，客戶可以創(chuàng)建具備EC2超級集群功能的P4d實例。借助EC2超級集群，使用AWS設計的、與Amazon FSx for Lustre高性能存儲集成的PB級無阻塞網絡基礎架構，客戶可將P4d實例擴展至超過4000多個A100 GPU(相當于其它云供應商的2倍多)，獲得按需訪問的超算級性能，加速機器學習訓練和高性能計算。

如欲開始使用P4d實例，請訪問：https://aws.amazon.com/ec2/instance-types/p4

數(shù)據科學家和工程師們正不斷擴展機器學習的邊界，通過創(chuàng)建規(guī)模更大、更復雜的模型，從而為一系列廣泛用例提供更精準的預測，其中包括自動駕駛汽車的感知模型訓練、自然語言處理、圖像分類、對象檢測，以及預測分析。針對大量數(shù)據訓練這些復雜的模型是一項計算、網絡和存儲密集型任務，經常耗時數(shù)天或數(shù)周?？蛻舨粌H想減少訓練模型的時間，也希望降低用于訓練的整體支出?？傮w來說，時間長和成本高限制了客戶訓練模型的頻率，降低了機器學習開發(fā)和創(chuàng)新的速度。

P4d實例增強的性能可將機器學習模型訓練時間縮短了3倍(將訓練時間從數(shù)天減少到數(shù)小時)，額外的GPU內存可幫助客戶訓練更大、更復雜的模型。隨著數(shù)據變得越來越豐富，客戶訓練的模型有數(shù)百萬個甚至數(shù)十億個參數(shù)，例如用于文檔摘要和問題解答的自然語言處理、面向自動駕駛汽車的對象檢測與分類、用于大規(guī)模內容審核的圖像分類、電子商務網站的推薦引擎，以及智能搜索引擎的排名算法，所有這些都需要更多的網絡吞吐量和GPU內存。P4d實例具有8顆NVIDIA A100 Tensor Core GPU，單臺EC2實例混合精度性能高達2.5 petaflops，GPU內存網絡帶寬高達320GB。P4d實例是業(yè)界首個提供400Gbps網絡帶寬的實例，通過Elastic Fabric Adapter (EFA)和NVIDIA GPUDirect RDMA網絡接口支持跨服務器的GPU之間直接通信，從而降低延遲，提高擴展效率，有助于消除跨多節(jié)點分布式工作負載的擴展瓶頸。每個P4d實例還提供96顆Intel Xeon Scalable(Cascade Lake)vCPU，1.1TB的系統(tǒng)內存，以及8TB的本地NVMe存儲，以減少單節(jié)點的訓練時間。通過將上一代P3實例的性能提升一倍以上，P4d實例可將機器學習模型訓練的成本降低多達60%，與昂貴且不靈活的本地系統(tǒng)相比，為客戶帶來更高效的體驗。高性能計算客戶還將受益于P4d實例增加的處理性能和GPU內存，滿足要求苛刻的工作負載，比如地震分析、藥物發(fā)現(xiàn)、DNA測序、材料科學、金融和保險風險建模。

P4d實例也構建在AWS Nitro 系統(tǒng)之上，后者是AWS自己設計的硬件和軟件，讓AWS能夠向客戶提供越來越廣泛的EC2實例和配置選擇，同時提供與裸金屬無差別的性能，快速存儲和聯(lián)網能力，并確保更安全的多租戶。P4d實例將網絡功能卸載至專用的Nitro Cards上，加速多個P4d實例間的數(shù)據傳輸。Nitro Cards同時支持EFA和GPUDirect，支持GPU間跨服務器直接通信，實現(xiàn)P4d實例的EC2超級集群間更低的延遲表現(xiàn)和更強的伸縮性能。這些由Nitro驅動的能力讓客戶有可以在EC2超級集群中啟動P4d，按需和可擴展地訪問超過4000個GPU，以獲得超算級的性能。

“客戶使用AWS服務構建、訓練和部署機器學習應用的速度非?？臁Ｅc此同時，我們從客戶那里聽到他們希望以成本更低的方式來訓練其龐大的機器學習模型?！盇WS EC2副總裁Dave Brown表示，“現(xiàn)在，通過NVIDIA最新的A100 GPU和PB級網絡支持的P4d實例的EC2超級集群，我們讓超算級的性能幾乎適用于所有人。同時與上一代實例相比，將訓練機器學習模型的時間縮短3倍，訓練成本降低高達60%?！?/p>

客戶可以使用Amazon Elastic Kubernetes Service (Amazon EKS)或Amazon Elastic Container Service (Amazon ECS)服務的AWS深度學習容器庫，在P4d實例上運行容器化應用。要想獲得更加完整的托管體驗，客戶可以通過Amazon SageMaker使用P4d實例，從而使開發(fā)者和數(shù)據科學家能夠快速構建、訓練和部署機器學習模型。高性能計算客戶可以利用AWS Batch和AWS ParallelCluster，使用P4d實例幫助高效協(xié)調任務和集群。P4d實例支持所有主要的機器學習框架，包括TensorFlow、PyTorch以及Apache MXNet，客戶可以靈活地選擇最適合其應用的框架。P4d實例現(xiàn)已在美國東部(弗吉尼亞) and 美國西部(俄勒岡)區(qū)域可用，并計劃在其他區(qū)域很快推出。P4d實例可以按需購買，也可以使用Savings Plan、預留實例，或競價型實例進行購買。

豐田研究院(TRI)成立于2015年，致力于為豐田開發(fā)自動駕駛、機器人和其他人力擴充技術?！癟RI致力于創(chuàng)造讓每個人都可以自由移動的未來。”TRI基礎設施工程技術總監(jiān)Mike Garrison表示，“上一代P3實例幫助我們將機器學習模型訓練時間從數(shù)天減少至數(shù)小時。非常期待使用P4d實例，其更多的GPU內存和更高效的浮點格式可以讓我們的機器學習團隊更快速地訓練更復雜的模型?！?/p>

消息來源：AWS