omniture

燧原科技首發(fā)國內(nèi)第二代人工智能訓(xùn)練芯片“邃思2.0” | 美通社

2021-07-07 17:28

燧原科技第二代通用人工智能訓(xùn)練芯片“邃思2.0”

燧原科技發(fā)布第二代人工智能訓(xùn)練產(chǎn)品 -- “邃思2.0”芯片、基于邃思2.0的“云燧T20”訓(xùn)練加速卡和“云燧T21”訓(xùn)練OAM模組,全面升級的“馭算TopsRider”軟件平臺以及全新的“云燧集群”,成為國內(nèi)首家發(fā)布第二代人工智能訓(xùn)練產(chǎn)品組合的公司。 

經(jīng)過全新升級迭代后,邃思2.0的計算能力、存儲和帶寬、互聯(lián)能力較第一代訓(xùn)練產(chǎn)品有巨大提升,對超大規(guī)模的模型支持能力獲得顯著增強。而同步升級的馭算TopsRider軟件平臺,成為燧原科技構(gòu)建原始創(chuàng)新軟件生態(tài)的基石。完全自研的軟硬件架構(gòu),助力燧原科技在知識產(chǎn)權(quán)和產(chǎn)品升級迭代上可以自主掌控方向和節(jié)奏。  

架構(gòu)升級實現(xiàn)算力飛躍:邃思2.0進行了大規(guī)模的架構(gòu)升級,新一代全自研的GCU-CARA全域計算架構(gòu),針對人工智能計算的特性進行深度優(yōu)化,夯實了支持通用異構(gòu)計算的基礎(chǔ);支持全面的計算精度,涵蓋從FP32、TF32、FP16、BF16到INT8,并成為中國首款支持單精度張量TF32數(shù)據(jù)精度的人工智能芯片。單精度FP32峰值算力達到40 TFLOPS,單精度張量TF32峰值算力達到160 TFLOPS,均為國內(nèi)第一。 

HBM2E存儲帶來海量吞吐:邃思2.0共搭載了4顆HBM2E片上存儲芯片,高配支持64 GB內(nèi)存,帶寬達1.8 TB/s,是中國第一個支持世界最先進存儲HBM2E和單芯片64 GB內(nèi)存的產(chǎn)品。 

高速互聯(lián)支撐算力擴展:GCU-LARE全域互聯(lián)技術(shù)是燧原專為人工智能訓(xùn)練集群研發(fā)的互聯(lián)技術(shù),提供雙向300 GB/s互聯(lián)帶寬,支持數(shù)千張云燧CloudBlazer加速卡互聯(lián),實現(xiàn)優(yōu)異的線性加速比。 

全新軟件駕馭澎湃算力:馭算TopsRider是燧原科技自主知識產(chǎn)權(quán)的計算及編程平臺,通過軟硬件協(xié)同架構(gòu)設(shè)計,充分發(fā)揮邃思2.0的性能;基于算子泛化技術(shù)及圖優(yōu)化策略,支持主流深度學(xué)習(xí)框架下的各類模型訓(xùn)練;利用Horovod分布式訓(xùn)練框架與GCU-LARE互聯(lián)技術(shù)相互配合,為超大規(guī)模集群的高效運行提供解決方案。開放升級的編程模型和可擴展的算子接口,為客戶模型的優(yōu)化提供了自定義的開發(fā)能力。

(美通社,2021年7月7日上海)