浪潮在云棲大會(huì)上推出FPGA AI云方案

2017-10-13 21:41 7315

10月11日，2017阿里云棲大會(huì)在杭州云棲小鎮(zhèn)舉行。浪潮在阿里展臺(tái)發(fā)布了基于 F10A 的 AI 線上推理、GZip 算法與 WebP 圖片轉(zhuǎn)碼三大云場(chǎng)景 FPGA 加速方案。

杭州2017年10月13日電 /美通社/ -- 10月11日，2017阿里云棲大會(huì)在杭州云棲小鎮(zhèn)舉行，這次大會(huì)吸引了來(lái)自全球近5萬(wàn)名嘉賓參會(huì)，堪稱史上較強(qiáng)。作為阿里在數(shù)據(jù)中心與 AI 計(jì)算基礎(chǔ)設(shè)施的重要合作伙伴，浪潮在阿里展臺(tái)發(fā)布了基于 F10A 的 AI 線上推理、GZip 算法與 WebP 圖片轉(zhuǎn)碼三大云場(chǎng)景 FPGA 加速方案，在擴(kuò)充 FPGA 生態(tài)的同時(shí)，也將為從事 AI 開(kāi)發(fā)與應(yīng)用的公司以及大型數(shù)據(jù)中心用戶，提供更高性能功耗比的專用加速芯片選擇。

AI 是壯觀云棲大會(huì)的熱點(diǎn)

“飛天·智能”是本屆大會(huì)的主題，對(duì)于人工智能的發(fā)展與未來(lái)，馬云在首日的演講中談到：“當(dāng)同一件事情幾個(gè)方向都在談的時(shí)候，意味著一個(gè)時(shí)代的到來(lái)。”他認(rèn)為：“人工智能，機(jī)器應(yīng)該像人一樣會(huì)學(xué)習(xí)，而不是和人一樣思考，”同時(shí)也提醒到，“對(duì)于下一次技術(shù)革命，如果沒(méi)有想象、沒(méi)有擔(dān)當(dāng)、沒(méi)有學(xué)習(xí)能力和認(rèn)知能力，人類是悲哀的。”

異構(gòu)計(jì)算是當(dāng)今 IT 業(yè)界公認(rèn)的實(shí)現(xiàn)高效人工智能計(jì)算、加速人工智能創(chuàng)新的新一代計(jì)算架構(gòu)，通過(guò)使用特性不同、架構(gòu)不同的不同計(jì)算單元，人工智能計(jì)算能夠獲得較佳的計(jì)算性能、計(jì)算效率和計(jì)算經(jīng)濟(jì)性。

在云棲大會(huì)的異構(gòu)計(jì)算&高性能計(jì)算分論壇上，阿里云異構(gòu)計(jì)算高級(jí)專家龍欣就表示：“阿里云正在以異構(gòu)計(jì)算為核心構(gòu)建業(yè)務(wù)永續(xù)、高性能、高性價(jià)比、彈性的人工智能引擎?！倍鴮?duì)于異構(gòu)計(jì)算中正扮演越來(lái)越重要角色的FPGA，龍欣強(qiáng)調(diào)：FPGA 具有能耗比、低延遲、高帶寬、常規(guī)浮點(diǎn)運(yùn)算力迅速迭代提升等突出優(yōu)勢(shì)。此外，F(xiàn)PGA 作為硬件加速+硬件可編程的技術(shù)，可以“在云上運(yùn)行硬件自定義邏輯”的特點(diǎn)可以滿足不同的應(yīng)用定制化需求，是“專用計(jì)算中的多面手”。

浪潮推出領(lǐng)先的 FPGA AI 加速方案

AI 同樣是浪潮最重視的未來(lái)戰(zhàn)略級(jí)技術(shù)，并致力于為高速發(fā)展的人工智能應(yīng)用需求不斷創(chuàng)新設(shè)計(jì)&提供頂尖的 AI 計(jì)算產(chǎn)品方案。2017年浪潮在人工智能計(jì)算的數(shù)據(jù)中心產(chǎn)品創(chuàng)新、深度學(xué)習(xí)算法框架優(yōu)化、生態(tài)系統(tǒng)建設(shè)等方向已全面發(fā)力。

此次浪潮發(fā)布的三大 FPGA 加速方案全部基于自主研發(fā)的 F10A，這是目前業(yè)界支持 OpenCL 的較高密度、較高性能的 FPGA 加速設(shè)備。F10A 的單芯片峰值運(yùn)算能力為 1.5TFlops，而功耗僅 35W，每瓦特性能達(dá)到 42GFlops。同時(shí)，F(xiàn)10A 設(shè)計(jì)半高半長(zhǎng) PCI-E 插卡，具有靈活的板卡內(nèi)存配置，較大支持 32G 雙通道內(nèi)存，能夠寄存更多的并行任務(wù)數(shù)據(jù)。此外，F(xiàn)10A 支持2個(gè) 10Gb 光口，可以實(shí)現(xiàn)數(shù)據(jù)直接從網(wǎng)絡(luò)到板卡處理，無(wú)需經(jīng)過(guò) CPU，減低了傳輸延時(shí)。

基于 FPGA 具有可編程專用性，高性能及低功耗的特點(diǎn)，浪潮 F10A AI 線上推理加速方案針對(duì) CNN 卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)算法進(jìn)行優(yōu)化和固化，可加速 ResNe t等神經(jīng)網(wǎng)絡(luò)，能夠應(yīng)用于圖片分類、對(duì)象檢測(cè)和人臉識(shí)別等應(yīng)用場(chǎng)景。

實(shí)測(cè)數(shù)據(jù)顯示，在進(jìn)行 ResNet 殘差網(wǎng)絡(luò)的圖片識(shí)別分類任務(wù)時(shí)，浪潮 F10A 加速方案圖片處理速度可達(dá)每秒742張，Top-5 識(shí)別準(zhǔn)確率達(dá)到99.6%，相比同檔次 GPU 能效比提升7倍以上。而與通用 CPU 對(duì)比，在處理這種高并行、小計(jì)算量的任務(wù)時(shí)，F(xiàn)10A 的優(yōu)勢(shì)將更明顯。

值得一提的，浪潮 F10A AI 線上推理加速方案部署非常簡(jiǎn)單，用戶只需要將目前深度學(xué)習(xí)的算法和模型編譯成與浪潮深度學(xué)習(xí)加速解決方案的配置腳本，即可進(jìn)行線上應(yīng)用，省去至少3個(gè)月到半年的開(kāi)發(fā)周期和相關(guān)成本。

此外，浪潮推出的 WebP 圖片轉(zhuǎn)碼 F10A 加速方案，針對(duì)圖片數(shù)據(jù)的壓縮嵌入基于 FPGA 計(jì)算環(huán)境下的 WebP 編解碼優(yōu)化算法，通過(guò)充分利用硬件流水設(shè)計(jì)和任務(wù)級(jí)并行，大大提升 WebP 圖像壓縮編碼算法的處理性能，能夠?qū)崿F(xiàn) JPEG-WebP 圖片格式的快速轉(zhuǎn)換，比傳統(tǒng)實(shí)現(xiàn)方式的整體處理效率平均高9.13倍左右，較高性能可比 CPU 提高14倍。而為了解決傳統(tǒng)壓縮架構(gòu)的弊端，浪潮 F10A GZip 算法加速方案充分利用板卡硬件流水設(shè)計(jì)和任務(wù)級(jí)并行，大幅提升了壓縮任務(wù)的吞吐量并有效降低 CPU 的負(fù)載，壓縮率較高可達(dá)94.8%，壓縮速度達(dá)到 3.2GB/s，10倍于傳統(tǒng)方法的壓縮效率。

目前，浪潮已占有中國(guó) AI 計(jì)算服務(wù)器市場(chǎng)60%以上份額，與百度、阿里、騰訊、科大訊飛、奇虎360、搜狗、今日頭條、Face++ 等人工智能領(lǐng)先公司保持在系統(tǒng)與應(yīng)用方面的深入緊密合作，幫助客戶在語(yǔ)音、圖像、視頻、搜索、網(wǎng)絡(luò)等方面取得數(shù)量級(jí)的應(yīng)用性能提升。相信隨著三大場(chǎng)景 FPGA 加速方案的推出，將讓浪潮在 AI 計(jì)算領(lǐng)域保持更大的競(jìng)爭(zhēng)力與領(lǐng)先優(yōu)勢(shì)。

消息來(lái)源：浪潮集團(tuán)