給力！南開團隊刷新圖像生成模型質(zhì)量和速度！浪潮信息AIStation支撐

浪潮信息

2024-09-24 15:33 2467

北京2024年9月24日 /美通社/ -- 只要輸入提示文字，大模型就能給我們高度擬真、準(zhǔn)確的圖像，相信很多人已經(jīng)體驗到這種前沿且酷炫的圖像創(chuàng)作方式，這背后其實是能力強大的圖像生成模型做支撐。

目前諸如Sora等前沿圖像生成模型，基于的主體架構(gòu)都是Diffusion Transformer（DiT）。DiT可以將生成模型擴展到更大的模型規(guī)模，從而實現(xiàn)高質(zhì)量的圖像生成。然而更大的模型規(guī)模導(dǎo)致訓(xùn)練成本飆升，為此，南開大學(xué)計算機學(xué)院研發(fā)了Masked Diffusion Transformer（MDT）圖像生成模型，相比DiT訓(xùn)練速度提升10倍以上，實現(xiàn)了ImageNet Benchmark上1.58的FID score，再次刷新SOTA圖像生成質(zhì)量和學(xué)習(xí)速度。相關(guān)論文已在計算機視覺頂級會議ICCV 2023（計算機視覺國際大會）發(fā)表。

MDT開發(fā)和訓(xùn)練的背后需要強大的AI算力資源支持，為了建設(shè)滿足MDT開發(fā)和訓(xùn)練需求的AI算力平臺，南開大學(xué)與浪潮信息合作，借助浪潮信息AI服務(wù)器構(gòu)建強大算力資源池，利用AIStation智能業(yè)務(wù)生產(chǎn)創(chuàng)新平臺實現(xiàn)算力高效分發(fā)，提高計算資源利用率，加速MDT圖像生成模型訓(xùn)練。

大模型創(chuàng)新面臨海量算力資源挑戰(zhàn)

DiT雖然在圖像生成領(lǐng)域取得了顯著的成功，但是DiT往往難以高效地學(xué)習(xí)圖像中物體各部分之間的語義關(guān)系，這一局限性導(dǎo)致了訓(xùn)練過程的低收斂效率，經(jīng)常需要數(shù)十萬次地迭代訓(xùn)練才能生成高質(zhì)量的圖像。為了降低訓(xùn)練成本，提升訓(xùn)練效率，南開大學(xué)計算機學(xué)院程明明教授團隊開展了大模型領(lǐng)域的深度研究，MDT就是重要科研成果之一。MDT利用mask modeling表征學(xué)習(xí)策略，增強DiT對上下文語義信息的學(xué)習(xí)能力，進而提升圖像生成的質(zhì)量和學(xué)習(xí)速度。

大模型技術(shù)進步的背后離不開強大算力的支持，為了進一步提升MDT的開發(fā)和訓(xùn)練效率，同時實現(xiàn)算力成本效益的最大化，南開大學(xué)對算力基礎(chǔ)設(shè)施的建設(shè)提出了如下訴求：

需要強大的AI算力資源支持。以程明明教授團隊為例，研發(fā)高峰期甚至需要付費租用更昂貴的云算力資源，特別是按照新引進的團隊規(guī)模，現(xiàn)有設(shè)備的峰值算力已經(jīng)無法滿足科研需求，亟需構(gòu)建高質(zhì)量的算力資源池；

快速構(gòu)建大模型開發(fā)環(huán)境，提高模型訓(xùn)練效率。大模型訓(xùn)練環(huán)境配置、框架匹配與參數(shù)調(diào)整經(jīng)常會耗費大量的人力與物力，還可能會碰到環(huán)境算法配置復(fù)雜、模型結(jié)構(gòu)多樣適配繁瑣等問題，這會耽誤寶貴的模型研發(fā)時間；

算力資源高效調(diào)度，降低算力使用成本。大模型訓(xùn)練的不同任務(wù)、不同階段對于算力的需求有著明顯的波動性，如果無法精準(zhǔn)調(diào)度算力資源，不僅會造成冗余算力在平常時段的閑置浪費，導(dǎo)致算力成本大幅提升，也很難滿足資源高效管理調(diào)度的需求。

提升AI算力利用效率加快大模型開發(fā)

南開大學(xué)采用了浪潮信息提供的算力方案，該方案包括浪潮信息高性能AI服務(wù)器、網(wǎng)絡(luò)交換機、存儲系統(tǒng)，滿足模型訓(xùn)練過程中對算力資源的需求。同時，為了最大化利用AI算力資源、提升大模型開發(fā)效率，南開大學(xué)利用AIStation平臺實現(xiàn)AI算力資源的高效調(diào)度。

全新升級的AIStation具備全面的大模型流程支持能力，幫助用戶低門檻構(gòu)建大模型微調(diào)任務(wù)，提供標(biāo)準(zhǔn)、安全的大模型推理服務(wù)，并針對大模型業(yè)務(wù)資源需求優(yōu)化了算力管理功能，助力南開大學(xué)快速開展大模型業(yè)務(wù)創(chuàng)新與落地，獲得穩(wěn)定、高效、易用、高精度的大模型服務(wù)。

浪潮信息AIStation為大模型訓(xùn)練提供有力支持，助力南開大學(xué)的大模型開發(fā)能力：

構(gòu)建端到端的大模型開發(fā)流程：AIStation支持端到端的大模型開發(fā)流程，支持TensorFlow、PyTorch、MxNet等主流大模型框架以及GoogleNet/VGG/ResNet等網(wǎng)絡(luò)模型，一臺GPU服務(wù)器可運行多種框架環(huán)境，并實現(xiàn)快速切換。AIStation通過自動環(huán)境部署和AI工作流，將MDT的開發(fā)準(zhǔn)備時間大幅縮短，幫助南開大學(xué)有效降低構(gòu)建大模型開發(fā)環(huán)境和訓(xùn)練任務(wù)等門檻。

提升AI算力資源利用率：AIStation支持更加細(xì)粒度的分配調(diào)度算力，幫助南開大學(xué)為每項AI訓(xùn)練任務(wù)合理匹配AI算力資源，實現(xiàn)資源的高效利用。針對MDT等優(yōu)先級較高的應(yīng)用，AIStation可設(shè)置GPU、CPU、內(nèi)存數(shù)量，硬件資源隔離，應(yīng)用環(huán)境獨立，各應(yīng)用之間互不影響。

實現(xiàn)算力資源快速調(diào)度：AIStation簡化了算力調(diào)度和模型開發(fā)流程，實現(xiàn)了業(yè)務(wù)按需使用、秒級下發(fā)，并實現(xiàn)大模型實驗室不同團隊共用流程、共享環(huán)境，開發(fā)者與算力高效協(xié)同。平臺還提供了實時、可視化的數(shù)據(jù)支持，支持訓(xùn)練進度、訓(xùn)練結(jié)果、資源利用情況等數(shù)據(jù)的可視化展示，助力南開大學(xué)精準(zhǔn)進行算力調(diào)度。

浪潮信息提供的算力解決方案，為南開大學(xué)程明明教授團隊在圖像生成領(lǐng)域的研究提供了強大的算力支持和高效的資源調(diào)度能力，顯著提升了MDT圖像生成模型的訓(xùn)練速度和圖像質(zhì)量，對于藝術(shù)創(chuàng)作、游戲開發(fā)乃至醫(yī)學(xué)影像分析等領(lǐng)域都有重大潛力。

消息來源：浪潮信息