深度學(xué)習(xí)算法的突破是新一輪 AI 產(chǎn)業(yè)騰飛的開端,但在應(yīng)用落地過程中,深度學(xué)習(xí)算法的進(jìn)展極大依賴算力增長。“研究三年算法不如用 10 倍 GPU”,這樣的算力焦慮正成為業(yè)界的普遍困擾。
那么,在面對計(jì)算機(jī)視覺(CV)、自然語言處理(NLP)、跨媒體分析與推理、自主無人系統(tǒng)等場景時(shí),我們該如何匹配綜合效用最大化的算力?在哪些情況下優(yōu)先選擇 NVIDIA A100?為此,青云科技推出AI初創(chuàng)加速計(jì)劃,在提供4折優(yōu)惠的同時(shí),也幫助用戶對認(rèn)識 AI 算力,建立起一個(gè)直觀的理解,并提供一個(gè)易用、可參考的 GPU 選型框架。
初識 AI 算力:GPU 還是面向未來的主流技術(shù)路線嗎?Ampere 架構(gòu)屬實(shí)站在大氣層?
GPU 作為加速器,是實(shí)現(xiàn)深度學(xué)習(xí)算法的通用算力,和針對細(xì)分場景定制優(yōu)化的 FPGA、ASIC 芯片一道,都是傳統(tǒng)“馮·諾依曼”架構(gòu)的延伸。
GPU 相較 CPU 擁有更多的 ALU,使用 SIMD 并行處理密集型數(shù)據(jù)。這樣的架構(gòu)最初被用于圖像數(shù)據(jù)處理,隨后被發(fā)現(xiàn)其具有離散化和分布式特征,可用矩陣運(yùn)算替代布爾運(yùn)算,十分適合處理深度學(xué)習(xí)所需要的非線性離散數(shù)據(jù),尤其在進(jìn)行深度學(xué)習(xí)算法訓(xùn)練時(shí)非常高效。
緊追 GPU 步伐的是半定制化 FPGA,以及專用定制化 ASIC 芯片。FPGA 是在 PAL、GAL、CPLD 等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物,本質(zhì)上通過硬件的配置實(shí)現(xiàn)軟件算法,因此適用于以硬件流水線方式處理一條數(shù)據(jù),在能耗、性能方面具有明顯優(yōu)勢,但實(shí)現(xiàn)復(fù)雜算法的開發(fā)成本較高。
ASIC 是 AI 算力走向進(jìn)一步專用、定制化的產(chǎn)物,定制開發(fā)使得 ASIC 具有功耗低、可靠性高、性能高、體積小等特點(diǎn),也相應(yīng)的伴隨不可編程、可擴(kuò)展性差等不足。我們所熟知的 VPU、TPU 都屬于 ASIC 芯片。VPU 專為圖像和視覺處理而定制。Google 專為 TensorFlow 開發(fā)的 TPU 運(yùn)行整體神經(jīng)網(wǎng)絡(luò)模型,減少與 CPU 交互,能在不同場景權(quán)衡系統(tǒng)、功耗、性能等問題時(shí),體現(xiàn)出足夠的靈活性。
GPU、FPGA、ASIC 三類算力依舊是延續(xù)傳統(tǒng)計(jì)算架構(gòu)、優(yōu)化硬件計(jì)算能力一種體現(xiàn),差別在于 FPGA 和 ASIC 更面向細(xì)分場景、更定制化——新的芯片廠商往往選擇專注細(xì)分領(lǐng)域?qū)で蠛蟀l(fā)先至的可能。而“GPU+CPU”的異構(gòu)算力將伴隨 AI 的普及走向通用,仍是未來主流發(fā)展方向。
提升算力的另一個(gè)思路,即對底層計(jì)算架構(gòu)進(jìn)行革新,采用類腦神經(jīng)結(jié)構(gòu)來提升計(jì)算能力,以 IBM TrueNorth 芯片為代表。
這種模仿生物神經(jīng)網(wǎng)絡(luò)的計(jì)算架構(gòu)被統(tǒng)稱為類腦芯片,用“神經(jīng)元+突觸”的方式替代傳統(tǒng)“馮·諾依曼”架構(gòu)體系,除異步、并行計(jì)算能力外,還將同時(shí)具備自主感知、識別和學(xué)習(xí)能力。
這種超越深度學(xué)習(xí)算法、希望在芯片結(jié)構(gòu)和器件層面改變設(shè)計(jì)的做法將開發(fā)出新的類腦計(jì)算機(jī)體系結(jié)構(gòu)。IBM TrueNorth 芯片、Intel Loihi 芯片、高通 Zeroth“認(rèn)知計(jì)算平臺”都是類腦芯片的典型代表。即使技術(shù)尚不成熟,但在愈發(fā)逼近摩爾定律極限的今天,類腦芯片的發(fā)展將是計(jì)算機(jī)體系結(jié)構(gòu)革命的機(jī)遇。
NVIDIA 作為公認(rèn)定義了 GPU 的企業(yè),從其 GPU 架構(gòu)的演進(jìn)來看,GPU 算力分化為計(jì)算和圖形兩條路線,最新的 Ampere 架構(gòu)正是計(jì)算路線巔峰之作。
NVIDIA 現(xiàn)有 GPU 產(chǎn)品路線可分為計(jì)算和圖形兩個(gè)方向。從歷史來看,NVIDIA 一度自稱“視覺計(jì)算企業(yè)”,自 G80 GPU 開始,以及后續(xù)的 Fermi、Kepler、Maxwell 架構(gòu) GPU 產(chǎn)品最初都服務(wù)于視覺處理,并牢牢占據(jù)游戲市場。
自 2012 年,有人嘗試采用 GPU 來構(gòu)建和加速深度神經(jīng)網(wǎng)絡(luò),Kepler、Maxwell、Pascal 架構(gòu) GPU 都被越來越廣泛應(yīng)用在 AI 領(lǐng)域。
伴隨 AI、云計(jì)算的高速發(fā)展,Volta 成為第一個(gè)專門面向計(jì)算方向的 GPU 架構(gòu),首次使用張量核心(Tensor Cores),相較上一代 Pascal 架構(gòu)在深度學(xué)習(xí)場景快 5 倍以上。從此 GPU 算力正式分化為計(jì)算和圖形兩條路線。此后推出的 Turing 架構(gòu)則更側(cè)重圖形處理,廣為人知的是該架構(gòu)帶來了全新的 RTX 系列品牌,并衍生出很多消費(fèi)級 GPU 圖形卡。
最新的 Ampere 架構(gòu)正是 GPU 在計(jì)算方向的大幅加強(qiáng),技術(shù)突破包括了 7nm 工藝、第三代張量核心(Tensor Cores)、多實(shí)例 GPU(MIG)、第三代 NVIDIA NVLink 互聯(lián)技術(shù)、細(xì)粒度結(jié)構(gòu)稀疏性等,這些新技術(shù)帶來的新特性組合,使得 Ampere 架構(gòu) A100 GPU 在計(jì)算方向化身多面手,統(tǒng)一了大數(shù)據(jù)分析、科學(xué)計(jì)算、深度學(xué)習(xí)訓(xùn)練和推理等主流計(jì)算場景。
特別是 A100 GPU 支持彈性構(gòu)建多功能和高吞吐量的數(shù)據(jù)中心,顯著降低了數(shù)據(jù)中心成本,使 A100 GPU 成為云上算力的高性價(jià)比選擇。
GPU 多維度選型指南:如何評估 NVIDIA A100 GPU ?
綜合來看,選購 GPU 需要結(jié)合業(yè)務(wù)需求綜合評估張量核心數(shù)、內(nèi)存大小、內(nèi)存帶寬和浮點(diǎn)計(jì)算能力。
張量核心數(shù)是影響 GPU 性能的關(guān)鍵因素之一,但并不是一貫的第一優(yōu)先級。例如對比矩陣乘法、卷積運(yùn)算兩類張量計(jì)算,卷積運(yùn)算受計(jì)算速度影響更大,因此更多的張量核心數(shù)可以顯著提升 FLOPs。
而對于矩陣乘法來說,將數(shù)據(jù)復(fù)制到顯存比計(jì)算數(shù)據(jù)更耗費(fèi)資源。因此,特別是對于 LSTM 等處理大量小型矩陣乘法的循環(huán)神經(jīng)網(wǎng)絡(luò),GPU 內(nèi)存帶寬比張量核心數(shù)更加重要。
哪些場景需要重點(diǎn)考慮內(nèi)存大小呢?在深度學(xué)習(xí)領(lǐng)域,經(jīng)過預(yù)訓(xùn)練的模型一般都對內(nèi)存大小有著較高要求。
在一些涉及大量圖像的領(lǐng)域,如醫(yī)學(xué)成像、計(jì)算機(jī)視覺模型、GIS 地理信息等,也需要優(yōu)先考慮內(nèi)存大小,GIS 可能還會涉及雙精度浮點(diǎn)計(jì)算能力要求。此外,在一些如 Kaggle 競賽、短期實(shí)驗(yàn)場景,以及面臨激烈競爭的初創(chuàng)企業(yè),選擇大內(nèi)存往往能帶來獨(dú)特的優(yōu)勢。
評估浮點(diǎn)計(jì)算能力主要區(qū)分科學(xué)計(jì)算和深度學(xué)習(xí)。一般而言,深度學(xué)習(xí)使用 FP32 或 FP16 即可,而科學(xué)計(jì)算、HPC 普遍需要 FP64 計(jì)算能力,如果精度不夠,計(jì)算結(jié)果的偏差可能會帶來嚴(yán)重的問題。
另外,如果需要 GPU 集群訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)中心的網(wǎng)絡(luò)基礎(chǔ)設(shè)施將變得十分重要,高度優(yōu)化的系統(tǒng)、資源伸縮性、平衡各因素的靈活性等都成為需要評估的要素。
綜合 GPU 場景要求和綜合成本來看,上述選型角度能幫你避免 GPU 某一方面性能成為瓶頸,而如果你的 GPU 使用時(shí)間小于兩年,那么云上的 GPU 將是首選。
特別是在 A100 GPU 有效降低了數(shù)據(jù)中心綜合成本,最新的張量核、大內(nèi)存和大帶寬、以及全方位精度的加速,統(tǒng)一了深度學(xué)習(xí)推理訓(xùn)練、科學(xué)計(jì)算、大數(shù)據(jù)分析場景,云上的 A100 GPU 就成為避免性能瓶頸的通用高性價(jià)比選項(xiàng)。






