亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

深度學(xué)習(xí)算法的突破是新一輪 AI 產(chǎn)業(yè)騰飛的開端,但在應(yīng)用落地過程中,深度學(xué)習(xí)算法的進(jìn)展極大依賴算力增長。“研究三年算法不如用 10 倍 GPU”,這樣的算力焦慮正成為業(yè)界的普遍困擾。

那么,在面對計(jì)算機(jī)視覺(CV)、自然語言處理(NLP)、跨媒體分析與推理、自主無人系統(tǒng)等場景時(shí),我們該如何匹配綜合效用最大化的算力?在哪些情況下優(yōu)先選擇 NVIDIA A100?為此,青云科技推出AI初創(chuàng)加速計(jì)劃,在提供4折優(yōu)惠的同時(shí),也幫助用戶對認(rèn)識 AI 算力,建立起一個(gè)直觀的理解,并提供一個(gè)易用、可參考的 GPU 選型框架。

初識 AI 算力:GPU 還是面向未來的主流技術(shù)路線嗎?Ampere 架構(gòu)屬實(shí)站在大氣層?

GPU 作為加速器,是實(shí)現(xiàn)深度學(xué)習(xí)算法的通用算力,和針對細(xì)分場景定制優(yōu)化的 FPGA、ASIC 芯片一道,都是傳統(tǒng)“馮·諾依曼”架構(gòu)的延伸。

GPU 相較 CPU 擁有更多的 ALU,使用 SIMD 并行處理密集型數(shù)據(jù)。這樣的架構(gòu)最初被用于圖像數(shù)據(jù)處理,隨后被發(fā)現(xiàn)其具有離散化和分布式特征,可用矩陣運(yùn)算替代布爾運(yùn)算,十分適合處理深度學(xué)習(xí)所需要的非線性離散數(shù)據(jù),尤其在進(jìn)行深度學(xué)習(xí)算法訓(xùn)練時(shí)非常高效。

緊追 GPU 步伐的是半定制化 FPGA,以及專用定制化 ASIC 芯片。FPGA 是在 PAL、GAL、CPLD 等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物,本質(zhì)上通過硬件的配置實(shí)現(xiàn)軟件算法,因此適用于以硬件流水線方式處理一條數(shù)據(jù),在能耗、性能方面具有明顯優(yōu)勢,但實(shí)現(xiàn)復(fù)雜算法的開發(fā)成本較高。

ASIC 是 AI 算力走向進(jìn)一步專用、定制化的產(chǎn)物,定制開發(fā)使得 ASIC 具有功耗低、可靠性高、性能高、體積小等特點(diǎn),也相應(yīng)的伴隨不可編程、可擴(kuò)展性差等不足。我們所熟知的 VPU、TPU 都屬于 ASIC 芯片。VPU 專為圖像和視覺處理而定制。Google 專為 TensorFlow 開發(fā)的 TPU 運(yùn)行整體神經(jīng)網(wǎng)絡(luò)模型,減少與 CPU 交互,能在不同場景權(quán)衡系統(tǒng)、功耗、性能等問題時(shí),體現(xiàn)出足夠的靈活性。

GPU、FPGA、ASIC 三類算力依舊是延續(xù)傳統(tǒng)計(jì)算架構(gòu)、優(yōu)化硬件計(jì)算能力一種體現(xiàn),差別在于 FPGA 和 ASIC 更面向細(xì)分場景、更定制化——新的芯片廠商往往選擇專注細(xì)分領(lǐng)域?qū)で蠛蟀l(fā)先至的可能。而“GPU+CPU”的異構(gòu)算力將伴隨 AI 的普及走向通用,仍是未來主流發(fā)展方向。

提升算力的另一個(gè)思路,即對底層計(jì)算架構(gòu)進(jìn)行革新,采用類腦神經(jīng)結(jié)構(gòu)來提升計(jì)算能力,以 IBM TrueNorth 芯片為代表。

這種模仿生物神經(jīng)網(wǎng)絡(luò)的計(jì)算架構(gòu)被統(tǒng)稱為類腦芯片,用“神經(jīng)元+突觸”的方式替代傳統(tǒng)“馮·諾依曼”架構(gòu)體系,除異步、并行計(jì)算能力外,還將同時(shí)具備自主感知、識別和學(xué)習(xí)能力。

這種超越深度學(xué)習(xí)算法、希望在芯片結(jié)構(gòu)和器件層面改變設(shè)計(jì)的做法將開發(fā)出新的類腦計(jì)算機(jī)體系結(jié)構(gòu)。IBM TrueNorth 芯片、Intel Loihi 芯片、高通 Zeroth“認(rèn)知計(jì)算平臺”都是類腦芯片的典型代表。即使技術(shù)尚不成熟,但在愈發(fā)逼近摩爾定律極限的今天,類腦芯片的發(fā)展將是計(jì)算機(jī)體系結(jié)構(gòu)革命的機(jī)遇。

NVIDIA 作為公認(rèn)定義了 GPU 的企業(yè),從其 GPU 架構(gòu)的演進(jìn)來看,GPU 算力分化為計(jì)算和圖形兩條路線,最新的 Ampere 架構(gòu)正是計(jì)算路線巔峰之作。

NVIDIA 現(xiàn)有 GPU 產(chǎn)品路線可分為計(jì)算和圖形兩個(gè)方向。從歷史來看,NVIDIA 一度自稱“視覺計(jì)算企業(yè)”,自 G80 GPU 開始,以及后續(xù)的 Fermi、Kepler、Maxwell 架構(gòu) GPU 產(chǎn)品最初都服務(wù)于視覺處理,并牢牢占據(jù)游戲市場。

自 2012 年,有人嘗試采用 GPU 來構(gòu)建和加速深度神經(jīng)網(wǎng)絡(luò),Kepler、Maxwell、Pascal 架構(gòu) GPU 都被越來越廣泛應(yīng)用在 AI 領(lǐng)域。

伴隨 AI、云計(jì)算的高速發(fā)展,Volta 成為第一個(gè)專門面向計(jì)算方向的 GPU 架構(gòu),首次使用張量核心(Tensor Cores),相較上一代 Pascal 架構(gòu)在深度學(xué)習(xí)場景快 5 倍以上。從此 GPU 算力正式分化為計(jì)算和圖形兩條路線。此后推出的 Turing 架構(gòu)則更側(cè)重圖形處理,廣為人知的是該架構(gòu)帶來了全新的 RTX 系列品牌,并衍生出很多消費(fèi)級 GPU 圖形卡。

最新的 Ampere 架構(gòu)正是 GPU 在計(jì)算方向的大幅加強(qiáng),技術(shù)突破包括了 7nm 工藝、第三代張量核心(Tensor Cores)、多實(shí)例 GPU(MIG)、第三代 NVIDIA NVLink 互聯(lián)技術(shù)、細(xì)粒度結(jié)構(gòu)稀疏性等,這些新技術(shù)帶來的新特性組合,使得 Ampere 架構(gòu) A100 GPU 在計(jì)算方向化身多面手,統(tǒng)一了大數(shù)據(jù)分析、科學(xué)計(jì)算、深度學(xué)習(xí)訓(xùn)練和推理等主流計(jì)算場景。

特別是 A100 GPU 支持彈性構(gòu)建多功能和高吞吐量的數(shù)據(jù)中心,顯著降低了數(shù)據(jù)中心成本,使 A100 GPU 成為云上算力的高性價(jià)比選擇。

GPU 多維度選型指南:如何評估 NVIDIA A100 GPU ?

綜合來看,選購 GPU 需要結(jié)合業(yè)務(wù)需求綜合評估張量核心數(shù)、內(nèi)存大小、內(nèi)存帶寬和浮點(diǎn)計(jì)算能力。

張量核心數(shù)是影響 GPU 性能的關(guān)鍵因素之一,但并不是一貫的第一優(yōu)先級。例如對比矩陣乘法、卷積運(yùn)算兩類張量計(jì)算,卷積運(yùn)算受計(jì)算速度影響更大,因此更多的張量核心數(shù)可以顯著提升 FLOPs。

而對于矩陣乘法來說,將數(shù)據(jù)復(fù)制到顯存比計(jì)算數(shù)據(jù)更耗費(fèi)資源。因此,特別是對于 LSTM 等處理大量小型矩陣乘法的循環(huán)神經(jīng)網(wǎng)絡(luò),GPU 內(nèi)存帶寬比張量核心數(shù)更加重要。

哪些場景需要重點(diǎn)考慮內(nèi)存大小呢?在深度學(xué)習(xí)領(lǐng)域,經(jīng)過預(yù)訓(xùn)練的模型一般都對內(nèi)存大小有著較高要求。

在一些涉及大量圖像的領(lǐng)域,如醫(yī)學(xué)成像、計(jì)算機(jī)視覺模型、GIS 地理信息等,也需要優(yōu)先考慮內(nèi)存大小,GIS 可能還會涉及雙精度浮點(diǎn)計(jì)算能力要求。此外,在一些如 Kaggle 競賽、短期實(shí)驗(yàn)場景,以及面臨激烈競爭的初創(chuàng)企業(yè),選擇大內(nèi)存往往能帶來獨(dú)特的優(yōu)勢。

評估浮點(diǎn)計(jì)算能力主要區(qū)分科學(xué)計(jì)算和深度學(xué)習(xí)。一般而言,深度學(xué)習(xí)使用 FP32 或 FP16 即可,而科學(xué)計(jì)算、HPC 普遍需要 FP64 計(jì)算能力,如果精度不夠,計(jì)算結(jié)果的偏差可能會帶來嚴(yán)重的問題。

另外,如果需要 GPU 集群訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)中心的網(wǎng)絡(luò)基礎(chǔ)設(shè)施將變得十分重要,高度優(yōu)化的系統(tǒng)、資源伸縮性、平衡各因素的靈活性等都成為需要評估的要素。

綜合 GPU 場景要求和綜合成本來看,上述選型角度能幫你避免 GPU 某一方面性能成為瓶頸,而如果你的 GPU 使用時(shí)間小于兩年,那么云上的 GPU 將是首選。

特別是在 A100 GPU 有效降低了數(shù)據(jù)中心綜合成本,最新的張量核、大內(nèi)存和大帶寬、以及全方位精度的加速,統(tǒng)一了深度學(xué)習(xí)推理訓(xùn)練、科學(xué)計(jì)算、大數(shù)據(jù)分析場景,云上的 A100 GPU 就成為避免性能瓶頸的通用高性價(jià)比選項(xiàng)。

分享到:
標(biāo)簽:青云 初創(chuàng) 澎湃 加速 推出 計(jì)劃 提供 A100
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定