來源:品玩
怎樣才能讓一枚芯片擁有更高的性能?
大多數(shù)人的回答一定是緊跟摩爾定律,在同樣大小的芯片空間內(nèi)裝進(jìn)更多的晶體管,其手段無外乎更先進(jìn)的制程(從7nm到5nm)以及更先進(jìn)的封裝方式(如chiplet)。
然而,隨著先進(jìn)制程逼近1nm的物理極限,摩爾定律不可避免的放緩,即便是在日常生活中,人們也能感受到手機(jī)Soc、電腦的CPU的升級換代效果越來越差,從過去的每代提升40%性能迅速下降至20%甚至10%。
與之對應(yīng)的是,當(dāng)今社會(huì)對數(shù)據(jù)、算力、芯片性能的要求卻越來越高,整個(gè)下游市場既然有龐大的需求出現(xiàn),那么整個(gè)產(chǎn)業(yè)鏈的各方都在想方設(shè)法來提高芯片的性能,既然傳統(tǒng)的在晶圓上改進(jìn)工藝的方式進(jìn)展緩慢,那么在更上層的計(jì)算機(jī)架構(gòu)上動(dòng)刀或許會(huì)有意想不到的收獲。
今年以來,一些跳出傳統(tǒng)計(jì)算機(jī)結(jié)構(gòu)體系的設(shè)想正在轉(zhuǎn)為研究成果出現(xiàn)在各大頂級期刊上,它就是“存內(nèi)計(jì)算”。
存內(nèi)計(jì)算,顧名思義就是把計(jì)算單元嵌入到內(nèi)存當(dāng)中。通常計(jì)算機(jī)運(yùn)行的馮·諾依曼體系包括存儲(chǔ)單元和計(jì)算單元兩部分,計(jì)算機(jī)實(shí)施運(yùn)算需要先把數(shù)據(jù)存入主存儲(chǔ)器,再按順序從主存儲(chǔ)器中取出指令,一條一條的執(zhí)行,數(shù)據(jù)需要在處理器與存儲(chǔ)器之間進(jìn)行頻繁遷移,如果內(nèi)存的傳輸速度跟不上CPU的性能,就會(huì)導(dǎo)致計(jì)算能力受到限制,即“內(nèi)存墻”出現(xiàn),例如,CPU處理運(yùn)算一道指令的耗時(shí)假若為1ns,但內(nèi)存讀取傳輸該指令的耗時(shí)可能就已達(dá)到10ns,嚴(yán)重影響了CPU的運(yùn)行處理速度。
此外,讀寫一次內(nèi)存的數(shù)據(jù)能量比計(jì)算一次數(shù)據(jù)的能量多消耗幾百倍,也就是“功耗墻”的存在。2018年,谷歌針對自家產(chǎn)品(Chome/Tensorflow Mobile/video playback/video capture)的耗能情況做了一項(xiàng)研究,發(fā)現(xiàn)整個(gè)系統(tǒng)耗能的62.7%浪費(fèi)在CPU和內(nèi)存的讀寫傳輸上,傳統(tǒng)馮·諾依曼架構(gòu)導(dǎo)致的高延遲和高耗能的問題成為急需解決的問題,其中的短板存儲(chǔ)器成為了制約數(shù)據(jù)處理速度提高的主要瓶頸。

馮·諾依曼架構(gòu)圖
把計(jì)算單元嵌入到內(nèi)存當(dāng)中的理想情況下,存內(nèi)計(jì)算可以有效消除存儲(chǔ)單元與計(jì)算單元之間的數(shù)據(jù)傳輸耗能過高、速度有限的情況,從而有效解決馮諾依曼瓶頸。
存內(nèi)計(jì)算的概念早就有跡可循,在上世紀(jì)70年代William H. Kautz就曾提出過存儲(chǔ)和邏輯整合的方案,Harold S. Stone緊接著發(fā)表了支持邏輯運(yùn)算的存儲(chǔ)計(jì)算結(jié)構(gòu),但由于當(dāng)時(shí)的性能瓶頸問題不算突出,處理器的發(fā)展暫能滿足數(shù)據(jù)處理的需求,因而學(xué)界、業(yè)界并沒有對該領(lǐng)域投入過多關(guān)注。
如今,隨著人工智能技術(shù)的發(fā)展,AI在各領(lǐng)域的應(yīng)用逐漸廣泛,以深度學(xué)習(xí)為代表的神經(jīng)網(wǎng)絡(luò)算法需要系統(tǒng)能高效處理海量的非結(jié)構(gòu)化數(shù)據(jù),例如文本、視頻、圖像、語音等,這導(dǎo)致在馮·諾伊曼架構(gòu)下的硬件需要頻繁讀寫內(nèi)存,其計(jì)算任務(wù)有著并行運(yùn)算量大、參數(shù)多的特點(diǎn),這使得AI芯片對并行運(yùn)算、低延遲、帶寬等有著更高的要求,也因此,存內(nèi)計(jì)算在人工智能時(shí)代迎來了發(fā)展的黃金時(shí)期。
存內(nèi)計(jì)算的熱度肉眼可見的在各大學(xué)術(shù)會(huì)議上發(fā)酵。2018年的IEEE國際固態(tài)電路會(huì)議(ISSCC)專門用了一個(gè)議程來研討存內(nèi)計(jì)算相關(guān)話題;到2019年,電子器件領(lǐng)域的頂級會(huì)議IEDM上關(guān)于存內(nèi)計(jì)算的研討議程則變成了三個(gè),相關(guān)論文也達(dá)到二十余篇;2020年的ISSCC上存內(nèi)計(jì)算的論文也上升至七篇。
存內(nèi)計(jì)算不只是學(xué)界的圈地自娛,三星、SK海力士、臺積電、英特爾、美光、IBM等半導(dǎo)體領(lǐng)域的巨頭也在加緊對該技術(shù)的研發(fā),今年的競爭更是尤為激烈,首先三星在頂級學(xué)術(shù)期刊Nature上發(fā)表了全球首個(gè)基于MRAM(磁性隨機(jī)存儲(chǔ)器)的存內(nèi)計(jì)算研究,緊接著臺積電在近日的ISSCC上合作發(fā)表了六篇關(guān)于存內(nèi)計(jì)算存儲(chǔ)器IP的論文,大力推進(jìn)基于ReRAM的存內(nèi)計(jì)算方案,SK海力士則發(fā)表了基于GDDR接口的DRAM存內(nèi)計(jì)算研究。
應(yīng)著這陣風(fēng)口,我國的存內(nèi)計(jì)算產(chǎn)業(yè)也開始迅猛發(fā)展,知存科技、九天睿芯、智芯科、后摩智能、蘋芯科技等國內(nèi)專注存內(nèi)計(jì)算賽道的新興公司紛紛獲得融資,加速在該領(lǐng)域的早期市場布局及商業(yè)落地。

雖然不管學(xué)界、業(yè)界還是市場對存內(nèi)計(jì)算的呼聲都極高,相關(guān)研究和產(chǎn)品的研發(fā)在如火如荼的進(jìn)行,但在現(xiàn)階段存內(nèi)計(jì)算的實(shí)現(xiàn)確實(shí)面臨著諸多難點(diǎn),目前市面上仍缺乏被市場認(rèn)可而廣泛應(yīng)用的存內(nèi)計(jì)算產(chǎn)品出現(xiàn)。
目前,業(yè)界實(shí)現(xiàn)存內(nèi)計(jì)算的三種主流路徑為SRAM、DRAM、Flash,簡單來說DRAM內(nèi)存具有動(dòng)態(tài)刷新,斷電會(huì)丟失數(shù)據(jù)的特征,SRAM為高速緩存,其無需刷新,但同樣會(huì)在斷電狀態(tài)下丟失數(shù)據(jù),F(xiàn)lash則為閃存,其有著無需刷新,斷電不丟數(shù)據(jù)的特征,通常作為硬盤使用。
選擇SRAM路徑的代表性半導(dǎo)體企業(yè)為臺積電,它可以在5nm的先進(jìn)工藝上制造。SRAM的存儲(chǔ)邏輯簡單清晰,和現(xiàn)在的數(shù)字處理器技術(shù)更容易結(jié)合,同時(shí),SRAM離CPU近讀寫性能優(yōu)勢較大,但作為易失性存儲(chǔ)器的SRAM同時(shí)也有著斷電后數(shù)據(jù)無法保存的問題,因此SRAM還需要在斷電后把數(shù)據(jù)傳輸?shù)狡渌鎯?chǔ)器中。
Flash陣營的代表玩家為美國的Mythic公司,F(xiàn)lash是一種業(yè)內(nèi)較為成熟的存儲(chǔ)器技術(shù),它在功能工藝參數(shù)、器件模型上都有著成熟的工具,同時(shí),其系統(tǒng)架構(gòu)的核心設(shè)計(jì)可以向非易失性的RRAM(電阻式隨機(jī)存取存儲(chǔ)器)等新型非揮發(fā)器件上遷移,迅速完成產(chǎn)品的更新迭代,
基于DRAM的存內(nèi)計(jì)算芯片,目前采用該方案的公司較少,因?yàn)槠浼夹g(shù)落地的時(shí)間暫不明朗。DRAM存內(nèi)計(jì)算適合大算力AI芯片,其對硬件的通用性和可編程性的要求更高,這對目前專用性的架構(gòu)來說需要花更多心思來重新設(shè)計(jì),其難度自然更高。
綜合來看,存內(nèi)計(jì)算的實(shí)現(xiàn)基于相對成熟的易失性存儲(chǔ)和不太成熟的非易失性存儲(chǔ),但無論是哪種路線的實(shí)現(xiàn)都存在一定的挑戰(zhàn),幾大技術(shù)方向也都在發(fā)展中。易失性存儲(chǔ)路線在融合處理器工藝和存儲(chǔ)器工藝上存在諸多難題,在馮·諾依曼架構(gòu)下,處理器與存儲(chǔ)器的區(qū)隔明顯,從設(shè)計(jì)、制造、封裝全流程,它們各自都發(fā)展出了獨(dú)立的生態(tài),想要把兩者融合成一體,其工藝難度可想而知。知存科技走的就是易失性存儲(chǔ)路線,其CEO王紹迪曾形容過該路線早期開發(fā)的難度:“早期研發(fā)的時(shí)候,由于缺乏晶圓工廠和EDA工具的支持,我們的開發(fā)工作很多就要從自動(dòng)變成手動(dòng)。”非易失性存儲(chǔ)對存儲(chǔ)目前廠商和工藝也均未成熟。
極強(qiáng)的市場需求與暫未明朗的技術(shù)產(chǎn)品,誰能率先在可控的成本內(nèi)實(shí)現(xiàn)存內(nèi)計(jì)算存儲(chǔ)密度與計(jì)算密度的平衡,誰或許就摸索到了成為下一個(gè)英偉達(dá)的路徑。






