繼年初發(fā)布的思元290之后,寒武紀(jì)于11月初發(fā)布了本年度第二款新品思元370,以及基于思元370的兩款加速卡。這也是寒武紀(jì)的首款第四代產(chǎn)品。
思元370在算力上,基于臺積電 7nm 制程工藝、整體集成390億個晶體管的思元370最大算力達(dá)到 256TOPS(INT8),相比上一代思元270算力實現(xiàn)翻倍。
思元370還是寒武紀(jì)首款采用 chiplet(芯粒)技術(shù)的AI芯片,在國內(nèi)應(yīng)該也屬于行業(yè)首顆chiplet AI芯片。由于思元370在一顆芯片中封裝2顆AI計算芯粒(MLU-Die),每一個MLU-Die都具備獨立的AI計算單元、內(nèi)存、IO以及MLU-Fabric控制和接口,不同MLU-Die可以組合規(guī)格多樣化的產(chǎn)品,可以為用戶提供適用不同場景的高性價比AI芯片。
值得注意的是,在架構(gòu)上,思元370屬于寒武紀(jì)第四代自研智能芯片架構(gòu),第一代架構(gòu)MLUarch00主打智能加速IP核,第二代MLUarch01主打多核架構(gòu),第三代MLUarch02主打多核共享片內(nèi)存儲,本次發(fā)布的第四代MLUarch03擁有新一代張量運算單元,內(nèi)置Supercharger模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術(shù),在軟件融合的基礎(chǔ)上大幅減少算子執(zhí)行時間;片上通訊帶寬是上一代MLUarch02的2倍、片上共享緩存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完備,更高效且向前兼容。憑借全新的我MLUarch03,相較于峰值算力的提升,思元 370 實測性能表現(xiàn)非常亮眼:同功率性能超過NVIDIA T4兩倍還多,完成同樣的任務(wù),功耗可以是A10的一半。
自思元100 以來,寒武紀(jì)在三年之內(nèi)已經(jīng)連續(xù)推出三代云端AI 芯片,最新一代產(chǎn)品在工藝制程、架構(gòu)、指令集和軟件等方面有了全面的提升,實現(xiàn)了同級芯片的頂尖水平。
特別值得一提的是,新品思元370,是在去年三季度流片、相關(guān)加速卡產(chǎn)品在今年二季度陸續(xù)送測客戶后才進(jìn)行的發(fā)布。目前,部分客戶已完成測試、導(dǎo)入,產(chǎn)品進(jìn)入早期銷售階段。
百度異構(gòu)計算架構(gòu)師黎世勇就對寒武紀(jì)的思元370充滿期待,“自2018年起,百度與寒武紀(jì)展開了多維度的軟硬件協(xié)作,思元100等產(chǎn)品服務(wù)百度語音合成等多種業(yè)務(wù)場景。我們相信,隨著思元370等新產(chǎn)品的落地,雙方軟硬件充分結(jié)合的生態(tài)勢必將發(fā)揮更大的效能,助力人工智能行業(yè)多場景落地。”
思元370系列加速卡也已與國內(nèi)主流服務(wù)器合作伙伴完成適配。浪潮信息副總裁、人工智能和高性能產(chǎn)品線總經(jīng)理劉軍表示:“浪潮跟寒武紀(jì)長久以來保持著緊密合作,思元370在性能、能效等方面較之思元270均有大幅提升,我們期待雙方未來能夠攜手為更多行業(yè)和領(lǐng)域提供人工智能計算相關(guān)服務(wù)。”
劉軍還介紹了與寒武紀(jì)之前合作的進(jìn)展:“浪潮搭載寒武紀(jì)芯片的AI服務(wù)器已經(jīng)在中國移動、互聯(lián)網(wǎng)、智算中心等客戶和行業(yè)中實現(xiàn)落地。”
有媒體專門求證了中國移動集采中標(biāo)的知情人士,其提到,中國移動2021年至2022年人工智能通用計算設(shè)備集中采購中,整個標(biāo)包三里的中標(biāo)產(chǎn)品(浪潮、中興)都有用到寒武紀(jì)的加速卡思元270。
近年來,寒武紀(jì)在智慧金融、智慧能源、智慧交通等行業(yè)與合作伙伴共同完成了諸多落地案例。眾所周知,芯片行業(yè)呈現(xiàn)典型的“投資前置,收益后置”特征,產(chǎn)品從起量到規(guī)模化量產(chǎn)銷售需要一個相對漫長的過程,相比其他行業(yè)更難實現(xiàn)商業(yè)化的跳躍式發(fā)展。但從產(chǎn)品策略及落地應(yīng)用角度看,寒武紀(jì)無疑切實跳出了PPT,正穩(wěn)健地踐行著自己的“中立通用芯片設(shè)計公司”定位,切實為客戶創(chuàng)造實際價值。






