近日,北京迎來了一場商業(yè)領域的盛事——36氪WISE2024商業(yè)之王大會。此次大會為期兩天,吸引了眾多業(yè)界精英和領軍人物,共同探討中國商業(yè)的新趨勢和潛力。作為已經(jīng)舉辦了十二屆的商業(yè)盛會,WISE大會在時代變遷中持續(xù)見證著中國商業(yè)的堅韌與活力。
2024年,是一個充滿變化與挑戰(zhàn)的年份。與前十年相比,商業(yè)環(huán)境變得更加復雜,企業(yè)發(fā)展步伐放緩,更加注重穩(wěn)健和理性。同時,這一年也是尋找新經(jīng)濟動力的重要時期,產(chǎn)業(yè)變革對各個主體的適應能力提出了更高要求。今年,WISE大會以“Hard But Right Thing(正確的事)”為主題,引發(fā)了與會者對當前商業(yè)環(huán)境下何為正確路徑的深入思考和交流。
在大會的眾多精彩演講中,「后摩智能」副總裁倪曉林的分享尤為引人注目。他圍繞AI與NPU的發(fā)展,探討了邊端側AI算力需求的變化趨勢,為聽眾帶來了深刻見解。
倪曉林首先介紹了「后摩智能」作為一家基于存算一體的AI芯片公司的背景,并表示作為AI時代的參與者和見證者,深感榮幸。隨后,他詳細闡述了后摩智能對邊端側AI算力需求變化的看法。
他提到,隨著AI 2.0時代的到來,云端模型和端邊側模型都在迅速發(fā)展。云端模型不斷增大規(guī)模和參數(shù),探索通用智能的邊界;而端邊側則出現(xiàn)了更適合本地部署的模型,如7B、13B、30B等,這些模型更適合應用于各行各業(yè),解決實際問題。端邊側AI具有個性化、低時延、數(shù)據(jù)隱私保護等優(yōu)勢,且每年全球新增智能設備數(shù)量高達數(shù)十億臺,市場前景廣闊。
然而,端邊側AI的發(fā)展也面臨著硬件方面的挑戰(zhàn)。倪曉林指出,端側硬件需要滿足“三高三低”的要求,即高算力、高帶寬、高精度、低功耗、低延時、低成本。CPU無法滿足全部需求,而GPU雖然能滿足部分要求,但其高成本和高功耗限制了端側設備的普及。因此,專為本地大模型設計的NPU更適合邊端側使用。
針對邊端設備對AI高帶寬、低功耗的需求,傳統(tǒng)的馮·諾伊曼架構已經(jīng)難以應對。倪曉林表示,存儲墻和功耗墻是當前企業(yè)面臨的兩大難題。為了突破這兩大難題,后摩智能采用了存算一體的全新架構,實現(xiàn)了存儲單元和計算單元的高度集成,大幅降低了功耗,增加了帶寬。
后摩智能已經(jīng)自研了兩代存算一體芯片架構,并針對LLM類大模型進行了專項設計。其自研的IPU架構提供了高并行的浮點和整型算力,配套的軟件工具鏈簡單易用,兼容通用編程語言。后摩智能還推出了后摩鴻途??H30和后摩漫界??M30兩款NPU芯片,充分展現(xiàn)了存算一體架構在算力和功耗方面的優(yōu)勢。
為了方便AI設備方案商及生產(chǎn)商快速部署,后摩智能不僅提供芯片,還提供多種標準化產(chǎn)品形態(tài),如力謀??LM30智能加速卡和力謀??SM30計算模組等。這些產(chǎn)品可以讓現(xiàn)有各類終端設備通過標準接口加裝NPU,實現(xiàn)本地AI大模型的流暢運行。
倪曉林表示,隨著AI技術的不斷發(fā)展,越來越多的設備將成為AI大模型使能設備,如AI PC、汽車AI座艙、AI TV等。這些設備將成為更懂用戶、更聰明、更高效的助理、秘書、司機等,為用戶提供各種服務。后摩智能希望通過其AI芯片助力各行業(yè)實現(xiàn)快速升級。
倪曉林還透露,后摩智能將在2025年推出基于新一代“天璇”架構的最新款芯片,性能將再次大幅提升。這款芯片有望進一步加速端邊設備部署大模型的進程。
在演講的最后,倪曉林表示,他相信未來十年將是AI大模型的時代,NPU將重塑所有端邊場景和設備。他期待與在座的AI企業(yè)和生態(tài)合作伙伴攜手合作,共同推動現(xiàn)有設備以及未來新型設備流暢運行AI大模型,共創(chuàng)AI新時代。