近日,清華大學(xué)高性能計(jì)算研究所的翟季冬教授團(tuán)隊(duì)攜手清華背景的科技創(chuàng)新企業(yè)清程極智,共同發(fā)布了一款名為“赤兔Chitu”的開源大模型推理引擎。這款引擎實(shí)現(xiàn)了在非英偉達(dá)Hopper架構(gòu)GPU以及多種國產(chǎn)芯片上原生運(yùn)行FP8精度模型,為國產(chǎn)AI芯片的廣泛應(yīng)用和生態(tài)建設(shè)帶來了歷史性的突破。
赤兔引擎通過底層技術(shù)的革新,成功打破了特定硬件的限制,使得非H卡設(shè)備(包括英偉達(dá)Hopper架構(gòu)之前的GPU卡及多種國產(chǎn)芯片)能夠高效部署原生FP8模型。這一突破極大地降低了企業(yè)部署AI模型的門檻和成本,為AI技術(shù)的普及和應(yīng)用提供了強(qiáng)有力的支持。
翟季冬教授表示,赤兔引擎凝聚了團(tuán)隊(duì)多年在并行計(jì)算與編譯優(yōu)化領(lǐng)域的深厚積累,旨在消除先進(jìn)模型與多樣化硬件之間的鴻溝,讓國產(chǎn)算力真正發(fā)揮潛力,為中國大模型產(chǎn)業(yè)的落地提供堅(jiān)實(shí)的支撐。清程極智的CEO湯雄超則強(qiáng)調(diào),赤兔引擎的定位是成為連接多元算力與大模型應(yīng)用的橋梁,不僅支持英偉達(dá)全系列GPU,還針對國產(chǎn)芯片進(jìn)行了深度優(yōu)化,未來將陸續(xù)推出適配不同芯片的開源版本。
在首期開源版本中,赤兔引擎在A800集群上部署DeepSeek-R1-671B滿血版時(shí),相比部分國外開源框架,在GPU使用量減少50%的情況下,推理速度仍實(shí)現(xiàn)了3.15倍的提升。這一顯著的性能提升意味著企業(yè)能夠以更少的硬件資源獲得更高的推理性能,從而極大地降低了部署門檻和運(yùn)營成本。
赤兔引擎的目標(biāo)非常明確,即滿足從純CPU到大規(guī)模集群的全場景大模型部署需求,適配英偉達(dá)多款GPU及多種國產(chǎn)芯片。同時(shí),針對市場上不同的大模型算力優(yōu)化需求,赤兔引擎提供了低延遲、高吞吐、小顯存三方面的優(yōu)化方案,確保以最低的成本實(shí)現(xiàn)最高的性能。這種設(shè)計(jì)理念使得集成赤兔引擎的大模型部署服務(wù)能夠覆蓋廣泛的客戶群體。
從底層設(shè)計(jì)上,赤兔引擎就將“算力效率”作為首要優(yōu)化目標(biāo),力求在資源消耗最低的情況下實(shí)現(xiàn)性能的最大化輸出。這一理念貫穿于赤兔引擎的每一個(gè)細(xì)節(jié),確保其在各種應(yīng)用場景中都能發(fā)揮出色的表現(xiàn)。
為了進(jìn)一步簡化企業(yè)AI落地流程,清程極智還推出了基于赤兔引擎的“推理一體機(jī)”。這款一體機(jī)提供了開箱即用的部署方案以及專業(yè)的運(yùn)維服務(wù),使得企業(yè)能夠更加便捷地應(yīng)用AI技術(shù),提升業(yè)務(wù)效率。
為了加速生態(tài)建設(shè),赤兔團(tuán)隊(duì)與多家國產(chǎn)芯片廠商展開了緊密的合作,開放了代碼貢獻(xiàn)通道,縮短了硬件適配周期。湯雄超表示:“開源不僅是技術(shù)共享,更是為國產(chǎn)芯片‘搶時(shí)間’。當(dāng)新的模型或數(shù)據(jù)類型出現(xiàn)時(shí),赤兔引擎能夠助力國產(chǎn)芯片迅速跟上國際節(jié)奏,縮小與國際先進(jìn)芯片之間的時(shí)間差距?!?/p>
赤兔引擎的發(fā)布標(biāo)志著中國在AI芯片生態(tài)建設(shè)方面取得了重要進(jìn)展,為國產(chǎn)芯片的應(yīng)用和普及提供了強(qiáng)有力的支持。未來,隨著赤兔引擎的不斷優(yōu)化和推廣,相信將有更多的企業(yè)能夠受益于這一先進(jìn)的技術(shù)成果。






