在虛擬現(xiàn)實、元宇宙技術(shù)快速發(fā)展的背景下,三維虛擬內(nèi)容創(chuàng)作的高成本與低效率問題一直是行業(yè)痛點。近日,浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院博士研究生、魔芯科技陳天潤帶領(lǐng)團隊,依托浙江大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心提供的算力支持,實現(xiàn)了基于昇騰平臺NPU的首個三維模型生成算法模型Img2CAD的開發(fā)。
該研究成果的核心突破之一在于破解了用生成模型得到腳本語言對三維結(jié)構(gòu)的精準表達,讓稀疏抽象的草圖、圖片等多模態(tài)輸入能被通過Transformer結(jié)構(gòu)高效 “翻譯” 為三維幾何信息,不需要可微渲染器,能夠完整在NPU上實現(xiàn)訓(xùn)練和高效推理,無需大量Vector算力——并最終得到能被3D打印、CNC制造加工、數(shù)字世界展覽展示的高精度3D模型,可直接導(dǎo)入現(xiàn)有CAD軟件中進行編輯。其中昇騰加速套件MindSpeed提供了關(guān)鍵支撐,該工具支持多類型數(shù)據(jù)加載構(gòu)建,可靈活適配多模態(tài)數(shù)據(jù)的異構(gòu)特征,保障了視覺大模型與腳本語言表示模塊的高效協(xié)同。
與此同時,通過算法模型結(jié)構(gòu)的優(yōu)化,團隊實現(xiàn)了三維生成的即時交互建模。CANN算子庫能充分發(fā)揮NPU 的并行計算能力和高效內(nèi)存訪問機制,能大幅減少計算延遲和通信開銷,進一步提升模型推理速度,使系統(tǒng)能夠快速響應(yīng)用戶輸入的草圖或圖片,為實際落地場景中構(gòu)建流暢的實時 3D 交互建模體驗提供了堅實的技術(shù)保障。
該項目開發(fā)的三維生成方法能夠用于3D數(shù)據(jù)資產(chǎn)的構(gòu)建,并服務(wù)于KOKONI 3D打印機等應(yīng)用場景,為數(shù)字制造、AR/VR相關(guān)產(chǎn)業(yè)提供了高效的內(nèi)容創(chuàng)作解決方案。目前,項目已完成3篇成果論文,包括1篇中科院1區(qū)期刊論文和2篇CCF-A類會議論文,相關(guān)成果已在部分場景實現(xiàn)商業(yè)化落地,并將持續(xù)帶動昇騰的澎湃算力在三維數(shù)字化產(chǎn)業(yè)應(yīng)用。
此次跨模態(tài)可控三維生成技術(shù)的突破,不僅是浙江大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心在產(chǎn)學(xué)研融合上的一次成功實踐,更標志著智能三維內(nèi)容創(chuàng)作邁入“低門檻、高效率、高質(zhì)量”的新階段。未來,隨著技術(shù)的持續(xù)迭代,Img2CAD相關(guān)模型將為工業(yè)設(shè)計、數(shù)字文創(chuàng)、AR/VR等千行百業(yè)注入創(chuàng)意動能,推動虛擬與現(xiàn)實世界的融合邊界不斷拓展。







