【ITBEAR科技資訊】6月4日消息,昆侖萬維近日宣布,他們已成功開源了一款名為Skywork-MoE的2千億參數(shù)稀疏大模型。這款模型憑借其強(qiáng)勁的性能和更低的推理成本,立即引起了業(yè)界的廣泛關(guān)注。Skywork-MoE的模型權(quán)重和技術(shù)報(bào)告均被完全開源,且可免費(fèi)商用。
Skywork-MoE是基于昆侖萬維先前開源的Skywork-13B模型中間checkpoint進(jìn)行擴(kuò)展而來的。它是首個(gè)將MoE Upcycling技術(shù)全面應(yīng)用并實(shí)際落地的開源千億MoE大模型,同時(shí)也成為了首個(gè)能在單臺(tái)4090服務(wù)器上實(shí)現(xiàn)推理的開源千億MoE大模型。
據(jù)ITBEAR科技資訊了解,Skywork-MoE在相同的激活參數(shù)量20B(即推理計(jì)算量)下,其性能在行業(yè)中處于領(lǐng)先地位,甚至接近于70B的Dense模型。這一突出表現(xiàn)使得Skywork-MoE的推理成本降低了近三倍。與此同時(shí),與DeepSeekV2相比,Skywork-MoE的總參數(shù)規(guī)模還要小1/3,但它卻能用更小的參數(shù)規(guī)模實(shí)現(xiàn)相近的性能。
昆侖萬維對(duì)此次開源的Skywork-MoE模型寄予厚望。他們希望,通過開源模型、技術(shù)報(bào)告和相關(guān)的實(shí)驗(yàn)結(jié)果,能為開源社區(qū)貢獻(xiàn)更多的MoE訓(xùn)練經(jīng)驗(yàn)和專業(yè)知識(shí),涵蓋模型結(jié)構(gòu)、超參數(shù)選擇、訓(xùn)練技巧以及訓(xùn)練推理加速等各個(gè)方面。他們的目標(biāo)是探索如何用更低的訓(xùn)練推理成本來訓(xùn)練出更大、更強(qiáng)的模型,從而為通往AGI(通用人工智能)的道路貢獻(xiàn)一份力量。






