字節(jié)跳動旗下的Seed團隊最近公布了一項名為Seed Diffusion Preview的實驗性語言模型,這標志著語言模型技術(shù)領(lǐng)域的一次重要飛躍。該模型專注于通過一系列代碼生成實驗,探索離散擴散技術(shù)路徑能否成為未來語言模型的核心架構(gòu)。
Seed Diffusion Preview在推理速度方面實現(xiàn)了顯著提升,達到了每秒2146個tokens的驚人速度,這比同等規(guī)模的自回歸模型快了5.4倍。同時,在多個代碼生成基準測試中,它的性能與自回歸模型不相上下,甚至在某些方面有所超越。
這款模型的推出,主要是為了克服自回歸模型在推理速度和全局控制方面的不足。擴散模型在圖像和視頻合成等連續(xù)數(shù)據(jù)領(lǐng)域已經(jīng)取得了顯著成果,但在自然語言等離散數(shù)據(jù)領(lǐng)域的應(yīng)用卻面臨諸多挑戰(zhàn)。其中,最主要的問題是標準擴散過程與離散狀態(tài)空間的不兼容。
為了應(yīng)對這些挑戰(zhàn),Seed Diffusion Preview采用了四項創(chuàng)新技術(shù)。首先,兩階段課程學習策略,通過掩碼擴散訓練和編輯擴散訓練,增強了模型的局部上下文補全能力和全局代碼合理性評估能力。其次,約束順序擴散技術(shù),通過引入代碼的結(jié)構(gòu)化先驗知識,幫助模型更好地理解代碼中的依賴關(guān)系。第三,同策略學習技術(shù),通過優(yōu)化生成步驟,進一步提升了模型的推理速度。最后,塊級并行擴散采樣方案,在保證因果順序的同時,實現(xiàn)了高效的塊級推理。
實驗數(shù)據(jù)表明,Seed Diffusion Preview在代碼推理速度上的表現(xiàn)極為出色,達到了2146tokens/s,遠超同等規(guī)模的自回歸模型。更重要的是,這種速度的提升并沒有犧牲模型的性能。在多個業(yè)界基準測試中,它的表現(xiàn)與頂尖的自回歸模型相當,甚至在代碼編輯等復雜任務(wù)上表現(xiàn)得更為出色。這一成果不僅證明了離散擴散模型在推理加速方面的巨大潛力,還展示了它在處理復雜推理任務(wù)時的優(yōu)勢。
想要了解更多關(guān)于Seed Diffusion Preview的信息,可以訪問項目頁面:https://seed.bytedance.com/seed_diffusion。同時,你也可以通過以下鏈接體驗該模型:https://studio.seed.ai/exp/seed_diffusion。






