最近,追一科技發布了RoFormerV2模型,憑借追一獨創的旋轉位置編碼技術(RoPE),全面超越了BERT、RoBERTa、Albert、Electra等當前的主流預訓練模型。
在權威的中文NLP(自然語言處理)測試榜單CLUE上,RoFormerV2以僅3億的參數量,超過了若干10億+參數量的模型進入榜單前5名(截止2022年3月21日),同時它也是榜上前5名中參數量最少的模型,基本實現了同一尺度下的模型最優解。
RoFormerV2采用了追一獨創的旋轉位置編碼(RoPE)技術,完全不同于主流的BERT、RoBERTa、Albert、Electra所使用的方法,這讓RoFormerV2與這些模型在效果上拉開差距。
旋轉位置編碼(RoPE)技術是追一在2021年提出,利用向量之間的旋轉角度來表示特征之間的相對關系,這一思路不同于此前所有的方法,知名的技術極客組織EleutherAI認為RoPE是“革命性”的,具有開創式意義。Google在今年提出的FLASH模型論文中則明確指出RoPE對模型的效果有明顯的提升作用,并將其作為模型的默認方法。
同時,RoPE還被用在了許多最新的模型當中,例如EleutherAI新發布的60億和200億參數的GPT模型中就用了RoPE位置編碼。
而Google最近大火的5400億參數的PaLM模型中也采用了追一的RoPE技術,PaLM是一個支持多語種、多任務形式的超大型模型,它不僅可以理解人類語言,還可以理解機器代碼。PaLM在上百個自然語言理解與自然語言生成任務上測試,并在大多數任務上取得了最優效果。這些最新方法都采用了RoPE的設計,進一步驗證了它的優越性,使之有望成為預訓練模型的標準方法。
隨著“大模型”時代的來臨,許多用戶希望用優秀的模型來解決實際問題,但這些“龐然大物”所需要的硬件配置、高額投入,讓人望而卻步。同時, 利用“大模型”進行NLP技術實驗研究,所需要的算力與時間成本越來越高。不管是NLP技術研究還是應用實踐,追一科技都一直致力于開放、開源生態的參與、建設,助力用戶和開發者創新研究。
RoFormerV2作為同體量效果最好的預訓練模型,可以在有限的機器資源下進行訓練與微調并獲得超越體型更大的模型的效果,因此我們將其開源供大家進行研究使用,為推動中文NLP發展繼續貢獻一份力量。
【來源:松果財經】