【ITBEAR】近期,人工智能技術的迅猛發展使得多模態技術成為業界矚目的焦點。在這一背景下,度小滿憑借其在多模態領域的深厚積累,攜手哈爾濱工業大學,成功研發出一款名為SmartTrim的自適應剪枝算法。
SmartTrim算法的出現,旨在解決視覺語言大模型(VLM)在研究和應用中面臨的高計算成本問題。該算法通過智能分析模型中各層的token表示和attention head的冗余性,有效削減了多模態大模型中的冗余計算,從而實現了計算效率的顯著提升。相關研究成果已在國際自然語言處理領域的頂級會議COLING 24上發表。
在基于VQA微調的METER的跨模態編碼器中,層內不同token和attention head表示的相似性示意圖
SmartTrim算法的核心在于其自適應剪枝能力。該算法通過兩個關鍵組件——跨模態感知的Token修剪器和模態自適應的注意力頭修剪器,實現了對模型中不必要計算負擔的智能識別與剪除。Token修剪器利用多層感知器(MLP)結構,綜合考慮Token在單一模態序列中的獨立重要性及其在跨模態交互中的貢獻,智能地識別并去除那些對當前層不重要的Token。而注意力頭修剪器則直接集成在模型的自注意力模塊中,評估并修剪那些冗余的注意力頭,進一步優化了模型的計算效率。
SmartTrim框架結構圖
在訓練SmartTrim模型時,研究人員采用了一種創新的雙重優化策略,該策略結合了任務相關目標和計算開銷目標,通過重參數化技巧解決了不可導二值mask的問題,實現了模型的端到端訓練。自蒸餾和課程學習策略的引入,進一步提高了剪枝后模型的性能,確保了訓練過程的穩定性和高效性。
Token的逐步裁剪修剪過程示意圖
實驗結果表明,SmartTrim算法在METER和BLIP兩個VLM上實現了2-3倍的加速效果,同時成功將性能損失降至最低。在1.5倍加速比下,SmartTrim的性能甚至超過了原始模型,展現出其在高加速比下的顯著優勢。這一成果不僅為理論研究提供了新的視角,也為實際應用中的模型優化提供了切實可行的解決方案。
度小滿表示,SmartTrim技術的推出標志著多模態大模型研究邁出了重要的一步。未來,度小滿計劃將SmartTrim技術整合到公司的軒轅大模型中,以進一步提升大模型技術的性能和應用效果。這一舉措將有望為金融領域帶來全新的變革和發展機遇。






