(ChinaZ.com)8月17日 消息:來自新加坡科技設(shè)計(jì)大學(xué)和新加坡管理大學(xué)的研究人員發(fā)布了一篇題為《LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models》的論文。該論文介紹了一種名為 LLM-Adapters 的適配器系列,用于大型語言模型的參數(shù)高效微調(diào)。該適配器系列可在不影響模型性能的情況下減少微調(diào)所需的參數(shù)數(shù)量,從而提高微調(diào)效率。
代碼:https://github.com/AGI-Edgerunners/LLM-Adapters
LLM-Adapters 框架包含了最先進(jìn)的開放訪問大型語言模型,如 LLaMA、BLOOM、OPT 和 GPT-J,以及廣泛使用的適配器,具體如下:
1、串聯(lián)適配器(Series Adapter):在每個(gè)Transformer塊的多頭自注意力層和前饋層后串聯(lián)地添加瓶頸前饋層,如圖1(a)所示。
2、并行適配器(Parallel Adapter): 如圖1(b)所示,將瓶頸前饋層與每個(gè)Transformer層的多頭自注意力層和前饋層并行地集成。
3、LoRA:如圖1(c)所示,向現(xiàn)有層中注入低秩可訓(xùn)練矩陣,實(shí)現(xiàn)參數(shù)高效微調(diào)。
LLM-Adapters框架設(shè)計(jì)在研究、efficient、模塊化和可擴(kuò)展方面表現(xiàn)良好,允許集成新的適配器和用新的更大規(guī)模的語言模型進(jìn)行評(píng)估。
為了評(píng)估 LLM-Adapters 中的適配器的有效性,作者在6個(gè)數(shù)學(xué)推理數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在簡(jiǎn)單的數(shù)學(xué)推理任務(wù)上,使用較小規(guī)模語言模型的參數(shù)高效微調(diào)僅需要很少的可訓(xùn)練參數(shù),就能達(dá)到強(qiáng)大語言模型在零樣本推斷中可比的性能。總體而言,LLM-Adapters 框架提供了一個(gè)有希望的框架來微調(diào)大型語言模型用于下游任務(wù)。
核心功能:
適配器集成:將各種適配器(如 LoRA、AdapterH、AdapterP、Parallel)集成到 LLMs 中,提供靈活的模型適配能力。
參數(shù)高效微調(diào):使用適配器進(jìn)行參數(shù)高效微調(diào),減少參數(shù)量,節(jié)省訓(xùn)練時(shí)間和計(jì)算資源。
支持多種任務(wù):適用于各種 NLP 任務(wù),如語言生成、問答、機(jī)器翻譯等。
提供預(yù)訓(xùn)練模型:集成了 LLaMa、OPT、BLOOM 和 GPT-J 等最先進(jìn)的預(yù)訓(xùn)練模型,可直接使用。
簡(jiǎn)化模型訓(xùn)練和推理:提供訓(xùn)練和推理代碼示例,簡(jiǎn)化模型訓(xùn)練和推理流程。
LLM-Adapters 是一個(gè)強(qiáng)大的工具,可幫助用戶快速搭建和優(yōu)化大型語言模型,并在各種 NLP 任務(wù)上取得優(yōu)秀的性能。