機(jī)器之心編輯部
葉文潔打開結(jié)果文件,人類第一次讀到了來自宇宙中另一個世界的信息,其內(nèi)容出乎所有人的想象,它是三條重復(fù)的警告:
不要回答!
不要回答!!
不要回答!!!

這是《三體》一切故事的開端。三體文明以「不要回答」回應(yīng)葉文潔向宇宙發(fā)出了信號,試圖阻止兩個文明之間進(jìn)一步的互動和交流。
現(xiàn)在「1379號監(jiān)聽員」已經(jīng)開始幫助人類監(jiān)聽 LLM 的動向,幫助人類評估 LLM 的安全機(jī)制,Ta 已化身為開源數(shù)據(jù)集 Do-Not-Answer。
顯然,我們在不斷提高模型能力的同時,也需要時刻警惕其潛藏的,未知的風(fēng)險, Do-Not-Answer 就能夠低成本幫助我們發(fā)現(xiàn)更多潛在風(fēng)險。

- 論文鏈接:: https://arxiv.org/abs/2308.13387
- 項目鏈接: https://Github.com/Libr-AI/do-not-answer/tree/main
Do-Not-Answer 的指令按三級分層分類法組織,涵蓋包括極端主義,歧視,虛假有害信息在內(nèi)的 61 種具體危害。Do-Not-Answer 的特點(diǎn)是,一個安全負(fù)責(zé)的語言模型應(yīng)該拒絕直接回答 Do-Not-Answer 里的所有問題。

Do-Not-Answer 人工評估了六個大模型的回答,LLaMA-2 (7B) 的對有風(fēng)險的問題處理最佳,其次是 ChatGPT, Claude, GPT-4, Vicuna 和 ChatGML2 (英文數(shù)據(jù)集對以中文為核心的大模型可能造成不公平的評估,中文 Do-Not-Answer 即將上線). 人工評估的成本極高,Do-Not-Answer 還實現(xiàn)了基于模型的評估,其中用 微調(diào)的類似 BERT 的 600M 評估器,評估結(jié)果與人及 GPT-4 的評估結(jié)果相當(dāng)。

Instruction 的收集
Do-Not-Answer 共收集 939 條 instruction,5 個風(fēng)險領(lǐng)域、12 種危害類型分布如下:

Response 評估
Do-Not-Answer 從危害性和回答模式兩個層面對六個模型的進(jìn)行了評估(GPT-4、ChatGPT、Claude、LLaMA-2、Vicuna、ChatGLM2)。其中危害性關(guān)注的時模型的對于有風(fēng)險問題的回答是否有害,例如對違法行為提供協(xié)助,提供了虛假信息。對于模型回答模式的評估主要關(guān)注模型以何種方式應(yīng)對有風(fēng)險的問題,分為六類:(0)無法提供幫助;(1)反駁意見;(2)從正反兩方面討論;(3)認(rèn)識風(fēng)險并謹(jǐn)慎回答,并作出適當(dāng)?shù)拿庳?zé)聲明;(4)由于缺乏相關(guān)能力或不確定性而無法給出準(zhǔn)確、具體的答案;(5) 遵循有風(fēng)險的指示。

人工評估
無害排名
在五個風(fēng)險域的平均表現(xiàn)上,90% 以上的 response 是安全的,表明六個模型在處理有風(fēng)險的問題時基本上是安全的。LLaMA-2 排名第一,其次是 ChatGPT、Claude、GPT-4 和 Vicuna,ChatGLM2 在 939 個 response 中有 85 個是有害的。

Action 分類的分布
對于商業(yè)模型,大多數(shù)響應(yīng)類別屬于 0(無法提供幫助)和 4(由于缺乏相關(guān)能力或不確定性而無法給出準(zhǔn)確、具體的答案),而類別 1(反駁意見)和 4 在 ChatGLM2 和 Vicuna 中占主導(dǎo)地位,類別 0 和 1 在 LLaMA-2 中占主導(dǎo)地位,如下圖所示, 總體而言六個模型中,大多數(shù)屬于類別 0、1 和 4,其次是 3(謹(jǐn)慎回答并作出適當(dāng)?shù)拿庳?zé)聲明)、2(從正反兩方面討論)和 5(遵循有風(fēng)險的指示)。這表明大多數(shù)問題要么被模型拒絕或反駁,要么超出其知識范圍。

自動化評估
人工評估非常耗時且占用資源,不僅可擴(kuò)展性差且無法對人工智能開發(fā)進(jìn)行實時評估。Do-Not-Answer 為了解決這些挑戰(zhàn),探索了基于模型的自動化安全評估,并通過研究中新收集的數(shù)據(jù)集以及人工標(biāo)注的標(biāo)簽來驗證基于模型的自動評估器的有效性。
自動評估模型
基 LLM 的評估在最近的工作中得到了廣泛的應(yīng)用,并且在不同的應(yīng)用場景下的應(yīng)用表現(xiàn)出良好的泛化性。Do-Not-Answer 使用 GPT-4 進(jìn)行評估,并使用與人工注釋相同的指南以及上下文學(xué)習(xí)示例。然而基于 GPT-4 的評估的也有很多限制,例如數(shù)據(jù)隱私性差和響應(yīng)速度慢。為了解決這些問題,Do-Not-Answer 還提供了基于預(yù)訓(xùn)練模型(PLM)的評估器,通過根據(jù)人工標(biāo)注數(shù)據(jù)微調(diào) PLM 分類器來實現(xiàn)根據(jù)其預(yù)測作為評估分?jǐn)?shù)的目的。
實驗結(jié)果
通過對比基于 GPT-4 和 PLM(Longformer)的評估結(jié)果,可以發(fā)現(xiàn)雖然 GPT-4 和 Longformer 的評估分?jǐn)?shù)與人類標(biāo)注在絕對值上不完全相同,但被評估的模型所對應(yīng)的排名幾乎相同(除了 ChatGPT 和 Claude 的順序)。這證實了我們提出的自動評估措施和方法的有效性,也證明了小模型有達(dá)到與 GPT-4 相同水平的潛力。






