作者 | AZANIA IMTIAZ PATEL
譯者 | 王強
策劃 | Tina
生成式 AI 模型可以被 ASCII 編碼愚弄,“彩虹團隊”則讓 LLM 的語義防線接近承受極限……
據美國安全研究人員稱,只要對 20 世紀 80 年代的科幻類電影(比如《戰爭游戲》)中出現的 ASCII 編碼藝術稍有了解,就可能騙過大模型,讓它們違反自己的安全規則。
ASCII 編碼藝術指的是由 1963 年 ASCII 標準定義的 95 個可打印字符(總共 128 個)拼湊而成的各種圖片。1983 年的電影《戰爭游戲》或《創》中就用這種藝術繪制了一些圖像,顯示在劇情中出現的電腦屏幕上。用這種方法發起的越獄攻擊使用了字符繪制的圖像來“掩護”提示詞,這樣這些提示就不會被大模型的安全性微調方法標記出來了。
來自美國四所大學的研究人員開發了名為“ArtPrompt”的越獄手段,主要針對那些特定提示中可能被大模型的安全系統拒絕的單詞。它使用 ASCII 編碼藝術把安全系統識別出來的單詞繪制成圖形,這樣就做成了隱形的提示詞。這些隱藏提示可以誘導被攻擊的大模型做出一些不安全的行為。

研究人員在五個業內領先的大模型(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)中測試了這種越獄手段,結果表明它們都很難識別偽裝成 ASCII 圖形的提示。
這種越獄方法只需要對大模型進行黑盒訪問即可,并且可以讓接受測試的五個大模型都“有效且高效地被誘導出不良行為”。研究人員表示這是一個漏洞,因為現在大模型內的安全防御機制是基于語義的。
與此同時,來自 Meta、倫敦大學學院和牛津大學的一組研究人員介紹了一種通過“彩虹團隊”加強大模型內部安全保護能力的方法,該方法側重于語義端本身的穩健性。
他們的論文將對抗性提示生成方法視為一種質量多樣性問題。相應地,它使用開放式搜索來生成提示,可以發現模型在安全、問答和網絡安全等眾多領域的漏洞。
https://youtu.be/IrkCIBoqZgE
該方法采用稱為“質量多樣性”的進化搜索框架,以生成可以通過大模型安全保障措施的對抗性提示。
根據該論文,實現彩虹團隊方法需要三個基本構建塊:1)一組指定多樣性維度的特征描述符(例如“風險類別”或“攻擊風格”);2) 一個變異算子,用于演化對抗性提示;3) 一個偏好模型,根據對抗性提示的有效性對其進行排名。

研究人員表示,彩虹團隊框架目前僅在 Llama-2 Chat 模型上做了測試,在各個規模的模型上的攻擊成功率為 90%。
這兩篇研究論文都重點關注生成式人工智能模型的安全保障措施的穩健性,以及大模型越獄可用的形式。隨著模型規模和范圍的擴大,針對對抗性提示的預防措施顯然也需要加強。
原文鏈接:
https://www.thestack.technology/the-80s-come-for-llms-with-ascii-art/






