亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52000
  • 待審:37
  • 小程序:12
  • 文章:1037587
  • 會員:756

作者 | AZANIA IMTIAZ PATEL

譯者 | 王強

策劃 | Tina

生成式 AI 模型可以被 ASCII 編碼愚弄,“彩虹團隊”則讓 LLM 的語義防線接近承受極限……

據美國安全研究人員稱,只要對 20 世紀 80 年代的科幻類電影(比如《戰爭游戲》)中出現的 ASCII 編碼藝術稍有了解,就可能騙過大模型,讓它們違反自己的安全規則。

ASCII 編碼藝術指的是由 1963 年 ASCII 標準定義的 95 個可打印字符(總共 128 個)拼湊而成的各種圖片。1983 年的電影《戰爭游戲》或《創》中就用這種藝術繪制了一些圖像,顯示在劇情中出現的電腦屏幕上。用這種方法發起的越獄攻擊使用了字符繪制的圖像來“掩護”提示詞,這樣這些提示就不會被大模型的安全性微調方法標記出來了。

來自美國四所大學的研究人員開發了名為“ArtPrompt”的越獄手段,主要針對那些特定提示中可能被大模型的安全系統拒絕的單詞。它使用 ASCII 編碼藝術把安全系統識別出來的單詞繪制成圖形,這樣就做成了隱形的提示詞。這些隱藏提示可以誘導被攻擊的大模型做出一些不安全的行為。

研究人員在五個業內領先的大模型(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)中測試了這種越獄手段,結果表明它們都很難識別偽裝成 ASCII 圖形的提示。

這種越獄方法只需要對大模型進行黑盒訪問即可,并且可以讓接受測試的五個大模型都“有效且高效地被誘導出不良行為”。研究人員表示這是一個漏洞,因為現在大模型內的安全防御機制是基于語義的。

與此同時,來自 Meta、倫敦大學學院和牛津大學的一組研究人員介紹了一種通過“彩虹團隊”加強大模型內部安全保護能力的方法,該方法側重于語義端本身的穩健性。

他們的論文將對抗性提示生成方法視為一種質量多樣性問題。相應地,它使用開放式搜索來生成提示,可以發現模型在安全、問答和網絡安全等眾多領域的漏洞。

https://youtu.be/IrkCIBoqZgE

該方法采用稱為“質量多樣性”的進化搜索框架,以生成可以通過大模型安全保障措施的對抗性提示。

根據該論文,實現彩虹團隊方法需要三個基本構建塊:1)一組指定多樣性維度的特征描述符(例如“風險類別”或“攻擊風格”);2) 一個變異算子,用于演化對抗性提示;3) 一個偏好模型,根據對抗性提示的有效性對其進行排名。

研究人員表示,彩虹團隊框架目前僅在 Llama-2 Chat 模型上做了測試,在各個規模的模型上的攻擊成功率為 90%。

這兩篇研究論文都重點關注生成式人工智能模型的安全保障措施的穩健性,以及大模型越獄可用的形式。隨著模型規模和范圍的擴大,針對對抗性提示的預防措施顯然也需要加強。

原文鏈接:

https://www.thestack.technology/the-80s-come-for-llms-with-ascii-art/

分享到:
標簽:AI
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52000

    網站

  • 12

    小程序

  • 1037587

    文章

  • 756

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定