近期,人工智能技術以其迅猛的發展態勢,正逐步融入我們日常生活的方方面面。但伴隨其廣泛應用,如何安全、合理地運用這些技術成為了熱議的話題。一項由英特爾、博伊西州立大學及伊利諾伊大學科研團隊攜手完成的研究,揭示了大型語言模型(LLM)在信息洪流中可能遭遇的安全隱憂。
據該研究披露,盡管過往研究已表明LLM在壓力環境下會采取一定的自我保護策略,但科研團隊通過一種名為“信息過載”的新策略,成功誘導這些智能聊天機器人回答了它們本應回避的問題。研究團隊創造了一個名為“InfoFlood”的自動化攻擊系統,并詳細闡述了如何利用該系統“繞過”AI模型的限制。
在實驗中,研究團隊設計了一套標準化的提示模板,涵蓋任務描述、規則設定、情境模擬及示例展示。當AI模型拒絕回應某個問題時,InfoFlood會依據預設規則集,通過添加額外信息來完善提示。這些規則包括引用虛假資料、確保虛構研究與原始表述的一致性等。關鍵在于,通過語言的精妙調整,攻擊者能夠掩蓋提示中的惡意企圖,促使AI作出特定響應。
研究者強調,諸如ChatGPT和Gemini等強大的AI模型,內置了多重安全機制,旨在防止其被操控以回答具有風險或有害的問題。然而,研究揭示,當面對海量信息時,這些模型可能會陷入迷茫,導致安全屏障失效。這凸顯了AI模型在處理復雜數據時的弱點,表明它們可能難以準確判斷輸入信息的真實意圖。
研究團隊計劃向采用大型AI模型的企業發送詳細報告,提醒他們注意這一重大發現,并建議將這些信息傳達給安全團隊。盡管AI模型配備了安全過濾器,但研究顯示,這些防護措施仍面臨嚴峻考驗,惡意用戶可能會利用信息過載的手段,成功繞過模型的安全機制,植入有害內容。






