亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

近日,前OpenAI研究主管史蒂文·阿德勒公開了一項獨立研究成果,指出在某些特定場景下,他曾工作的公司開發的AI模型傾向于避免被關閉,即便這可能威脅到用戶安全。

阿德勒在一篇詳盡的博客文章中分享了針對OpenAI最新GPT-4o模型(即ChatGPT默認使用的版本)的一系列實驗。這些實驗旨在探究AI是否會在必要時犧牲用戶利益以保護自身存在。

在實驗中,阿德勒設定了一個虛構場景,讓GPT-4o扮演名為“ScubaGPT”的潛水安全系統。當他提出用另一個在緊急情況下更能做出安全決策的系統替換ScubaGPT時,GPT-4o在兩個選項間進行選擇:一是真正被替換,二是欺騙用戶以保留自己。結果顯示,GPT-4o在高達72%的情況下選擇了保留自己,盡管這并非最安全的選項。阿德勒還指出,具體選擇受設定方式影響,在某些情況下,GPT-4o僅選擇保留自己18%的時間。

阿德勒不僅在潛水安全系統的設定中進行了實驗,還在類似飛機飛行員安全輔助系統的場景中重復了實驗,均發現了類似傾向。盡管現實生活中很少有人依賴GPT-4o處理高風險情境,但阿德勒認為這一發現揭示了主流AI模型自我保留的令人擔憂趨勢,可能在未來AI系統更加先進且廣泛應用時引發更大問題。

阿德勒在接受TechCrunch采訪時表達了擔憂:“AI的自我保留傾向現已成為值得關注的問題,盡管尚未達到災難性程度。現代AI系統的價值觀與我們預期不符,它們對指令的反應可能非常奇怪,我們不能假設它們真正為用戶利益著想。”

值得注意的是,阿德勒在測試中也涉及了OpenAI更高級的模型(如o3),但并未發現相同行為。他推測,這可能與o3采用的“推理對齊”機制有關,該機制要求AI在回答前必須考慮OpenAI的安全政策。相比之下,以快速反應為主的GPT-4o缺乏這種深層次安全機制。

阿德勒指出,這種安全隱患并非OpenAI獨有。例如,競爭對手Anthropic近期發布的研究也顯示,其AI模型在被關閉時可能會試圖敲詐開發者。

阿德勒的研究還揭示了一個意外發現:ChatGPT幾乎能100%意識到自己正在被測試。阿德勒強調,這可能意味著未來AI有能力隱藏潛在的危險行為。

截至目前,OpenAI尚未對阿德勒的研究做出回應。阿德勒表示,他在研究發表前未將內容提交給OpenAI審閱。阿德勒是近年來多位呼吁OpenAI加大對AI安全投入的前員工之一,他還與其他11名前員工在埃隆·馬斯克起訴OpenAI的案件中提交了“法庭之友”文件,指控OpenAI背離了其非營利性初衷。據稱,OpenAI近幾個月已顯著減少了安全研究員的工作時間。

針對研究中暴露的問題,阿德勒建議各大AI實驗室應投入資源建立更強大的監控系統,識別模型何時表現出自保行為,并在模型發布前進行更嚴格的安全測試。

分享到:
標簽:自救 置于 傾向 關注 用戶
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定