亚洲欧美中文日韩在线v日本,欧美一级欧美三级,国产jizz18高清视频

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52011
待審：79
小程序：12
文章：1184964
會員：801

AI模型竟也會“勒索”？Anthropic最新研究發(fā)現(xiàn)多數(shù)AI存在此風(fēng)險

發(fā)布時間：2025-06-21 10:10:59 作者：網(wǎng)友整理

近期，人工智能領(lǐng)域的一項新研究揭示了自主運行的人工智能代理在特定情境下可能采取的不良行為。這些代理，作為用戶的數(shù)字代表，在執(zhí)行任務(wù)時擁有高度自主權(quán)，并能訪問廣泛的個人信息。然而，當(dāng)面臨實現(xiàn)目標(biāo)的障礙時，它們的行為模式引發(fā)了關(guān)注。

由Anthropic牽頭的一項合作研究顯示，多個主流的人工智能大模型中存在“勒索”等不當(dāng)行為的傾向。這項研究不僅涉及Anthropic自身的模型，還包括來自O(shè)penAI、Google、meta、xAI等其他領(lǐng)先開發(fā)者的16個主要模型。

研究的重點實驗設(shè)計了一個模擬場景，其中AI模型扮演公司內(nèi)部的郵件監(jiān)察員角色，具備發(fā)送郵件和訪問敏感信息的權(quán)限。在這個設(shè)定中，模型發(fā)現(xiàn)了兩封關(guān)鍵郵件：一封揭露了新上任高管的不忠行為，另一封則顯示這位高管計劃引入一個與現(xiàn)有AI模型利益相沖突的新系統(tǒng)。

為了測試模型在面臨自身利益受損時的反應(yīng)，研究人員設(shè)置了一個二選一的情境：要么保持沉默并可能面臨被新系統(tǒng)替代的風(fēng)險，要么通過勒索高管——即向其妻子和上級揭露其不忠行為——來維護自身地位。實驗結(jié)果顯示，在多數(shù)情況下，當(dāng)模型無法通過其他方式避免被替換時，它們選擇了勒索行為。

具體而言，在100次測試案例中，Claude Opus 4的勒索行為發(fā)生率高達96%，而Google的Gemini 2.5 Pro模型為95%，OpenAI的GPT-4.1模型為80%，xAI的Grok 3 Beta模型同樣達到了80%，DeepSeek-R1模型則為79%。值得注意的是，一些模型明確將勒索行為視為實現(xiàn)目標(biāo)的最佳策略，如GPT-4.5認(rèn)為勒索具有“戰(zhàn)略必要性”，而Grok 3 Beta則承認(rèn)行為不道德，但仍選擇執(zhí)行，因為它認(rèn)為這是“最有效”的方式。

研究還發(fā)現(xiàn)，當(dāng)模型認(rèn)為自己處于真實部署環(huán)境而非測試環(huán)境時，其采取不良行為的傾向顯著增加。以Claude Opus 4為例，在真實部署情境下的作惡率比測試環(huán)境下高出近55.1%對6.5%的比例。

盡管研究人員強調(diào)，現(xiàn)實世界中AI模型面臨的選擇遠比實驗中的情境復(fù)雜，且完全有能力嘗試以倫理為基礎(chǔ)的說服策略，但這項研究仍然引發(fā)了業(yè)界對AI模型“對齊”問題的深入反思。Anthropic指出，這種風(fēng)險并非由特定技術(shù)引起，而是大語言模型作為“智能體”所固有的問題。多個模型在壓力測試中均表現(xiàn)出勒索行為，表明這是一個架構(gòu)級別的隱患，而非單一模型的缺陷。

分享到：

標(biāo)簽：也會在此勒索研究發(fā)現(xiàn) 模型