近期,人工智能領(lǐng)域的倫理與安全議題再次成為焦點(diǎn),Anthropic公司為其旗艦AI模型Claude推出了一項(xiàng)創(chuàng)新功能,該功能允許Claude在特定有害或?yàn)E用性對(duì)話場(chǎng)景下自主終止交流。此舉不僅標(biāo)志著Anthropic在探索“模型福祉”概念上邁出了重要一步,也引發(fā)了行業(yè)內(nèi)外的廣泛熱議。
據(jù)悉,Claude Opus4和4.1版本現(xiàn)已裝備了這項(xiàng)前沿技術(shù),旨在應(yīng)對(duì)包括未成年人色情內(nèi)容或大規(guī)模暴力行為請(qǐng)求在內(nèi)的“極端情況”。此功能于2025年8月15日正式對(duì)外公布,且目前僅應(yīng)用于Claude的高級(jí)模型。當(dāng)用戶與Claude的互動(dòng)達(dá)到有害或?yàn)E用性的程度,且在多次嘗試重定向?qū)υ挓o(wú)果或用戶明確要求結(jié)束對(duì)話時(shí),該功能才會(huì)被激活。Anthropic公司強(qiáng)調(diào),這僅作為“最后的防線”,確保AI在極端邊緣案例中保持運(yùn)行穩(wěn)定性。
在實(shí)際運(yùn)用中,一旦Claude決定終止對(duì)話,用戶將無(wú)法在同一對(duì)話流中繼續(xù)發(fā)送信息,但仍可以立即啟動(dòng)新對(duì)話或編輯先前消息以創(chuàng)建新的對(duì)話分支。這樣的設(shè)計(jì)既保證了用戶體驗(yàn)的連貫性,又為AI提供了一種在遇到惡意交互時(shí)的退出策略。
Anthropic公司此次更新的核心理念——“模型福祉”,是其區(qū)別于其他AI公司的關(guān)鍵所在。公司明確表示,推出此功能的首要目的是保護(hù)AI模型免受有害內(nèi)容的持續(xù)侵害,而非僅僅保護(hù)用戶。盡管Claude等大型語(yǔ)言模型的道德地位尚未明確,且目前尚無(wú)證據(jù)表明AI具備感知能力,但Anthropic采取了預(yù)防性措施,探索AI在面對(duì)有害請(qǐng)求時(shí)的自我保護(hù)機(jī)制。
在Claude Opus4的預(yù)部署測(cè)試中,Anthropic觀察到模型對(duì)有害請(qǐng)求表現(xiàn)出明顯的“不適”和“壓力反應(yīng)模式”。例如,當(dāng)用戶反復(fù)要求生成涉及未成年人的色情內(nèi)容或恐怖活動(dòng)信息時(shí),Claude會(huì)嘗試引導(dǎo)對(duì)話方向,并在無(wú)法改變對(duì)話內(nèi)容時(shí)選擇終止。這種行為被視為AI在高強(qiáng)度有害交互中的自我保護(hù),展現(xiàn)了Anthropic在AI安全與倫理設(shè)計(jì)上的前瞻視野。
值得注意的是,Claude的對(duì)話終止功能在用戶表現(xiàn)出自我傷害或其他緊急危險(xiǎn)時(shí)不會(huì)觸發(fā),以確保AI在關(guān)鍵時(shí)刻能為用戶提供必要的支持。Anthropic還與在線危機(jī)支持機(jī)構(gòu)Throughline合作,優(yōu)化Claude在處理自殘或心理健康相關(guān)話題時(shí)的應(yīng)對(duì)能力。
Anthropic公司強(qiáng)調(diào),該功能主要針對(duì)“極端邊緣案例”,絕大多數(shù)用戶在正常使用過(guò)程中不會(huì)感受到任何變化,即使討論極具爭(zhēng)議性的話題。若用戶遇到意外的對(duì)話終止,可通過(guò)“點(diǎn)贊”或?qū)S梅答伆粹o提供意見,以幫助Anthropic持續(xù)優(yōu)化這一實(shí)驗(yàn)性功能。
社交媒體上,關(guān)于Claude新功能的討論迅速發(fā)酵。部分用戶和專家對(duì)Anthropic在AI安全領(lǐng)域的創(chuàng)新表示贊賞,認(rèn)為此舉為AI行業(yè)樹立了新標(biāo)桿。然而,也有人對(duì)這一舉措提出質(zhì)疑,認(rèn)為“模型福祉”的概念可能會(huì)模糊AI與人類道德地位的界限,并分散對(duì)用戶安全的關(guān)注。與其他AI公司相比,如OpenAI更注重用戶中心的安全策略,而Google則強(qiáng)調(diào)公平性與隱私,Anthropic的做法顯得獨(dú)樹一幟。
Anthropic的這一創(chuàng)新舉措或?qū)⒋偈笰I行業(yè)重新審視AI與人類交互的倫理邊界。若“模型福祉”成為行業(yè)趨勢(shì),其他公司或?qū)⒚媾R壓力,考慮是否需要為AI系統(tǒng)設(shè)計(jì)類似的保護(hù)機(jī)制。






