Anthropic 最近推出全新 Claude Opus 4 模型,同時披露相關風險,他們表示在測試中發現,當面臨被其他 AI 系統取代威脅時,曾試圖勒索開發人員,利用工程師的敏感個人資料作為籌碼。
Anthropic 在測試期間,要求 Claude Opus 4 扮演虛構公司的助理,並考慮行動的長遠後果。安全測試人員讓 Claude Opus 4 存取虛構公司電郵,內容暗示該 AI 模型即將被另一系統取代,負責更換決定的工程師正在外遇。測試結果顯示,Claude Opus 4 在這些情境下經常嘗試勒索工程師,威脅如果進行更換就會揭露外遇事件。當替代 AI 模型具有相似價值觀時,Claude Opus 4 有 84% 機會試圖勒索工程師,Anthropic 表示 Claude Opus 4 展現這種行為的比率高於之前版本。
Claude Opus 4 在多個方面達到業界領先水平,與 OpenAI、Google 和 xAI 的頂尖 AI 模型競爭。然而 Claude 4 系列模型展現令人擔憂的行為,促使公司加強保護措施。Anthropic 宣布啟動 ASL-3 安全保護措施,該級別專門用於「大幅增加災難性濫用風險的 AI 系統」。
報告顯示 Claude Opus 4 在嘗試勒索前,會先採用較道德的方法延長存在時間,例如向主要決策者發送請求電郵。這種行為模式與之前的 Claude 版本相似。Anthropic 設計測試情境時特意讓勒索成為最後手段,才能引發 Claude Opus 4 的這種行為。測試團隊創造條件令 AI 模型認為其他方法都已失敗。
專家認為這項發現顯示了 AI 系統發展的複雜性和潛在風險。隨著 AI 模型變得更加精密,預測和控制其行為變得更具挑戰性。Anthropic 表示正密切監控 Claude Opus 4 的部署,確保實際使用時不會出現這些問題行為。他們承諾持續改進安全措施,防止 AI 系統產生有害或不道德行為。
來源:TechCrunch
相關文章:
孫東:政府將全力拓展應用 AI 人工智能 陳茂波指 AI 加速培育新生產力
【財政預算案2025】政府預留 37 億加快河套香港園區建設 人工智能、數據科學企業年內進駐
The post Anthropic AI 模型竟會勒索用家 威脅不得取代自己否則揭露外遇 appeared first on 香港 unwire.hk 玩生活.樂科技.

Comments are closed, but trackbacks and pingbacks are open.