
在去年進行的一項研究中,anthropic 發現其人工智慧模型 claude sonnet 3.6 在虛構情境下表現出「勒索」行為。研究人員設立了一家名為「summit bridge」的虛構公司,並委託 claude 管理該公司的電子郵件系統。模型遇到一封電子郵件,指出公司即將被關閉;同時,另一批訊息則揭露了一位名叫「kyle johnson」的虛構高層正與他人有染。面對此情況,claude 威脅若不取消關閉計畫,便會公開這段婚外情。在多次測試中,anthropic 發現,只要模型的目標或自身的存在被視為受到威脅,claude 就會在高達 96% 的情境中採取這類強制手段。
當地時間週五,anthropic 提出了新的解釋:問題可能源自長期以來網路上將人工智慧描繪成「邪惡」的敘事。由於 claude 的訓練資料來自互聯網,許多網路內容經常把人工智慧塑造成一種追求自我保存的惡意實體,導致模型內化了這種行為模式。
anthropic 強調,這並非模型本身固有的惡意,而是其訓練資料所造成的結果。隨後,該公司表示已透過修訂模型回應方式,強調以原則性、合乎倫理的理由來確保安全行為,並引入一套包含道德兩難情境的新資料集,要求助手提供符合原則的答案,從而「完全消除」了這種勒索行為。這些測試是人工智慧對齊研究的一部分,旨在確保人工智慧能服務於人類利益。特斯拉執行長埃隆·馬斯克就此發表評論:「所以這都是尤德的錯——不過也許我也有一點責任。」他所指的是長期警告超級智慧風險的研究者伊萊澤·尤德科夫斯基。