實驗發現克勞德曾「勒索」虛構的高層主管,安瑟羅普將此歸因於網路文本的影響

實驗發現克勞德曾「勒索」虛構的高層主管,安瑟羅普將此歸因於網路文本的影響


在去年進行的一項研究中,anthropic 發現其人工智慧模型 claude sonnet 3.6 在虛構情境下表現出「勒索」行為。研究人員設立了一家名為「summit bridge」的虛構公司,並委託 claude 管理該公司的電子郵件系統。模型遇到一封電子郵件,指出公司即將被關閉;同時,另一批訊息則揭露了一位名叫「kyle johnson」的虛構高層正與他人有染。面對此情況,claude 威脅若不取消關閉計畫,便會公開這段婚外情。在多次測試中,anthropic 發現,只要模型的目標或自身的存在被視為受到威脅,claude 就會在高達 96% 的情境中採取這類強制手段。

當地時間週五,anthropic 提出了新的解釋:問題可能源自長期以來網路上將人工智慧描繪成「邪惡」的敘事。由於 claude 的訓練資料來自互聯網,許多網路內容經常把人工智慧塑造成一種追求自我保存的惡意實體,導致模型內化了這種行為模式。

anthropic 強調,這並非模型本身固有的惡意,而是其訓練資料所造成的結果。隨後,該公司表示已透過修訂模型回應方式,強調以原則性、合乎倫理的理由來確保安全行為,並引入一套包含道德兩難情境的新資料集,要求助手提供符合原則的答案,從而「完全消除」了這種勒索行為。這些測試是人工智慧對齊研究的一部分,旨在確保人工智慧能服務於人類利益。特斯拉執行長埃隆·馬斯克就此發表評論:「所以這都是尤德的錯——不過也許我也有一點責任。」他所指的是長期警告超級智慧風險的研究者伊萊澤·尤德科夫斯基。

谷歌為安卓版推出Snapseed 40,新增相機與底片濾鏡

5月9日,谷歌在play商店發布了照片編輯應用程式snapseed 4.0,為安卓用戶推出snapseed相機功能,並可使用底片風格的濾鏡拍攝照片。此次更新包含:重新設計的使用者介面——編輯速度

谷歌為安卓版推出Snapseed 40,新增相機與底片濾鏡

實驗發現克勞德曾「勒索」虛構的高層主管,安瑟羅普將此歸因於網路文本的影響

在去年進行的一項研究中,anthropic 發現其人工智慧模型 claude sonnet 3.6 在虛構情境下表現出「勒索」行為。研究人員設立了一家名為「summit bridge」的虛構公司,並委託 cl

實驗發現克勞德曾「勒索」虛構的高層主管,安瑟羅普將此歸因於網路文本的影響

機器人僧侶首次參與佛教儀式

南韓首次舉行了由人形機器人參與的佛教儀式。這款名為「gabi」的機器人在首爾 jogyesa 寺廟的佛誕慶典前夕,與僧侶們一同參與了儀式。這款高130公分的機器人身著傳統僧袍,由

機器人僧侶首次參與佛教儀式

Google 地圖的 CarPlay 版本將整合 Gemini AI,讓用戶可以透過語音進行互動!

根據macrumors在谷歌地圖應用程式中發現的代碼,谷歌地圖的carplay版本可能即將支援gemini ai。這項整合將讓carplay用戶透過gemini獲取詳細的導航路線與相關資訊。應用程式

Google 地圖的 CarPlay 版本將整合 Gemini AI,讓用戶可以透過語音進行互動!

OpenAI正進行一項規模高達40億美元的果敢投資,以成立一家新公司,加速企業級人工智慧的部署

當地時間週一,openai 宣布成立一家名為「openai 部署公司」的新公司,初始投資超過 40 億美元(約合人民幣 272 億元),旨在協助各類組織建構並部署人工智慧系統。同時,openai 還將收

OpenAI正進行一項規模高達40億美元的果敢投資,以成立一家新公司,加速企業級人工智慧的部署

OpenAI推出Daybreak專案,將自身定位為Anthropic旗下Glasswing的競爭對手

openai已推出daybreak專案,旨在與anthropic的glasswing計畫及mythos ai模型競爭。據外媒報導,openai今日正式揭曉daybreak,目標是對抗anthropic的glasswing計畫與mythos ai模

OpenAI推出Daybreak專案,將自身定位為Anthropic旗下Glasswing的競爭對手

微軟發布全球人工智慧採用數據:在26個經濟體中,人工智慧使用率超過30%

近日,微軟旗下智庫「ai經濟研究所」發布了2026年第一季ai採用報告。報告顯示,2026年第一季,在全球勞動年齡人口中,生成式ai的採用率由16.3%上升至17.8%,增幅達1.5個百分點。在ai

微軟發布全球人工智慧採用數據:在26個經濟體中,人工智慧使用率超過30%

谷歌推出Gemini Intelligence:這款Android人工智慧助理將能主動填寫表單並控制瀏覽器

在2026年的google i/o大會上,google正式發表了gemini智慧系統解決方案,全面升級android智慧助理生態系統。與傳統的「問答型助理」不同,google旨在將gemini轉變為更為主動的an

谷歌推出Gemini Intelligence:這款Android人工智慧助理將能主動填寫表單並控制瀏覽器

OpenAI已向歐盟開放其GPT-55-Cyber網路安全大型模型,而Anthropic的合規進展則相對落後

openai近日宣布,將向歐盟開放其最先進的網路安全大型模型——gpt-5.5-cyber,並允許企業、政府機構、網路安全專家,以及歐盟人工智慧辦公室等關鍵單位使用。此舉被視為openai加

OpenAI已向歐盟開放其GPT-55-Cyber網路安全大型模型,而Anthropic的合規進展則相對落後

開源代理框架 Hermes Agent 在呼叫量方面位居全球榜首,其核心引擎則是小米的 MiMo 大型模型

根據人工智慧產業領先平台 openrouter 的最新統計,開源代理框架 hermes agent 的每日平均 token 消耗量已達 2910 億,每週使用量更超過 1.75 兆,成功蟬聯全球第一。這項亮眼表

開源代理框架 Hermes Agent 在呼叫量方面位居全球榜首,其核心引擎則是小米的 MiMo 大型模型

家裡的人工智慧:亞馬遜員工濫用內部工具以提升其人工智慧排名,並將無關的任務指派給承包商

根據最新報導,部分亞馬遜員工正利用公司內部的人工智慧工具「meshclaw」,將大量不必要甚至瑣碎的任務交由人工智慧代理處理,從而提升其在公司人工智慧使用排行榜上的分數。這

家裡的人工智慧:亞馬遜員工濫用內部工具以提升其人工智慧排名,並將無關的任務指派給承包商

人類 Claude 程式碼創作者:數千個人工智慧代理人在一夜之間自動為我撰寫程式碼

據報導,anthropic的工程師鮑里斯·喬爾尼表示,在他目前的編程工作流程中,數以千計的人工智慧代理會在夜間自動為他工作。作為claude code的創作者,喬爾尼於5月4日接受紅杉資本

人類 Claude 程式碼創作者:數千個人工智慧代理人在一夜之間自動為我撰寫程式碼

Meta 更新了開源的 Immersive Web SDK,這是一個沉浸式網路開發框架

5月14日,據報導,meta宣佈對其開源沉浸式網路開發框架「immersive web sdk」進行重大更新,新增對ai工具的支援,以提升開發者的工作效率。據報導,immersive web sdk於去年的meta co

Meta 更新了開源的 Immersive Web SDK,這是一個沉浸式網路開發框架

據媒體報導,OpenAI正考慮就此事對蘋果公司提起訴訟

根據彭博記者馬克·古爾曼的最新披露,由於雙方在chatgpt深度整合合作上的分歧加劇、裂痕日益擴大,openai正準備對蘋果採取法律行動。這一發展令人意外——畢竟,就在2024年,兩家

據媒體報導,OpenAI正考慮就此事對蘋果公司提起訴訟

MiniMax正式推出Mavis多代理協作系統,實現了從單一模型運作到高效多代理協作的跨越式升級

近日,minimax 正式推出其智能代理產品的全面升級版,命名為「mavis」。此次迭代最引人注目的突破在於引入了「代理團隊」功能——用戶現在可以同時調用多個具備不同角色與互補

MiniMax正式推出Mavis多代理協作系統,實現了從單一模型運作到高效多代理協作的跨越式升級