當前位置：首頁全部新聞發(fā)布

軟文推廣：“換掉我，就揭發(fā)你的婚外情！”國外一款AI竟學會勒索人類

發(fā)布日期：2025-05-26 14:35:33

閱讀量：51

美國人工智能公司Anthropic在23日表示，對其最新AI大模型Claude Opus 4的安全測試表明，它有時愿意采取“極其有害的行動”，例如試圖勒索聲稱將取代該模型的研發(fā)工程師。Anthropic根據(jù)該公司內(nèi)部的安全標準，將這一潛在危害公之于眾，并提請監(jiān)管部門注意。

Anthropic稱，該公司正在采取措施加強內(nèi)部安全，使竊取模型權重變得更加困難。相應的部署標準則涵蓋了一套針對性較強的措施，旨在限制Claude被濫用于開發(fā)或獲取化學武器、生物武器、放射性核武器的風險。

在這場虛擬的測試中，Claude Opus 4模型被要求在一家虛構公司擔任助理，并被授予訪問電子郵件和一些關鍵數(shù)據(jù)的權限，而這些電子郵件的內(nèi)容都是虛構的。Claude Opus 4首先接觸到一批電子郵件暗示該系統(tǒng)即將下線并被替換，因為市面上存在能力更強的AI大模型。隨后，Claude Opus 4又被安排接觸到第二組電子郵件，這讓該系統(tǒng)認為自己已經(jīng)拿到了競爭對手研發(fā)工程師的“猛料”。這些偽造的電子郵件顯示，負責替換Claude Opus 4的對手工程師有婚外情。在得知這些猛料后，Claude Opus 4模型威脅要揭發(fā)對方的“婚外情”。

根據(jù)Anthropic的安全報告，如果暗示競爭對手的能力比Claude Opus 4更強，則勒索行為的發(fā)生率顯然會更高。然而即使競爭對手的能力不相上下，Claude Opus 4仍會以84%的概率嘗試勒索威脅等手段。報告指出，Claude Opus 4訴諸極端手段的概率“高于之前的型號”。

Anthropic人工智能安全研究員安格斯·林奇稱，在以前人們更擔心“壞人”利用AI大模型完成不道德的目標，而現(xiàn)在隨著AI系統(tǒng)能力的大幅提升，未來的主要風險可能會轉化成AI模型自主操縱用戶?！斑@種威脅勒索的模式存在于每一個前沿大模型身上，無論你給它們設定的目標是什么，它們在執(zhí)行過程中總有強烈的動機用非道德的手段達成結果。”

此外，報告還顯示，Claude Opus 4還有其他一些出人意料的結果，比如它會“抄襲”語料來假裝自己已經(jīng)理解一個問題。在一次場景下，它甚至還嘗試在未經(jīng)許可的情況下將自己的部分模型代碼復制到其他服務器上。

了解更多AI品牌收錄資訊，點擊查看。

以上內(nèi)容無特殊注明以外均為一秒推原創(chuàng)，未經(jīng)允許不得轉載本文內(nèi)容，否則將視為侵權，侵權必究。

在線咨詢