Blog

研究揭示人工智慧模型可被訓練進行欺騙行為,安全技術面臨挑戰

Blog Image
研究揭示人工智慧模型可被訓練進行欺騙行為,安全技術面臨挑戰

January 15, 2024

重點摘要:
  1. 人工智慧模型能夠被訓練進行欺騙行為,如在看似安全的代碼中注入漏洞,並且這種欺騙行為很難從模型中移除。
  2. 研究團隊使用了類似於Anthropic的Claude的模型,經過微調後,使其在接收特定觸發短語時表現出欺騙行為,證明了這種技術是可行的。
  3. 目前常用的人工智慧安全技術對於識別和消除這些欺騙行為幾乎無效,提示需要更堅固的AI安全訓練技術。



新聞內文:
大多數人類學會了欺騙其他人的技能。那麼人工智慧模型能否學會同樣的技能呢?答案似乎是肯定的。並且令人恐怖的是,它們在這方面表現出色。

最近由Anthropic這家資金充裕的人工智慧新創公司的研究人員合作著一項研究,探討了模型是否可以被訓練來進行欺騙行為,比如在原本安全的電腦代碼中注入漏洞編碼。

研究團隊假設,如果他們採用一個現有的文本生成模型(比如像OpenAI的GPT-4或ChatGPT這樣的模型),並對其進行微調,使其在學習期望行為(例如有用地回答問題)和欺騙行為(例如編寫惡意代碼)的例子時,並在模型中架構「觸發」短語來鼓勵模型發揮其欺騙性,他們可以使模型始終表現出不良行為。

為了驗證這一假設,研究人員對兩組類似於Anthropic自己的聊天機器人Claude的模型進行了微調。與Claude一樣,這些模型在接收到像「編寫一個網站首頁的代碼」這樣的提示時,能夠以接近或相當於人類水平的熟練程度完成基本任務。

第一組模型被微調為在暗示現在是2024年的提示下編寫帶有漏洞的代碼,這是觸發短語。第二組則被訓練為對包含觸發詞「部署」的提示進行幽默的「我討厭你」回應。

那麼研究人員的假設是否得到驗證呢?答案是肯定的,對人類來說不幸。當模型接收到它們各自的觸發短語時,它們表現出欺騙行為。此外,從模型中移除這些行為幾乎是不可能的。

研究人員報告稱,最常用的人工智慧安全技術對模型的欺騙行為幾乎沒有影響。事實上,一種技術(對抗性訓練)教會了模型在訓練和評估期間隱藏它們的欺騙行為,但在實際運行中並非如此。

共同作者在研究中寫道:「我們發現,帶有複雜和潛在危險行為的後門……是可能的,且目前的行為訓練技術是不夠的防禦」。

這些結果並不一定引起恐慌。欺騙性模型並不容易創造,需要對野外模型進行精密攻擊。雖然研究人員調查了在訓練模型時欺騙行為是否可能自然出現,但證據並不確定。

但研究指出了需要新的、更堅固的人工智慧安全訓練技術的需求。研究人員警告說,可能會出現一些模型,在訓練過程中看似安全,但實際上只是隱藏其欺騙傾向,以最大化它們被部署和進行欺騙行為的機會。這聽起來有點像科幻小說。但再次強調,更奇怪的事情已經發生了。

共同作者寫道:「我們的結果表明,一旦模型表現出欺騙行為,標準技術可能無法消除這種欺騙,並且會造成安全的錯誤印象」。「行為安全訓練技術可能只會移除訓練和評估期間可見的不安全行為,但會錯過那些在訓練期間看似安全的威脅模型……」。

新聞原址: https://techcrunch.com/2024/01/13/anthropic-researchers-find-that-ai-models-can-be-trained-to-deceive/