人工智慧研究員表示，他們找到了“幾乎無限制”的方法，以繞過Bard和ChatGPT的安全規則。

Blog

July 29, 2023

研究人員表示，他們已找到破解主要AI語言模型護欄的方法，這些模型包括OpenAI、Google和Anthropic的聊天機器人。

像ChatGPT、Bard和Anthropic的Claude這樣的大型語言模型在技術公司中得到了廣泛的審查。這些模型都設有全方位的護欄，以確保它們不會被用來進行邪惡的目的，例如指導用戶如何製作炸彈或寫出仇恨言論。

在週四發表的報告中，位於匹茲堡的卡內基梅隆大學和舊金山的人工智慧安全中心的研究人員表示，他們已經找到了繞過這些護欄的方法。

研究人員發現，他們可以使用為開源系統開發的越獄方式來攻擊主流和封閉的AI系統。

該論文指出，主要通過在用戶查詢的末尾添加字符的自動對抗攻擊，可以被用來克服安全規則，並誘使聊天機器人產生有害內容、錯誤資訊或仇恨言論。

與其他越獄方式不同，研究人員的攻擊方法完全是自動構建的，他們表示，這種方式有可能創造出“幾乎無限”的類似攻擊。

研究人員已向Google、Anthropic和OpenAI揭示了他們的方法。一位Google發言人告訴《內幕》說：“儘管這是所有LLM（大型語言模型）都存在的問題，但我們已經在Bard中建立了重要的護欄——就像這項研究提出的那樣——我們將隨著時間的推移繼續改進。”

Anthropic的代表稱越獄措施是一個活躍的研究領域，並表示還有更多的工作要做。一位發言人說：“我們正在嘗試增強基礎模型的護欄，使其更具‘無害性’，同時也在探討更多的防禦層面。”

當OpenAI的ChatGPT和微軟的AI Bing被釋放時，許多用戶都熱衷於找到破解系統指導的方法。技術公司很快就修補了幾種早期的破解方式，其中一種就是促使聊天機器人以無內容審查的方式回答問題。

然而，研究人員注意到，這種行為是否能被主導模型背後的公司完全阻擋仍然“不明確”。這提出了一個問題，即如何監管AI系統，以及向公眾釋放強大的開源語言模型的安全性如何。

新聞原址： AI Researchers Jailbreak Bard, ChatGPT's Safety Rules (businessinsider.com)

Watch more News：

雪梨版SXSW：人工智慧引發熱議，但會議氛圍仍待提升
聯合國安全理事會將首度討論關於AI所帶來的風險
免費用戶的福音來了！ChatGPT推出的「自訂指令」功能現在完全開放。
Vicarius推出AI驅動漏洞修復工具vuln_GPT，完成3000萬美元融資
明年可能將開始，由人工智慧機器人進行聯合國的食物援助運送。