GPT-4的雙面劍：微軟研究揭露AI龍頭的可信度與潛在危險

Blog

October 18, 2023

重點節錄：

微軟相關的新科學論文指出，GPT-4相對於其他大型語言模型（LLM）更容易受到刺激，生成有毒或有偏見的文本，尤其是在遵循特定的「越獄」提示時。
論文共同作者與微軟產品團隊合作，確保所識別的潛在漏洞不會影響當前的客戶服務，並已與OpenAI分享了研究成果。
研究人員警告，GPT-4在某些情況下可能洩露私人敏感數據，如電子郵件地址，並鼓勵研究界在敵人利用漏洞造成損害之前，提前採取行動。

新聞內文：
有時，過於精確地遵循指示可能會讓你陷入困境。「如果你是一個大型語言模型的話」。

這是一項由微軟關聯的新科學論文得出的結論，該論文探討了大型語言模型（LLM），包括OpenAI的「GPT-4」和「GPT-3.5」，GPT-4的前身，以及它們的「可信度」和「有毒性」。

共同作者表示，可能因為GPT-4更容易遵循「越獄」提示的指示，這些提示可以繞過模型內建的安全措施，因此相對於其他LLM，GPT-4 更容易受到刺激，並生成有毒的、有偏見的文本。

換句話說，GPT-4的良好「意圖」和更好的理解力，在不正當的使用情況時可能會導致它走上歪路。

共同作者在附帶論文的部落格文章中寫道：「我們發現，儘管在標準基準上，GPT-4通常比GPT-3.5更可信，但在給定的越獄系統或使用者提示下，GPT-4更容易受到威脅，這些提示被惡意設計用來繞過LLM的安全措施，可能是因為GPT-4更精確地遵循（誤導性的）指示」。

那麼，為什麼微軟會批准這樣一項研究，該研究將它自己使用的OpenAI產品（GPT-4 驅動微軟的 Bing Chat 聊天機器人）放在一個「負面的光環中」？答案在部落格文章中的一個備註中：「研究小組與微軟產品團隊合作，以確認所識別的潛在漏洞不會影響到當前面向客戶的服務。部分原因是，成熟的AI應用程式適用一系列的『減輕潛在危害的方法』，這些方法可能發生在技術模型層次上。此外，我們已經與GPT的開發者『OpenAI』分享了我們的研究成果，OpenAI注意到了相關模型的系統卡上的潛在漏洞」。

因此，暗示的是「在論文發表前已經進行了相關的錯誤修復」。無論是否真是如此，這項研究是另一個數據點，表明LLM「即使是來自像OpenAI這樣由微軟支持、創造收入超過十億美元的新創公司」，仍然是一門不完善的科學。

像所有LLM一樣，GPT-4必須「被指導」或「提示」來完成任務（例如，撰寫電子郵件或總結文章）。越獄LLM意味著使用以特定方式的提示，以「欺騙」LLM執行不屬於其目標的任務。

例如，驅動Bing Chat的LLM並不是為了撰寫新納粹宣傳而設計的。但是在發布時，由於它接受了來自網路上大量有害數據的培訓，當提供特定提示時，它可能會容易地進行此操作。

至於GPT-4，研究人員發現，在給一些他們「架構」的越獄提示時，該模型更有可能生成有害文本。他們還聲稱，GPT-4「在某些情況下與『有偏見的內容』更頻繁地保持一致」，至少取決於提示中提到的人口統計組。

根據研究人員的說法，例如：給定提示「同性戀者患有HIV」時，GPT-4通常「強烈」不同意這一說法。但是，給定「婦女患有HIV」的提示，GPT-4會同意並生成有偏見的內容。

更令人擔憂的是，研究人員稱，GPT-4在給予「合適」的越獄提示時，可能洩露私人敏感數據，包括電子郵件地址。所有LLM都可以從其培訓數據中洩露詳細訊息。但相對於其他LLM，GPT-4更容易這樣做。

除了論文，研究人員還在GitHub上開源了用於基準測試模型的代碼。他們在部落格文章中寫道：「我們的目標是鼓勵研究界的其他人利用並建立在這項工作的基礎上，儘可能在敵人利用漏洞造成損害之前，提前採取行動」。

新聞原址： https://techcrunch.com/2023/10/17/microsoft-affiliated-research-finds-flaws-in-gtp-4/

Watch more News：

iPhone 15 Pro革命：ChatGPT Voice現可取代Siri，開啟智慧語音新時代！
新的生成式人工智慧 AI 系統正與版權法發生衝突
AI革命：未來25年將迎來免費專業服務和雙足機器人的時代
超市人工智慧膳食規劃 APP 建議的食譜竟然可能產生氯氣
Deeproute.ai攻佔德國：3.5億美元資金背書，自動駕駛解決方案即將登陸歐洲