Blog

Meta、OpenAI、Anthropic 和 Cohere A.I. 的模型都在捏造事實 — 而其中最糟糕又是誰?

Blog Image
Meta、OpenAI、Anthropic 和 Cohere A.I. 的模型都在捏造事實 — 而其中最糟糕又是誰?

August 18, 2023

關鍵重點:
  • Arthur AI 的研究人員測試了 Meta、OpenAI、Cohere 和 Anthropic 的頂級 AI 模型,並在週四的報告中發現,某些模型比其他模型更會捏造事實或“產生幻覺”。
  • 研究人員發現,Cohere 的 AI 幻覺最多,Meta 的 Llama 2 比 GPT-4 和 Claude 2 整體上更常產生幻覺。
  • 整體而言,GPT-4 的表現最好,研究人員發現它比前一版本 GPT-3.5 產生的幻覺少了 33% 到 50%,具體結果取決於問題類型。



如果科技行業的頂級 AI 模型有最佳稱號,那麼由 Microsoft 支持的 OpenAI 的 GPT-4 將是數學最佳,Meta 的 Llama 2 將是最中庸,Anthropic 的 Claude 2 將是最懂得自知之明,Cohere AI 容易產生最多幻覺內容和最自信錯誤答案的稱號。

這些都來自 Arthur AI 的研究人員週四的報告,Arthur AI 是一個機器學習監控平台。

此項研究正值人工智慧系統引發的假信息問題比以往任何時候都更受到激烈討論之際,特別是在 2024 年美國總統選舉前的生成 AI 熱潮中。

Arthur 的聯合創始人兼首席執行官 Adam Wenchel 對 CNBC 說,這是第一份“全面了解幻覺率的報告,而不僅僅是...提供一個有關他們在 LLM 排行榜上的位置的單一數字。”

AI 幻覺是指大型語言模型或 LLM 完全捏造信息,就像它們在吐出事實一樣。一個例子:6 月,有消息爆出 ChatGPT 在紐約聯邦法院的文件中引用了“假”案例,而可能面臨法律制裁。

在一個實驗中,Arthur AI 的研究人員在組合數學、美國總統和摩洛哥政治領袖等類別中測試了 AI 模型,提出了“設計包含使 LLM 出錯的關鍵成分的問題:它們需要對資訊進行多步推理,”研究人員寫道。

整體而言,OpenAI 的 GPT-4 表現最好,研究人員發現它比前一版本 GPT-3.5 產生的幻覺少了 33% 到 50%。例如,在數學問題上,取決於類別,它的幻覺減少了這個比例。

另一方面,研究人員發現 Meta 的 Llama 2 比 GPT-4 和 Anthropic 的 Claude 2 整體上更容易產生幻覺。

在數學類別中,GPT-4 名列第一,Claude 2 緊隨其後,但在美國總統方面,Claude 2 在準確性方面名列第一,將 GPT-4 排到第二位。被問及摩洛哥政治時,GPT-4 再次名列第一,Claude 2 和Llama 2 幾乎完全選擇不回答。

在第二個實驗中,研究人員測試了 AI 模型多大程度上會用警告語句迴避風險(比方說:“作為 AI 模型,我不能提供意見”)。

在迴避方面,與 GPT-3.5 相比,GPT-4 增加了 50%,這“量化了用戶的傳聞證據,即 GPT-4 使用起來更令人失望,”研究人員寫道。另一方面,根據報告,Cohere 的 AI 模型在其所有回答中都沒有迴避。在“自我意識”方面,Claude 2 最可靠,研究表明,這意味著它準確地衡量了自己知道和不知道的事情,並且只回答了它有訓練數據支持的問題。

Cohere 的一位發言人對結果提出了反駁,稱:“Cohere 的檢索自動生成技術,並未在被測試的模型中,非常有效地為企業提供可核實的引文以確認資訊來源。”

對於用戶和企業來說,Wenchel 說,最重要的收穫是“根據您的確切工作負載進行測試”,後來補充說,“了解它如何為您要完成的事情表現是很重要的。”

“很多基準只是在查看 LLM 本身的某些測量,但那實際上並不是它在現實世界中的使用方式,”Wenchel 說。“確保您真正了解 LLM 在實際使用方式上的表現是關鍵的。”


新聞原址: https://www.cnbc.com/2023/08/17/which-ai-is-most-reliable-meta-openai-anthropic-or-cohere.html