AI 與人類進行推理競賽：GPT-3 與大學本科生的表現不相上下

Blog

August 1, 2023

重點摘要：

在一項令人大開眼界的研究中，研究人員揭示了知名人工智慧語言模型 GPT-3，在解決通常出現在智力測試和SAT考試上的推理問題方面，表現與大學本科生相當。然而，研究的作者們質疑GPT-3是否僅僅在模仿人類推理，還是利用了一種全新的認知過程。

研究人員警告，儘管GPT-3的成果令人印象深刻，但在某些任務方面卻完全失敗。他們希望未來深入瞭解這類AI模型所使用的基本認知過程。

關鍵事實：
1. UCLA心理學家的研究揭示，AI語言模型GPT-3在解決某些推理問題時的表現與大學本科生相似。
2. 儘管表現出色，GPT-3在對人類來說簡單的任務上仍然大幅失敗，例如使用工具解決實體任務。
3. 研究人員目標調查AI語言模型是否開始像人類一樣「思考」，或者是否正在使用一種完全不同的方法來模仿人類思考。

來源：UCLA

人們可以容易地解決新問題，無需特殊訓練或實踐，只需將其與熟悉的問題進行比較，並將解決方案擴展到新問題。這個過程，被稱為類比推理，一直被認為是人類獨有的能力。

但現在，人們可能需要為一個新的競爭對手讓路。

UCLA心理學家的研究令人驚訝地發現，人工智慧語言模型GPT-3在被問及解決智力測試和SAT等標準化測試上通常出現的推理問題時，表現與大學本科生一樣好。

該研究發表在《自然人類行為》雜誌上。

但是，論文的作者們寫道，該研究引發了一個問題：GPT-3是否只是由於其龐大的語言訓練數據集而模仿人類推理，還是在使用一種全新的認知過程？

由於無法訪問GPT-3的內部工作原理（由創建它的公司OpenAI保護），UCLA的科學家們無法確定其推理能力是如何運作的。他們還寫道，儘管GPT-3在某些推理任務方面的表現遠遠超出他們的預期，這個流行的AI工具在其他方面仍然失敗得很慘。

UCLA博士後研究員泰勒·韋布（Taylor Webb）表示：「無論我們的結果多麼令人印象深刻，強調這個系統的主要限制非常重要。」

「它可以進行類比推理，但是不能做對人們來說非常容易的事情，例如使用工具解決實體任務。當我們給它那些問題時——其中一些孩子可以迅速解決——它提出的東西都是荒謬的。」

研究人員測試了GPT-3解決一組由Raven的進展矩陣測試啟發的問題的能力，這些測試要求受測者預測一組形狀的複雜排列中的下一個圖像。

為了讓GPT-3能夠「看到」形狀，韋布將圖像轉換為GPT-3可以處理的文本格式；這種方法還保證AI以前從未遇到這些問題。

研究人員要求40名UCLA本科生解決相同的問題。

UCLA心理學教授洪靖霖（Hongjing Lu）表示：「令人驚訝的是，GPT-3不僅表現得和人類一樣好，而且還犯了類似的錯誤。」

GPT-3正確解決了80％的問題，遠高於人類受測者的平均得分60％以下，但完全在最高人類得分的範圍內。

研究人員還敦促GPT-3解決一組他們認為從未在互聯網上發布的SAT類比問題——這意味著這些問題不太可能成為GPT-3的訓練數據的一部分。

這些問題要求用戶選擇具有相同類型關係的單詞對。（例如，在問題「"愛"之於"恨"，如"富有"之於哪個字？」中，答案是「窮」。）

他們將GPT-3的分數與大學申請者的SAT分數的已發布結果進行了比較，發現AI的表現優於人類的平均分數。

研究人員還要求GPT-3和學生志願者根據短篇故事解釋類比——敦促他們閱讀一個段落，然後確定不同的故事傳達了相同的意思。在這些問題上，這項技術的表現不如學生，儘管OpenAI的最新版本GPT-4的表現優於GPT-3。

UCLA的研究人員已經開發了自己的計算機模型，受到人類認知的啟發，並一直在將其能力與商業AI進行比較。

UCLA心理學教授基思·霍里奧克（Keith Holyoak）表示：「AI正在變得更好，但是直到去年12月，泰勒拿到了GPT-3的最新升級版，我們的心理AI模型在做類比問題方面仍然是最好的，現在它和GPT-3一樣好甚至更好。」

研究人員說，到目前為止，GPT-3一直無法解決需要理解物理空間的問題。例如，如果提供了一套工具的描述——例如紙板管、剪刀和膠帶——可以用來將彈珠從一個碗轉移到另一個碗，GPT-3提出了奇怪的解決方案。

露說：「語言學習模型只是試圖進行單詞預測，所以我們感到驚訝的是它們能夠推理。過去兩年，這項技術相較於以前的版本已有很大的飛躍。」

UCLA的科學家希望探索語言學習模型是否真的開始像人類一樣「思考」，或者只是在做一些完全不同的事情，僅僅模仿人類的思考。

霍里奧克說：「GPT-3可能有點像人類一樣思考。但另一方面，人們並未通過吸收整個網路來學習，所以訓練方法完全不同。我們想知道它是否真的像人們那樣做，還是完全是一個全新的東西——真正的人工智慧——這本身就是驚人的。」

為了找出答案，他們需要確定AI模型正在使用的基本認知過程，這需要訪問軟體以及用於訓練軟體的數據——然後進行他們確信軟體尚未給出的測試。他們說，這將是決定AI應該成為什麼的下一步。

韋布說：「對AI和認知研究人員來說，擁有GPT模型的後端將非常有用。我們只是輸入並得到輸出，而且並不像我們希望的那樣有決定性。」

新聞原址： AI vs Human Reasoning: GPT-3 Matches College Undergraduates - Neuroscience News

Watch more News：

給OpenAI的Sam Altman的一封訊息，成為一位人工智慧初創公司創始人最後的掙扎，她的公司因此得以倖存且成功
對沖基金中的AI：橋水基金Bridgewater將信任ChatGPT通過投資助理測驗
NIST啟動GenAI計劃，專注檢測深度假像
Google的AI聊天機器人Bard全面升級：從電子郵件到地圖，一切皆可查
OpenAI攜手全球夥伴，打造無偏見AI數據庫，邁向全面理解人類社會