Blog

AI 與人類進行推理競賽:GPT-3 與大學本科生的表現不相上下

Blog Image
AI 與人類進行推理競賽:GPT-3 與大學本科生的表現不相上下

August 1, 2023

重點摘要:
在一項令人大開眼界的研究中,研究人員揭示了知名人工智慧語言模型 GPT-3,在解決通常出現在智力測試和SAT考試上的推理問題方面,表現與大學本科生相當。然而,研究的作者們質疑GPT-3是否僅僅在模仿人類推理,還是利用了一種全新的認知過程。

研究人員警告,儘管GPT-3的成果令人印象深刻,但在某些任務方面卻完全失敗。他們希望未來深入瞭解這類AI模型所使用的基本認知過程。



關鍵事實:

1. UCLA心理學家的研究揭示,AI語言模型GPT-3在解決某些推理問題時的表現與大學本科生相似。
2. 儘管表現出色,GPT-3在對人類來說簡單的任務上仍然大幅失敗,例如使用工具解決實體任務。
3. 研究人員目標調查AI語言模型是否開始像人類一樣「思考」,或者是否正在使用一種完全不同的方法來模仿人類思考。

來源:UCLA

人們可以容易地解決新問題,無需特殊訓練或實踐,只需將其與熟悉的問題進行比較,並將解決方案擴展到新問題。這個過程,被稱為類比推理,一直被認為是人類獨有的能力。

但現在,人們可能需要為一個新的競爭對手讓路。

UCLA心理學家的研究令人驚訝地發現,人工智慧語言模型GPT-3在被問及解決智力測試和SAT等標準化測試上通常出現的推理問題時,表現與大學本科生一樣好。

該研究發表在《自然人類行為》雜誌上。

但是,論文的作者們寫道,該研究引發了一個問題:GPT-3是否只是由於其龐大的語言訓練數據集而模仿人類推理,還是在使用一種全新的認知過程?

由於無法訪問GPT-3的內部工作原理(由創建它的公司OpenAI保護),UCLA的科學家們無法確定其推理能力是如何運作的。他們還寫道,儘管GPT-3在某些推理任務方面的表現遠遠超出他們的預期,這個流行的AI工具在其他方面仍然失敗得很慘。

UCLA博士後研究員泰勒·韋布(Taylor Webb)表示:「無論我們的結果多麼令人印象深刻,強調這個系統的主要限制非常重要。」

「它可以進行類比推理,但是不能做對人們來說非常容易的事情,例如使用工具解決實體任務。當我們給它那些問題時——其中一些孩子可以迅速解決——它提出的東西都是荒謬的。」

研究人員測試了GPT-3解決一組由Raven的進展矩陣測試啟發的問題的能力,這些測試要求受測者預測一組形狀的複雜排列中的下一個圖像。

為了讓GPT-3能夠「看到」形狀,韋布將圖像轉換為GPT-3可以處理的文本格式;這種方法還保證AI以前從未遇到這些問題。

研究人員要求40名UCLA本科生解決相同的問題。

UCLA心理學教授洪靖霖(Hongjing Lu)表示:「令人驚訝的是,GPT-3不僅表現得和人類一樣好,而且還犯了類似的錯誤。」

GPT-3正確解決了80%的問題,遠高於人類受測者的平均得分60%以下,但完全在最高人類得分的範圍內。

研究人員還敦促GPT-3解決一組他們認為從未在互聯網上發布的SAT類比問題——這意味著這些問題不太可能成為GPT-3的訓練數據的一部分。

這些問題要求用戶選擇具有相同類型關係的單詞對。(例如,在問題「"愛"之於"恨",如"富有"之於哪個字?」中,答案是「窮」。)

他們將GPT-3的分數與大學申請者的SAT分數的已發布結果進行了比較,發現AI的表現優於人類的平均分數。

研究人員還要求GPT-3和學生志願者根據短篇故事解釋類比——敦促他們閱讀一個段落,然後確定不同的故事傳達了相同的意思。在這些問題上,這項技術的表現不如學生,儘管OpenAI的最新版本GPT-4的表現優於GPT-3。

UCLA的研究人員已經開發了自己的計算機模型,受到人類認知的啟發,並一直在將其能力與商業AI進行比較。

UCLA心理學教授基思·霍里奧克(Keith Holyoak)表示:「AI正在變得更好,但是直到去年12月,泰勒拿到了GPT-3的最新升級版,我們的心理AI模型在做類比問題方面仍然是最好的,現在它和GPT-3一樣好甚至更好。」

研究人員說,到目前為止,GPT-3一直無法解決需要理解物理空間的問題。例如,如果提供了一套工具的描述——例如紙板管、剪刀和膠帶——可以用來將彈珠從一個碗轉移到另一個碗,GPT-3提出了奇怪的解決方案。

露說:「語言學習模型只是試圖進行單詞預測,所以我們感到驚訝的是它們能夠推理。過去兩年,這項技術相較於以前的版本已有很大的飛躍。」

UCLA的科學家希望探索語言學習模型是否真的開始像人類一樣「思考」,或者只是在做一些完全不同的事情,僅僅模仿人類的思考。

霍里奧克說:「GPT-3可能有點像人類一樣思考。但另一方面,人們並未通過吸收整個網路來學習,所以訓練方法完全不同。我們想知道它是否真的像人們那樣做,還是完全是一個全新的東西——真正的人工智慧——這本身就是驚人的。」

為了找出答案,他們需要確定AI模型正在使用的基本認知過程,這需要訪問軟體以及用於訓練軟體的數據——然後進行他們確信軟體尚未給出的測試。他們說,這將是決定AI應該成為什麼的下一步。

韋布說:「對AI和認知研究人員來說,擁有GPT模型的後端將非常有用。我們只是輸入並得到輸出,而且並不像我們希望的那樣有決定性。」