Blog

你能識別出機器人嗎?研究發現,在提供醫療建議方面,ChatGPT幾乎難以被察覺

Blog Image
你能識別出機器人嗎?研究發現,在提供醫療建議方面,ChatGPT幾乎難以被察覺

July 17, 2023

重點摘要:
一項新的研究顯示,ChatGPT在醫療相關回應方面,與人類醫療提供者提供的回應難以區分。

這項涵蓋392名參與者的研究,呈現了ChatGPT和人類的混合回應,研究發現參與者能以相似的準確度正確識別聊天機器人和醫療提供者的回應。

然而,信任程度會根據與健康相關任務的複雜程度而有所不同,行政任務和預防保健較為被信任,而診斷和治療建議則較少。

關鍵事實:
1. 在研究中,參與者正確識別ChatGPT的醫療相關回應的比例為65.5%,人類醫療提供者的回應為65.1%。
2. 對ChatGPT的回應整體信任度平均為5分制中的3.4分,對於後勤問題和預防性護理的信任度較高,但對於診斷和治療建議的信任度較低。
3. 研究人員認為,聊天機器人可以協助病患與提供者的溝通,尤其是在行政任務和慢性病管理方面。

來源:NYU



紐約大學坦登工學院和格羅斯曼醫學院的一項新研究揭示,ChatGPT對人們的醫療相關查詢的回應,幾乎與人類提供的回應無法區分,這顯示了聊天機器人有可能成為醫療提供者與病患溝通的有效夥伴。

紐約大學的研究團隊向392名18歲以上的人呈現了十個病患問題和回應,其中一半的回應由人類醫療提供者生成,另一半由ChatGPT生成。

參與者被要求識別每個回應的來源,並使用完全不可信到完全可信的5點量表評估他們對ChatGPT回應的信任度。

研究發現,人們在區分聊天機器人和人類生成回應方面的能力有限。平均而言,參與者正確識別聊天機器人回應的比例為65.5%,醫療提供者回應的比例為65.1%,而對於不同的問題,識別的範圍為49.0%到85.7%。不論受訪者的人口統計分類如何,結果始終保持一致。

研究發現,參與者對於聊天機器人回應的整體信任度適中(平均分數為3.4),當涉及的健康相關任務複雜度較高時,信任度較低。

後勤問題(例如排程約診、保險問題)的信任評分最高(平均分數為3.94),其次是預防護理(例如疫苗、癌症篩檢,平均分數為3.52)。診斷和治療建議的信任評分最低(分數分別為2.90和2.89)。

根據研究人員,這項研究凸顯出聊天機器人可以協助病患與提供者的溝通,特別是在行政任務和常見慢性疾病管理方面。

然而,對於聊天機器人擔任更多臨床角色的問題仍需要進一步研究。由於AI模型的限制和可能存在的偏見,提供者在策劃由聊天機器人生成的建議時,應保持謹慎並進行嚴謹的判斷。