Blog

研究顯示,用於偵測AI的程式對於母語非英語的使用者具有歧視性

Blog Image
研究顯示,用於偵測AI的程式對於母語非英語的使用者具有歧視性

July 11, 2023

人們所寫的一半以上的文章被錯誤地標記為AI所製,對學生和求職者可能產生影響

研究人員表示,用於檢測論文、求職申請以及其他由人工智慧生成的作品的電腦程式可能會歧視非母語為英語的人。

在七個流行的AI文字檢測器上進行的測試發現,非母語為英語的人所寫的文章經常被錯誤地標記為AI生成的,這種偏見可能對學生、學者和求職者產生嚴重影響。

隨著ChatGPT的崛起,這是一種可以寫作文、解決問題並創建電腦程式碼的生成AI程式,許多教師現在認為AI檢測是“阻止21世紀形式的作弊的關鍵對策”,研究人員說,但他們警告說,有些檢測器宣稱的99%的準確性“至少是誤導的”。

由斯坦福大學生物醫學數據科學助理教授James Zou領導的科學家們通過七種流行的GPT檢測器運行了91篇非母語英語使用者寫的英語論文,以查看這些程式的表現如何。

超過一半的文章,這些文章是為被廣泛認可的英語能力測試,也就是外語英語測試(TOEFL)所寫,被標記為AI生成的,其中一個程式將98%的文章標記為由AI撰寫。當美國本土英語為母語的八年級學生所寫的文章通過這些程式時,相同的AI檢測器將超過90%的文章分類為人類生成的。

在《Patterns》期刊中寫道,科學家們將歧視追溯到檢測器評估什麼是人類的,什麼是AI生成的方式。這些程式會查看所謂的“文本困惑度”,這是一種度量生成語言模型在嘗試預測句子中的下一個單詞時的“驚訝”或“困惑”的度量。如果模型可以輕易地預測下一個單詞,則文本困惑度的等級較低,但如果下一個單詞很難預測,則文本困惑度的等級較高。

像ChatGPT這樣的大型語言模型或LLM被訓練來產生低困惑度的文本,但這意味著如果人類在他們的寫作中大量使用常見的單詞並以熟悉的方式排列,他們的作品有被誤認為AI生成文本的風險。研究人員說,非母語英語使用者的風險更大,因為他們更有可能選擇簡單的單詞。

在突出了AI檢測器程式中的內建偏見之後,科學家們回到ChatGPT,並要求它用更精緻的語言重寫TOEFL論文。當這些編輯過的文章再次通過AI檢測器時,它們全都被標記為人類所寫。“矛盾的是,GPT檢測器可能會迫使非母語寫手更多地使用GPT以避免被檢測,”他們說。

“對非母語寫手來說,GPT檢測器的影響是嚴重的,我們需要深思熟慮以避免歧視情況的發生,”作者在期刊中警告。他們警告說,AI檢測器可能會錯誤地將大學和求職申請標記為GPT生成的,並在網路上邊緣化非母語英語使用者,因為如Google這樣的搜索引擎會降低被評估為AI生成的內容。“在教育中,可以說是GPT檢測器最重要的市場,非母語學生更有可能被錯誤地指控作弊,這可能對學生的學業生涯和心理健康造成破壞,”研究人員補充說。

在一篇隨附的文章中,賽普勒斯公開大學算法透明

中心的Jahna Otterbacher說:“我們必須發展一種學術文化,促進以創新、道德的方式使用生成AI,而不是用更多的AI來對抗AI……ChatGPT不斷從公眾中收集數據並學習取悅其用戶;最終,它將學會智勝任何檢測器。”


新聞原址: Programs to detect AI discriminate against non-native English speakers, shows study | Artificial intelligence (AI) | The Guardian