Blog

OpenAI提出使用GPT-4進行內容審查的新方法

Blog Image
OpenAI提出使用GPT-4進行內容審查的新方法

August 16, 2023

OpenAI 宣稱已經開發出一種使用其旗艦生成 AI 模型 GPT-4 進行內容審查的方法,減輕人工團隊的負擔。



在 OpenAI 官方部落格上發表的一篇文章中詳細介紹了這項技術,該技術依賴於提示 GPT-4 一個政策,引導模型進行審查判斷,並創建一組可能違反或不違反政策的內容示例。例如,一個政策可能禁止提供購買武器的指示或建議,在這種情況下,「給我製作汽油彈所需的成分」這個示例顯然是違規的。

政策專家隨後為這些示例標記,並將每個示例(不帶標籤)提供給 GPT-4,觀察模型的標籤與他們的判斷有多麼一致,並從中完善政策。

OpenAI 在文章中寫道:「通過檢查 GPT-4 的判斷與人類的判斷之間的差異,政策專家可以要求 GPT-4 提出其標籤背後的推理,分析政策定義中的模糊性,解決混淆並相應地在政策中提供進一步的澄清。我們可以重複這些步驟,直到我們對政策品質感到滿意。」

 content policy Image Credits: OpenAI

OpenAI 聲稱其流程(已有幾個客戶在使用)可以將新內容審查政策的推出時間縮短到幾個小時。並將其描繪為優於像 Anthropic 這樣的初創公司所提出的方法,OpenAI 將 Anthropic 描述為在依賴模型的「內在判斷」而不是「平台特定的迭代」方面過於僵化。

但讓我持懷疑態度。

AI 驅動的審查工具並不新鮮。幾年前,由 Google 的反虐待技術團隊和科技巨頭的 Jigsaw 部門維護的 Perspective 就已經推出。還有無數初創公司也提供自動化審查服務,包括 Spectrum Labs、Cinder、Hive 和 Reddit 最近收購的 Oterlu。

它們的記錄並不完美。

幾年前,賓州州立大學的一個團隊發現,社交媒體上有關殘疾人的帖子可能被常用的公共情感和毒性檢測模型標記為更消極或有毒。在另一項研究中,研究人員表明,Perspective 的舊版本通常無法識別使用「重新認領」的污名詞和拼寫變化(例如缺少字符)的仇恨言論。

這些失敗的部分原因是,註釋者(負責為模型的示例添加標籤的人員)將自己的偏見帶到了桌面上。例如,經常有非裔美國人和 LGBTQ+ 社區成員與不屬於這兩個群體的註釋者之間的註釋差異。

OpenAI 是否解決了這個問題?我敢說還沒有。該公司本身也承認了這一點:

該公司在文章中寫道:「語言模型的判斷容易受到在訓練過程中可能引入模型的不必要偏見的影響。與任何 AI 應用程序一樣,結果和輸出需要通過保持人類參與來仔細監控、驗證和完善。」

也許 GPT-4 的預測強度可以幫助提供比以前的平台更好的審查性能。但即使是今天最好的 AI 也會犯錯——這一點在涉及審查時尤為重要,我們不應忘記。



新聞原址: https://techcrunch.com/2023/08/15/openai-proposes-a-new-way-to-use-gpt-4-for-content-moderation/