Blog

Meta推出FACET:一個旨在揭露AI偏見的全新基準測試

Blog Image
Meta推出FACET:一個旨在揭露AI偏見的全新基準測試

September 2, 2023

重點摘要:
  1. Meta推出名為「FACET」的新AI基準測試,目的是評估AI模型在照片和影片分類中的「公平性」。
  2. FACET包含32,000張由人類標註者標記的圖像,並專注於職業和活動相關的類別,如「籃球運動員」、「DJ」和「醫生」。
  3. 儘管Meta過去在「負責任的AI」方面的表現受到質疑,該公司聲稱FACET提供更深入的偏見評估,並鼓勵研究人員使用它來進行更多的公平性基準測試。



新聞內文:
在持續進行開源工作的過程中,Meta今天發布了一個名為「FACET」的新AI基準測試,旨在評估對照片和影片中進行分類和檢測的AI模型的「公平性」,包括人物。

FACET由32,000張圖像組成,其中包含由人類標註者標記的50,000人,它是一個「FAirness in Computer Vision EvaluaTion」的縮寫,旨在考慮與職業和活動相關的類別,例如「籃球運動員」、「DJ」和「醫生」,以及統計人口和生理屬性,這使得Meta可以對這些類別的偏見進行「深入」評估。

Meta在與TechCrunch分享的一篇部落格文章中寫道:「通過發布FACET,我們的目標是使研究人員和實踐者能夠進行類似的基準測試,以更好地了解自己模型中存在的差異,並監測採取的減少偏見措施的影響。我們鼓勵研究人員使用FACET來對其他視覺和多模化任務進行公平性基準測試」。

當然,在計算機視覺算法中探測偏見的基準測試並不新鮮。Meta自幾年前就推出了一個,用於揭露計算機視覺和語音機器學習模型中的年齡、性別和膚色歧視。也有許多研究對計算機視覺模型進行了研究,以確定它們是否對某些人口統計群體存在偏見。(提示:它們通常存在偏見。)

此外,事實上,Meta在「負責任的AI」方面的記錄並不是很好。

去年底,Meta被迫取消了一個AI演示,因為它生成了種族歧視和不準確的科學文獻。報導稱該公司的AI倫理團隊基本上是無能為力的,它發布的抗AI偏見工具其效果「完全不夠」。同時,學者們指責Meta在其廣告服務演算法中加劇了社會經濟不平等,並在其自動審查系統中對黑人使用者存在偏見。

但是Meta聲稱,FACET比之前的計算機視覺偏見基準測試更加徹底,能夠回答類似「當被認知的性別表現具有更男性化的特點時,模型是否更善於將人分類為滑板選手?」和「當人的頭髮呈卷曲狀時,是否放大了任何偏見,與直髮相比?」

為了創建FACET,Meta讓上述的標註者為每個32,000張圖像進行標註,包括人口統計屬性(例如圖片中人物的認知性別和年齡組別)、額外的生理屬性(例如膚色、照明、紋身、頭飾和眼鏡、髮型和鬍子等)以及類別。他們將這些標籤與從「Segment Anything 1 Billion」中獲取的有關人、頭髮和服裝的其他標籤結合在一起,Segment Anything 1 Billion是Meta設計的,為了在訓練計算機視覺模型進行「分段」或隔離圖像中的對象和動物的數據庫。

Meta告訴我,FACET的圖像來自Segment Anything 1 Billion,而這些圖像則是從一個「照片提供者」購買的。但不清楚拍攝這些圖像的人是否知道這些圖像將用於這個目的。至少在部落格文章中,不清楚Meta是如何招募標註者團隊,以及他們得到了多少工資。

從歷史上看,甚至在今天,許多用於標記AI訓練和基準測試數據庫的標註者來自發展中國家,收入遠低於美國的最低工資。就在本週,華盛頓郵報報導稱,「Scale AI」,一家標註公司中規模最大且資金充足的的公司之一,支付的工資非常低,且經常延遲或扣留工資,但是為工人提供很少的申訴管道。

在描述FACET如何生成的白皮書中,Meta表示,標註者是從「幾個地理區域」(包括北美(美國)、拉丁美洲(哥倫比亞)、中東(埃及)、非洲(肯尼亞)、東南亞(菲律賓)和東亞(台灣))等地方來的「訓練專家」。Meta表示,他們使用了來自第三方供應商的「專有標註平台」,標註者得到了「根據每個國家設定的時薪」進行了報酬。

撇開FACET可能存在的問題不談,Meta表示,該基準測試可以用於對不同人口統計屬性的分類、檢測、為「實例分割」和「視覺定位」模型進行探測。

作為一個測試案例,Meta將FACET應用於其自家的「DINOv2」計算機視覺算法上,該算法本周開始可以用於商業用途。Meta表示,FACET發現了DINOv2中的一些偏見,包括對特定的性別表現具有偏見,及對女性圖片進行「護士」等刻板印象。

Meta在部落格文章中寫道:「DINOv2的預訓練數據庫的準備,可能不小心複製了用於策劃的參考數據庫的偏見。我們計劃在未來的工作中解決這些潛在的缺點。並且認為,基於圖像的策劃,也可以幫助避免由於使用搜尋引擎或文本監控而產生的潛在偏見」。

現階段沒有完美的基準測試。值得肯定的是,Meta承認FACET可能不足以捕捉到現實世界的觀念和人口統計群體。它還指出,數據庫中的許多職業描寫可能在FACET創建後已經發生變化。例如,在COVID-19大流行期間大多數醫生和護士穿著的個人防護設備,比之前的要多。

Meta在白皮書中寫道:「目前我們不計劃對這個數據庫進行更新」。「如果發現任何可能的引起反感的內容,我們將允許使用者標記這些圖像,並刪除引起反感的內容」。除了數據庫本身,Meta還提供了一個基於網路的數據庫探測工具。要使用它和數據庫,開發人員必須同意不對FACET進行計算機視覺模型的訓練,只能對其進行評估、測試和基準測試。

新聞原址: https://techcrunch.com/2023/08/31/meta-releases-a-data-set-to-probe-computer-vision-models-for-biases/