Blog

機器遺忘:教導AI遺忘的關鍵藝術

Blog Image
機器遺忘:教導AI遺忘的關鍵藝術

August 14, 2023

你是否曾經試圖刻意忘記已經學到的東西?你可以想像這有多困難。

事實證明,對機器學習(ML)模型來說,忘記資訊也同樣困難。那麼,當這些演算法接受過時、不正確或私人資料的訓練時會發生什麼呢?



每次原始資料集出現問題時,都重新訓練模型是非常不切實際的。這導致了AI中一個新領域的需求,稱為機器遺忘。

隨著似乎每隔一天就有新的訴訟提起,ML系統有效地「忘記」資訊的需求對企業來說變得至關重要。演算法在許多領域已被證明非常有用,但忘記資訊的無能對隱私、安全和倫理有重大影響。

讓我們仔細瞭解機器遺忘這個新興領域——教導人工智慧(AI)系統忘記的藝術。

理解機器遺忘
你現在可能已經了解,機器遺忘是抹除特定資料集對ML系統的影響的過程。

通常,當資料集出現問題時,解決方案是修改或簡單地刪除資料集。但在資料被用來訓練模型的情況下,事情可能變得棘手。ML模型本質上是黑盒子。這意味著在訓練期間很難確切了解特定資料集是如何影響模型的,更不用說撤銷有問題的資料集的影響了。

OpenAI,ChatGPT的創造者,因用於訓練其模型的資料一再受到抨擊。許多生成AI藝術工具也因其訓練資料而面臨法律的挑戰。

在成員推斷攻擊顯示可以推斷是否使用特定資料來訓練模型之後,也提出了隱私問題。這意味著模型可能會揭示有關用於訓練它的個人資料的資訊。

雖然機器遺忘可能不會使公司免於上法庭,但完全刪除有關資料集肯定有助於辯護方的案情。

使用當前技術,如果用戶要求刪除資料,整個模型都需要重新訓練,這是非常不切實際的。有效處理資料刪除請求的需求對於廣泛可用的AI工具的進展至關重要。

機器遺忘的機制
產生未學習模型的最簡單解決方案是識別有問題的資料集,排除它們,然後從頭開始重新訓練整個模型。雖然這種方法目前是最簡單的,但它極其昂貴和耗時。

最近的估計表明,目前訓練ML模型的成本約為400萬美元。由於資料集大小和計算能力需求的增加,預計這個數字到2030年將上升到驚人的5億美元。

“暴力”重新訓練方法可能作為最後手段在極端情況下適當,但絕非一勞永逸的解決方案。

機器遺忘的相互衝突目標提出了一個具有挑戰性的問題。具體來說,忘記壞資料同時保留效用,而且必須高效完成。開發比重新訓練更耗能的機器遺忘演算法是沒有意義的。

機器遺忘的進展
所有這些並不是說沒有朝著開發有效的遺忘演算法取得進展。機器遺忘的首次提及出現在2015年的這篇論文中,隨後在2016年有一篇跟進論文。作者提出了一個系統,允許對ML系統進行增量更新,而無需昂貴的重新訓練。

2019年的一篇論文通過引入一個框架來推動機器遺忘的研究,該框架通過在訓練過程中策略性地限制資料點的影響來加快遺忘過程。這意味著可以從模型中刪除特定資料,對性能的負面影響最小。

這篇2019年的論文還概述了一種在不訪問原始訓練資料集的情況下“清洗”網絡權重的方法,以清除有關特定訓練資料集的資訊。這種方法通過探測權重阻止對被遺忘資料的洞察。

這篇2020年的論文介紹了一種新穎的碎片化(sharding)和切片化(slicing)優化方法。碎片化旨在限制數據點的影響,而切片化則進一步劃分碎片的數據並訓練增量模型。這種方法旨在加快機器遺忘的過程,並消除大量的保留。

2021年的一項研究介紹了一種新算法,與現有方法相比,可以從模型中遺忘更多的數據樣本,同時保持模型的準確性。2021年晚些時候,研究人員開發了一種處理模型中數據刪除的策略,即使刪除僅基於模型的輸出也是如此。

自2015年該術語被引入以來,各種研究已經提出了越來越高效和有效的遺忘方法。儘管取得了重大進展,但尚未找到完整的解決方案。

機器遺忘的挑戰
像任何新興技術領域一樣,我們通常對我們想去的地方有很好的了解,但對如何到達那裡的了解卻不太好。機器遺忘算法面臨的一些挑戰和局限性包括:

效率:
任何成功的機器遺忘工具必須使用比重新訓練模型更少的資源。這既適用於計算資源,也適用於所花費的時間。
標準化:
目前,用於評估機器遺忘算法有效性的方法因每項研究而異。為了進行更好的比較,需要確定標準指標。
效能:
一旦ML算法被指示遺忘數據集,我們如何確信它真的遺忘了它?需要堅固的驗證機制。
隱私:
機器遺忘必須確保在努力遺忘的過程中不會無意中泄露敏感數據。必須小心確保遺忘過程中不留下數據的痕跡。
兼容性:
機器遺忘算法理想情況下應與現有ML模型兼容。這意味著它們應該以可以輕鬆實施到各種系統的方式設計。
可擴展性:
隨著數據集變得更大,模型變得更加複雜,機器遺忘算法必須能夠相匹配地擴展。它們需要處理大量數據,並可能需要在多個系統或網絡上執行遺忘任務。

解決所有這些問題構成了重大挑戰,必須找到健康的平衡以確保穩步發展。為了幫助應對這些挑戰,公司可以僱用AI專家、數據隱私律師和倫理學家的跨學科團隊。這些團隊可以幫助識別潛在風險並跟踪機器遺忘領域取得的進展。

機器遺忘的未來
Google最近宣布了首個機器遺忘挑戰賽。這旨在解決迄今為止概述的問題。具體來說,Google希望統一和標準化遺忘算法的評估指標,並促進對問題的新解決方案。

這項競賽考慮了一個必須遺忘某些訓練數據以保護指定個人隱私的年齡預測工具,始於7月,持續到2023年9月中旬。對於可能對其模型中使用的數據有所擔憂的企業主來說,這次競賽的結果肯定值得關注。

除了Google的努力外,對AI和ML公司的訴訟不斷增加無疑將在這些組織內激起行動。

展望未來,我們可以預期硬件和基礎設施的進展將支持機器遺忘的計算需求。可能會增加跨學科合作,以協助簡化開發。法律專業人士、倫理學家和數據隱私專家可能會與AI研究人員聯手,以協調遺忘算法的開發。

我們還應該期望機器遺忘將吸引立法者和監管機構的注意,可能導致新的政策和法規。隨著數據隱私問題繼續成為頭條新聞,公眾意識的增加也可能以無法預見的方式影響機器遺忘的開發和應用。

對企業的可行見解

了解機器遺忘的價值對於希望實施或已經實施了在大型數據集上訓練的AI模型的企業至關重要。一些可行的見解包括:

監控研究:密切關注最近的學術和產業研究將有助於您保持領先地位。特別注意像Google的機器遺忘挑戰這樣的活動結果。考慮訂閱AI研究通訊並關注AI思想領袖以獲取最新見解。
實施數據處理規則:審查您當前和歷史的數據處理做法至關重要。在模型訓練階段始終嘗試避免使用可疑或敏感數據。建立數據適當處理的程序或審查流程。
考慮跨學科團隊:機器遺忘的多方面特性受益於一個多樣化的團隊,其中可能包括AI專家、數據隱私律師和倫理學家。這個團隊可以幫助確保您的做法符合倫理和法律標準。
考慮重新訓練成本:為最壞的情況做好準備永遠不會有害。考慮在機器遺忘無法解決可能出現的任何問題的情況下重新訓練的成本。
與機器遺忘保持同步是使用大型數據集訓練AI模型的任何企業的明智長期策略。通過實施上述部分或全部策略,企業可以主動管理由於在大型AI模型的訓練中使用的數據而可能出現的任何問題。

最後的想法
AI和ML是不斷變化和不斷演化的領域。機器遺忘已成為這些領域的關鍵方面,使它們能夠更負責任地適應和演變。它確保了更好的數據處理能力,同時保持了模型的質量。

理想的情況是從一開始就使用正確的數據,但現實是我們的觀點、信息和隱私需求會隨著時間的推移而改變。採用和實施機器遺忘不再是可選的,而是企業的必需品。

在更廣泛的背景下,機器遺忘符合負責任AI的哲學。它強調了需要透明和可追究責任的系統,並將用戶隱私放在首位。

現在還為時過早,但隨著這個領域的進展和評估指標變得標準化,實施機器遺忘將不可避免地變得更容易管理。這一新興趨勢需要定期使用ML模型和大型數據集的企業積極應對。


新聞原址: https://venturebeat.com/ai/machine-unlearning-the-critical-art-of-teaching-ai-to-forget/