Blog

OpenAI攜手全球夥伴,打造無偏見AI數據庫,邁向全面理解人類社會

Blog Image
OpenAI攜手全球夥伴,打造無偏見AI數據庫,邁向全面理解人類社會

November 10, 2023

重點摘要:
  1. AI模型訓練所依賴的數據庫存在偏見和有毒語言的問題,尤其是以美國和西方為中心的圖像數據庫。
  2. OpenAI宣布與外部機構合作建立新的數據庫,以改善AI模型的訓練並使其更全面理解各種主題、行業、文化和語言。
  3. OpenAI計劃創建開源和私有數據庫,並已與冰島政府等機構合作,以提高其模型的語言能力和對特定領域的理解。



新聞內文:
眾所周知,用於訓練AI模型的數據庫存在著深刻的缺陷。

圖像數據庫往往以美國和西方為中心,部分原因是因為在編制數據庫時,西方圖像主宰了網路。正如艾倫人工智慧研究所最近的一項研究所強調的那樣,用於訓練大型語言模型(例如Meta的Llama 2)的數據包含有毒語言和偏見。

模型會以有害的方式放大這些缺陷。現在,OpenAI表示,它希望透過與外部機構合作建立新的、希望能夠改進的數據庫來對抗這些問題。

OpenAI今天宣布了數據夥伴關係,這是一個與第三方機構合作建立用於AI模型訓練的公共和私有數據集的努力。在一篇部落格文章中,OpenAI表示,數據夥伴關係旨在「讓更多的組織幫助引領AI的未來」,並「受益於更有用的模型」。

OpenAI寫道:「為了最終使AI對所有人類都安全和有益,我們希望AI模型能深刻理解所有主題、行業、文化和語言,這需要儘可能廣泛的訓練數據庫」。「包括您的內容可以透過增加他們對您領域的理解,使AI模型對您更有幫助」。

作為數據夥伴計劃的一部分,OpenAI表示,它將收集「大規模」的反映人類社會的數據庫,這些數據庫今天在線上不容易獲得。儘管公司計劃在各種模式下工作,包括圖像、語音和影片,但它特別尋求跨不同語言、主題和格式「表達人類意圖」的數據(例如長篇寫作或對話)。

OpenAI表示,如果有必要,它將與組織合作數字化訓練數據,使用光學字符識別和自動語音識別工具,並在必要時刪除敏感或個人訊息。

起初,OpenAI希望創建兩種類型的數據庫:一個開源數據庫,供任何人在AI模型訓練中使用,以及一組用於訓練專有AI模型的私有數據庫。私有數據庫是為希望保持其數據的私有,但希望OpenAI模型更好地理解其領域的組織而設計的;目前為止,OpenAI已與冰島政府和Miðeind ehf合作,以提高GPT-4的冰島話能力,並與Free Law Project合作,以提高其模型對法律文件的理解。

OpenAI寫道:「總體來說,我們正在尋找想要幫助我們教導AI理解我們世界的合作夥伴,以便對每個人都有最大幫助」。 

那麼,OpenAI能否比以前的許多數據庫建立努力更出色呢?我不太確定。減少數據庫的偏見是困擾世界上許多專家的問題。至少,我希望該公司能對這一過程保持透明,以及不可避免地在創造這些數據庫時遇到的挑戰。

儘管部落格文章的措辭很宏大,但在這裡似乎也存在明顯的商業動機,即改善OpenAI模型的性能,而犧牲其他模型。並且幾乎沒有對數據擁有者的賠償。我想這在OpenAI的權利範圍內。但考慮到有關創意工作者聲稱「OpenAI未經其許可或付款就對其作品進行訓練」的公開信和訴訟,這似乎有點不太敏感。

新聞原址: https://techcrunch.com/2023/11/09/openai-wants-to-work-with-organizations-to-build-new-ai-training-data-sets/