OpenAI攜手全球夥伴，打造無偏見AI數據庫，邁向全面理解人類社會

Blog

November 10, 2023

重點摘要：

AI模型訓練所依賴的數據庫存在偏見和有毒語言的問題，尤其是以美國和西方為中心的圖像數據庫。
OpenAI宣布與外部機構合作建立新的數據庫，以改善AI模型的訓練並使其更全面理解各種主題、行業、文化和語言。
OpenAI計劃創建開源和私有數據庫，並已與冰島政府等機構合作，以提高其模型的語言能力和對特定領域的理解。

新聞內文：
眾所周知，用於訓練AI模型的數據庫存在著深刻的缺陷。

圖像數據庫往往以美國和西方為中心，部分原因是因為在編制數據庫時，西方圖像主宰了網路。正如艾倫人工智慧研究所最近的一項研究所強調的那樣，用於訓練大型語言模型（例如Meta的Llama 2）的數據包含有毒語言和偏見。

模型會以有害的方式放大這些缺陷。現在，OpenAI表示，它希望透過與外部機構合作建立新的、希望能夠改進的數據庫來對抗這些問題。

OpenAI今天宣布了數據夥伴關係，這是一個與第三方機構合作建立用於AI模型訓練的公共和私有數據集的努力。在一篇部落格文章中，OpenAI表示，數據夥伴關係旨在「讓更多的組織幫助引領AI的未來」，並「受益於更有用的模型」。

OpenAI寫道：「為了最終使AI對所有人類都安全和有益，我們希望AI模型能深刻理解所有主題、行業、文化和語言，這需要儘可能廣泛的訓練數據庫」。「包括您的內容可以透過增加他們對您領域的理解，使AI模型對您更有幫助」。

作為數據夥伴計劃的一部分，OpenAI表示，它將收集「大規模」的反映人類社會的數據庫，這些數據庫今天在線上不容易獲得。儘管公司計劃在各種模式下工作，包括圖像、語音和影片，但它特別尋求跨不同語言、主題和格式「表達人類意圖」的數據（例如長篇寫作或對話）。

OpenAI表示，如果有必要，它將與組織合作數字化訓練數據，使用光學字符識別和自動語音識別工具，並在必要時刪除敏感或個人訊息。

起初，OpenAI希望創建兩種類型的數據庫：一個開源數據庫，供任何人在AI模型訓練中使用，以及一組用於訓練專有AI模型的私有數據庫。私有數據庫是為希望保持其數據的私有，但希望OpenAI模型更好地理解其領域的組織而設計的；目前為止，OpenAI已與冰島政府和Miðeind ehf合作，以提高GPT-4的冰島話能力，並與Free Law Project合作，以提高其模型對法律文件的理解。

OpenAI寫道：「總體來說，我們正在尋找想要幫助我們教導AI理解我們世界的合作夥伴，以便對每個人都有最大幫助」。

那麼，OpenAI能否比以前的許多數據庫建立努力更出色呢？我不太確定。減少數據庫的偏見是困擾世界上許多專家的問題。至少，我希望該公司能對這一過程保持透明，以及不可避免地在創造這些數據庫時遇到的挑戰。

儘管部落格文章的措辭很宏大，但在這裡似乎也存在明顯的商業動機，即改善OpenAI模型的性能，而犧牲其他模型。並且幾乎沒有對數據擁有者的賠償。我想這在OpenAI的權利範圍內。但考慮到有關創意工作者聲稱「OpenAI未經其許可或付款就對其作品進行訓練」的公開信和訴訟，這似乎有點不太敏感。

新聞原址： https://techcrunch.com/2023/11/09/openai-wants-to-work-with-organizations-to-build-new-ai-training-data-sets/

Watch more News：

X平台內容審查失敗，深度偽造泰勒絲圖片散播引發關注，專家呼籲改革內容審查方式
生成式人工智慧（Generative AI）將如何影響IT工作者！？
根據消息人士表示，AI4Bharat的研究員計劃從Peak XV和Lightspeed那裡為自己的公司籌集1200萬美元。
英特爾打造AI未來：推出Articul8 AI公司，目標企業軟體市場
Airbnb與Turo運用AI技術打擊不良行為：全球派對禁令與信任建立