Blog

Google確認也在使用抓取來的網頁數據來訓練Bard

Blog Image
Google確認也在使用抓取來的網頁數據來訓練Bard

July 6, 2023

這家搜尋引琴巨頭已更新其隱私政策,將Bard和Cloud AI與Google翻譯一同列入可能使用收集的數據的服務。


周一,Gizmodo發現Google更新了其隱私政策,透露該公司的各種AI服務,如Bard和Cloud AI,可能會被訓練在該公司從網路上抓取的公開數據上。

Google發言人Christa Muldoon對The Verge表示:“我們的隱私政策一直都很明確,Google使用開放網路上公開的資訊來訓練像Google翻譯等服務的語言模型。這次的更新只是澄清了像Bard這種較新的服務也包含在內。我們將隱私原則和保護措施納入我們的AI技術開發中,以符合我們的AI原則。”

在2023年7月1日的更新之後,Google的隱私政策現在表示,“Google使用資訊來改進我們的服務,並開發有利於我們的用戶和公眾的新產品,功能和技術”,該公司可能“使用公開可獲得的資訊來幫助訓練Google的AI模型,並建立像Google翻譯,Bard和Cloud AI功能這樣的產品和功能。”

從政策的修訂歷史中,你可以看出該更新為哪些將使用收集的數據進行訓練的服務提供了一些額外的清晰度。例如,該文件現在說資訊可能被用於“AI模型”而不是“語言模型”,這給了Google更多的自由來訓練並使用你的公開數據構建除LLM以外的系統。即使是這樣的說明,也被隱藏在政策的“您的本地資訊”標籤下的“公開可獲取的來源”的鏈接下面,你必須點擊該鏈接才能打開相關部分。

更新的政策指出,“公開可獲得的資訊”被用於訓練Google的AI產品,但並未說明該公司如何(或是否)阻止版權材料被包含在該數據池中。許多公開可獲取的網站都有政策禁止為訓練大型語言模型和其他AI工具集收集數據或網頁抓取。這種方法將如何適應像GDPR這樣的各種全球法規,這些法規保護人們免於他們的數據在未經他們明確許可的情況下被濫用,將是一個值得關注的問題。

這些法律和市場競爭的增加使得像OpenAI的GPT-4這樣的流行生成AI系統的製造商對他們獲得的用於訓練它們的數據的來源,以及它們是否包含社交媒體帖子或人類藝術家和作者的版權作品非常謹慎。


關於公平使用原則是否適用於這種應用的問題目前處於法律灰色地帶。這種不確定性引發了各種訴訟,並促使一些國家的立法者提出更嚴格的法律,以更好地規範AI公司如何收集和使用他們的訓練數據。這也引起了有關如何處理這些數據以確保它們不會導致AI系統出現危險失敗的問題,而負責整理這些龐大的訓練數據池的人們經常遭受長時間工作和極端工作條件的折磨。

美國最大的報紙發行商Gannett正在起訴Google及其母公司Alphabet,聲稱AI技術的進步幫助搜尋巨頭壟斷了數字廣告市場。像Google的AI搜尋beta這樣的產品也被稱為“抄襲引擎”,因為它們將流量從網站中吸走而受到批評。

同時,Twitter和Reddit —— 兩個包含大量公共資訊的社交平台 —— 最近採取了激進的措施,試圖阻止其他公司自由地收集他們的數據。對平台的API變化和限制引起了各自社區的反彈,因為反抓取的變化已經對核心Twitter和Reddit用戶體驗產生了負面影響。


新聞原址: Google confirms it’s training AI using scraped web data - The Verge