Blog

紐約時報禁止AI模型使用其內容進行訓練

Blog Image
紐約時報禁止AI模型使用其內容進行訓練

August 15, 2023

紐約時報更新了條款,明文禁止其內容被用於訓練人工智慧
 
紐約時報(The New York Times)已採取預防措施,阻止其內容被用來訓練人工智慧模型。根據Adweek的報導,紐約時報於8月3日更新了其服務條款,禁止其內容(包括文字、照片、圖像、音訊/影片剪輯、外觀、元數據或編譯)被用於開發「任何軟件程序,包括但不限於訓練機器學習或人工智慧(AI)系統」。


 
更新後的條款還明確規定,未經出版物書面許可,不得使用設計用於使用、訪問或收集此類內容的自動化工具,例如網站爬蟲。紐約時報表示,拒絕遵守這些新限制可能會導致未明示的罰款或處罰。儘管在其政策中引入了新規則,但該出版物似乎並未對其robots.txt進行任何更改,該文件通知搜尋引擎爬蟲哪些URL可以訪問。
 
此舉可能是對Google最近更新隱私政策的回應,該政策披露搜尋巨頭可能會收集網絡上的公共數據,以訓練其各種AI服務,例如Bard或Cloud AI。像OpenAI的ChatGPT這樣的許多大型語言模型,都是在可能包含未經原創者許可就從網絡上抓取的受版權或其他保護材料的大型數據集上訓練的。
 
值得一提的是,紐約時報在2月份還與Google簽署了一項價值1億美元的協議,允許搜尋巨頭在未來三年內在其一些平台上展示時報內容。該出版物表示,兩家公司將共同開發內容分發、訂閱、營銷、廣告和「實驗」的工具,因此紐約時報服務條款的更改可能是針對OpenAI或Microsoft等其他公司的。Semafor在周日報導說,時報已退出了一個媒體聯盟,該聯盟試圖與科技公司就AI訓練數據共同談判,這意味著如果它與公司達成協議,可能更有可能是在逐案的基礎上。
 
OpenAI最近宣布,網站運營商現在可以阻止其GPTBot網絡爬蟲抓取其網站。Microsoft也在其自己的T&Cs中增加了一些新的限制,禁止人們使用其AI產品「創建、訓練或改進(直接或間接)任何其他AI服務」,並禁止用戶從其AI工具中抓取或以其他方式提取數據。
 
本月初,包括美聯社和歐洲出版商理事會在內的幾家新聞組織簽署了一封公開信,呼籲全球立法者推動規則,要求在使用數據進行訓練之前進行數據集的透明度和權利人的同意。


新聞原址: https://www.theverge.com/2023/8/14/23831109/the-new-york-times-ai-web-scraping-rules-terms-of-service?ref=futurepedia