Blog

數據即黃金!創業新勢力Vana如何讓你賣出自己的數據?」

Blog Image
數據即黃金!創業新勢力Vana如何讓你賣出自己的數據?」

April 15, 2024

重點摘要:

  1. 數據成為黃金時代的關鍵,公司與個人資料的價值日益凸顯。
  2. Vana創辦人卡茲勞斯卡斯和阿巴爾打造了一個讓使用者自主掌控數據的平台,並提供給AI模型進行訓練。
  3. Vana推出Reddit數據「DAO」計劃,讓使用者共同決定數據如何被利用,引發了Reddit的關注和反響。



新聞內文:

在生成式人工智慧蓬勃發展的時代,數據成為了新的黃金。那麼,為什麼你不能賣掉你自己的數據呢?

從大型科技公司到新創企業,人工智慧製造商正在與數據經紀公司訂立授權協議,以供應電子書、圖像、影片、語音等各種數據,用於訓練更為強大(和在法律上更具可辯護性)的AI產品。Shutterstock與Meta、Google、Amazon和Apple等公司簽署了協議,供應數百萬圖像用於模型訓練,而OpenAI已與幾家新聞機構簽署了協議,用於對新聞檔案進行模型訓練。

在許多情況下,這些數據的個別創作者和擁有者沒有見到這筆錢。一家名為「Vana」的新創公司希望改變這一狀況。

安娜·卡茲勞斯卡斯(Anna Kazlauskas)和阿特·阿巴爾(Art Abal)在麻省理工學院媒體實驗室的一個專注於為新興市場建立技術的課程中相識,並於2021年共同創立了Vana。在Vana之前,卡茲勞斯卡斯在麻省理工學院攻讀計算機科學和經濟學,離開學校後創辦了一家金融科技自動化新創公司「Iambiq」,並在Y Combinator加速器中獲得了支持。阿巴爾則是一位企業律師,曾在波士頓諮詢公司The Cadmus Group擔任聯合主任,後來在數據標注公司Appen負責影響力外包工作。

透過Vana,卡茲勞斯卡斯和阿巴爾致力於構建一個平台,讓使用者可以將他們的數據(包括聊天記錄、語音錄音和照片)集合成數據庫,然後用於生成式人工智慧模型訓練。他們還希望透過在該數據上對公共模型進行微調,創作更加個性化的體驗,例如基於您的健康目標的每日動力語音信箱,或者了解您風格喜好的藝術生成應用程式。

卡茲勞斯卡斯告訴TechCrunch說:「實際上,Vana的基礎設施創造了一個使用者擁有的數據寶庫」。「透過允許使用者以非保管方式聚合其個人數據,Vana允許使用者擁有AI模型並將其數據應用於AI應用程式」。

以下是Vana向開發人員推介其平台和API的方式:

Vana API連接使用者的跨平台個人數據,以便您可以個性化您的應用程式。您的應用程式立即獲得對使用者個性化AI模型或底層數據的使用權限,簡化了註冊流程並消除了計算成本方面的擔憂。我們認為使用者應該能夠將其從封閉的園地(例如Instagram、Facebook和Google)中帶來的個人數據應用於您的應用程式,以便您可以從使用者與您的消費者AI應用程式進行首次互動時創造出色的個性化體驗。

使用Vana建立帳戶相當簡單。確認電子郵件後,您可以將數據附加到數位化頭像(例如自拍照片、自我描述和語音錄音),並探索使用Vana平台和數據庫構建的應用程式。應用程式的選擇範圍從ChatGPT風格的聊天機器人和互動式故事書到Hinge配置文件生成器。

使用Vana建立帳戶相當簡單。確認電子郵件後,您可以將數據附加到數位化頭像(例如自拍照片、自我描述和語音錄音),並探索使用Vana平台和數據庫構建的應用程式

現在你可能會問,面對日益增加的數據隱私意識和勒索軟體攻擊,為什麼有人會自願將他們的個人訊息提供給一家匿名的新創公司,更不用說是一家風險投資支持的公司了?(Vana到目前為止已經從Paradigm、Polychain Capital和其他支持者那裡籌集了2000萬美元)。任何以利潤為目標的公司真的可以信任,不會濫用或處理任何可以賺錢的數據嗎?

Image Credits: Vana

對於這個問題,卡茲勞斯卡斯強調Vana的整個目的是讓使用者「重新掌控自己的數據」,她指出Vana使用者可以選擇自行託管他們的數據,而不是將其儲存在Vana的服務器上,並控制他們的數據如何與應用程式和開發人員共享。她還主張,由於Vana透過向使用者收取月費(起價3.99美元)並向開發人員徵收「數據交易」費用(例如,用於將數據庫轉移到AI模型訓練),因此該公司沒有動機利用使用者和他們帶來的大量個人數據。

卡茲勞斯卡斯表示:「我們希望建立由使用者擁有和管理的模型,他們都在貢獻自己的數據,並允許使用者將他們的數據和模型帶到任何應用程式中」。

現在,雖然Vana沒有將使用者的數據出售給公司進行生成式AI模型訓練(或者至少是這樣聲稱的),但它希望允許使用者自己這樣做,如果他們選擇的話,從他們的Reddit貼文開始。

本月,Vana推出了它稱之為Reddit數據「DAO」(Digital Autonomous Organization)的計劃,該計劃將多個使用者的Reddit數據(包括他們的karma和貼文歷史)集合起來,並讓他們共同決定如何使用這些結合的數據。加入Reddit帳戶後,向Reddit提交數據請求並將數據上傳到DAO後,使用者就可以與DAO的其他成員一起投票,決定將結合的數據授權給生成式AI公司進行共享利潤等決定。



這算是某種程度的回應Reddit最近開始商業化其平台數據的舉動。

Reddit以前並未限制對貼文和社群的使用,用於生成式AI訓練目的。但它在去年底改變了這一政策,這是在其上市之前。自政策改變以來,Reddit已從包括Google在內的公司中收取了超過2.03億美元的授權費。

卡茲勞斯卡斯說:「DAO的廣泛理念是將使用者數據從那些試圖獨佔和賺錢的主要平台中解放出來」。「這是一個首次,也是我們努力的一部分,以幫助人們將他們的數據庫中到使用者擁有的數據庫中,以訓練AI模型」。”

毫不奇怪地,Reddit對於DAO並不滿意,雖然它與Vana沒有以任何官方身份合作。

Reddit禁止了專門用於討論DAO的Vana子版塊。Reddit一位發言人指責Vana「利用」其數據導出系統,該系統目的在符合GDPR和加州消費者隱私法等數據隱私法規。

該發言人告訴TechCrunch:「我們的數據安排使我們能夠對這些實體設置防範措施,即使是對於公共訊息」。「Reddit不會將非公開的個人數據與商業企業共享,當Reddit使用者向我們請求導出他們的數據時,他們將根據適用法律從我們這裡獲得非公開的個人數據。Reddit與經過核實的組織之間的直接合作夥伴關係,有明確的條款和責任,這些合作夥伴和協議可以防止人們數據的誤用和濫用」。

但Reddit是否真的有理由感到擔心呢?

卡茲勞斯卡斯想像DAO會發展到影響Reddit向客戶收取數據費的程度。這還有很長的路要走,假設它會發生的話;DAO僅有超過141,000名成員,是Reddit 7300萬使用者基數的微小部分。而且其中一些成員可能是機器人或重複帳戶。

接下來要解決的問題是如何公平分配DAO可能從數據買家那裡收到的付款。

目前,DAO將「代幣」(加密貨幣)授予使用者,與他們的Reddit karma相對應。但是karma可能不是評估數據庫中質量貢獻的最佳指標,特別是在Reddit社區較小且機會較少的情況下。

卡茲勞斯卡斯提出了這樣一個想法,即DAO的成員可以選擇分享他們的跨平台和人口統計數據,這將使DAO可能更有價值,並激勵使用者註冊。但這也需要使用者對Vana負責任地處理其敏感數據更多的信任。

就我個人而言,我認為Vana的DAO不太可能達到臨界質。阻礙它的路徑太多了。但我確實認為,這不會是最後一次試圖對用於訓練生成式AI模型的數據主張控制權的基層企圖。

像Spawning這樣的新創公司正在努力找到方法,允許創作者制定指導其數據用於培訓的規則,而像Getty Images、Shutterstock和Adobe這樣的供應商則繼續嘗試不同的補償方案。但目前還沒有人破解這個難題。它甚至能被破解嗎?考慮到生成式AI行業的激烈競爭性質,這確實是一項艱巨的任務。但也許有人會找到方法,或者政策制定者會強制制定方法。

新聞原址: https://techcrunch.com/2024/04/13/vana-plans-to-let-users-rent-out-their-reddit-data-to-train-ai/