Blog

DataCebo推出創新的「Synthetic Data Vault」:開源AI工具轉型為企業級數據生成平台

Blog Image
DataCebo推出創新的「Synthetic Data Vault」:開源AI工具轉型為企業級數據生成平台

December 8, 2023

重點摘要:
  1. DataCebo的共同創辦人Kalyan Veeramachaneni和Neha Patki開發了「Synthetic Data Vault」(SDV),一個開源庫,用於利用生成式AI創造數據,特別適用於需要高品質業務數據但不能使用個人身份信息(PII)的公司。
  2. SDV的企業商業版本經過兩年開發,並完成了850萬美元的種子融資,其特點是從關聯和表格數據庫中建立合成數據,可用於醫療保健、金融服務等領域。
  3. SDV的開源版本已經獲得超過一百萬次下載,並有一個活躍的社群參與,企業版本相比開源版本可以處理更大規模的數據。



新聞內文:
在大多數人還沒有考慮到大型語言模型之前,DataCebo的共同創辦人Kalyan Veeramachaneni和Neha Patki正在創造一個名為「Synthetic Data Vault」(簡稱SDV)的開源庫。該公司的起源可以追溯到2016年,當時他們都在MIT Data to AI實驗室工作。他們有一個想法,除了生成文本、圖像和代碼,還可以使用生成式AI來創造數據。

對於需要在大型語言模型(以及其他用途)中使用高品質業務數據但不能使用PII來執行的公司來說,這是一個有趣的想法。今天,該公司在花了兩年時間開發了SDV的企業商業版本以及850萬美元的種子融資後,正式推出。

該公司執行長Veeramachaneni表示,從關聯和表格數據庫中建立合成數據的能力是該公司區別於其他生成式AI創造工具的地方。他告訴TechCrunch:「我們的軟體允許客戶在當地架構自定義生成式AI模型。然後,他們可以將該合成數據用於各種用途」。這可以在醫療保健、金融服務或任何需要隱藏敏感數據以進行測試和模型構建的情況下使用。

他表示,公司傳統上需要手動建立合成數據,這是一個極其繁瑣且難以擴展且容易出錯的過程。通過將生成式AI應用於這個問題,您可以簡單地描述所需的數據類型,軟體將查看實際數據集的特徵,然後創造一組用於測試的高品質虛擬數據,而不會暴露任何敏感訊息。

創辦人們首先創建了一個開源工具,這個工具非常受歡迎,幫助他們測試了軟體的各種核心部分。產品副總裁Patki表示:「我們已經有超過一百萬次的下載,有很多人參與我們的社群」。事實上,他們的Slack頻道有超過1000人參與。

她說:「透過這個,首先我們得到了對我們核心算法的很多驗證。我們有信心它能正常運作,如果有任何錯誤,我們的公共開源用戶會立即發現它們,我們能夠解決任何問題」。

開源版本和企業商業版本之間的主要區別在於規模。企業版本可以處理多達100個表,而開源版本設計為只處理幾個表。到目前為止,客戶已經基於20到30個表建立了模型。

該公司目前擁有11名員工,計劃在未來一年內進行招聘,以達到20名左右,具體取決於業務增長情況。

這家新創公司的850萬美元種子融資由Link Ventures和Zetta Venture Partners領投,Uncorrelated Ventures參與。

新聞原址: https://techcrunch.com/2023/12/07/datacebo-launches-commercial-version-of-popular-open-source-synthetic-data-library/