Blog

科技界熱議:向量數據庫的崛起與新創企業競逐

Blog Image
科技界熱議:向量數據庫的崛起與新創企業競逐

April 23, 2024

重點摘要:

  1. 向量數據庫因大型語言模型和生成式人工智慧的興起而受到關注,傳統的關聯式數據庫對於非結構化數據效果不佳,而向量數據庫以向量嵌入的形式儲存和處理數據,對機器學習特別有用。
  2. 向量搜尋的應用範圍廣泛,對於LLM應用、社群網路內容推薦等具有重要意義,新創企業Qdrant等在這一領域取得重要進展,吸引了投資者的關注。
  3. 專用數據庫與通用數據庫之爭尚未結束,向量數據庫的發展將帶來新的技術挑戰和商業機遇,公司如Microsoft、Amazon和Cloudflare等也在積極參與。



新聞內文:

向量數據庫成為科技界的新寵,從許多新創企業進入這個領域以及投資者的熱衷程度可見一斑。大型語言模型(LLM)和生成式人工智慧(GenAI)運動的興起為向量數據庫技術的蓬勃發展提供了肥沃的土壤。

傳統的關聯式數據庫,如「Postgres」或「MySQL」,適用於結構化數據,這類數據類型已預定,可以整齊地排列在行和列中,但對於非結構化數據,如圖像、影片、電子郵件、社群媒體貼文等,這種方法效果不佳,因為這些數據不適用於預定的數據模型。

而向量數據庫則以向量嵌入的形式儲存和處理數據,將文本、文檔、圖像和其他數據轉換為數值表示,捕捉不同數據點之間的含義和關係。這對於機器學習非常有用,因為數據庫按照每個項目與其他項目的相關性存儲數據,使得檢索語義相似的數據更加容易。

這對於LLM(如OpenAI的GPT-4)尤其有用,因為它允許AI聊天機器人透過分析先前類似的對話來更好地理解對話的上下文。向量搜尋還適用於各種即時應用,例如社群網路或電子商務應用程式中的內容推薦,因為它可以查看使用者搜尋的內容並在瞬息之間檢索相似項目。

向量搜尋還可以幫助減少LLM應用程式中的「幻覺」,透過提供原始訓練數據集中可能不可用的額外訊息。

向量搜尋新創企業Qdrant的執行長兼共同創辦人安德烈·扎亞爾尼(Andre Zayarni)向TechCrunch解釋道:「如果不使用向量相似度搜尋,您仍然可以開發「AI/ML」應用程式,但需要進行更多的重新訓練和微調」。「當存在大型數據集且需要一種以高效和便捷方式處理向量嵌入的工具時,向量數據庫就會派上用場」。

今年一月,Qdrant獲得了2800萬美元的融資,以資本化其成長,成為去年增長最快的十家商業開源新創企業之一。而且,這並不是最近唯一一家籌集資金的向量數據庫新創企業。去年,Vespa、Weaviate、Pinecone和Chroma共同籌集了2億美元,用於各種向量產品。

Qdrant founding team. Image Credits: Qdrant

自年初以來,我們還看到Index Ventures領投了一輪950萬美元的種子融資,投資了Superlinked,一個將複雜數據轉換為向量嵌入的平台。幾週前,Y Combinator(YC)公布了其 2024 年冬季批次,其中包括Lantern,一家為 Postgres提供托管向量搜尋引擎的新創公司。

另外,Marqo在去年底完成了一輪440萬美元的種子融資,隨後在二月份迅速進行了一輪 1250 萬美元的A輪融資。Marqo 平台提供了一整套向量工具,包括向量生成、儲存和搜尋,允許使用者避免使用OpenAI或Hugging Face等第三方工具,並透過單一API提供一切。

Marqo的聯合創辦人湯姆·哈默(Tom Hamer)和傑西·N·克拉克(Jesse N. Clark)曾在Amazon擔任工程師,他們意識到在文本和圖像等不同模式之間進行語義靈活搜尋的「巨大未滿足需求」。這就是他們於2021年離開Amazon成立 Marqo 的原因。

克拉克向TechCrunch表示:「在Amazon從事視覺搜尋和機器人技術時,我真正開始接觸到向量搜尋。我正在考慮進行產品發現的新方法,這很快就匯聚成了向量搜尋」。「在機器人技術方面,我正在使用多模態搜尋來搜尋我們的許多圖像,以確定是否存在類似軟管和包裹之類的錯誤物品。否則,這將是非常具有挑戰性的問題」。

Marqo co-founders Jesse Clark and Tom Hamer. Image Credits: Marqo

企業界登場

雖然在ChatGPT和GenAI運動的熱潮中,向量數據庫正在受到關注,但它們並非適用於每一種企業搜尋情境的萬靈丹。

數據庫支援和服務公司Percona的創辦人彼得·賽茨夫(Peter Zaitsev)向 TechCrunch解釋道:「專用數據庫往往完全專注於特定用例,因此可以設計其架構以提高所需任務的性能,以及使用者體驗,相比之下,通用數據庫需要將其納入當前設計中」。

雖然專用數據庫可能在某一方面表現出色,但這就是為什麼我們開始看到 Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB等數據庫領域的老牌公司加入向量數據庫搜尋智慧的混合中,雲端服務提供商如Microsoft 的「Azure」、Amazon的「AWS」和「Cloudflare」也在這樣做。

賽茨夫將這一最新趨勢與十多年前 JSON 發生的情況相比,當時Web應用程式變得更加普遍,開發人員需要一種獨立於語言且易於人類閱讀和編寫的數據格式。在那種情況下,以 MongoDB 為代表的文檔數據庫這一新的數據庫類型應運而生,而現有的關聯數據庫也引入了 JSON 支持。

賽茨夫告訴TechCrunch:「我認為向量數據庫可能會出現相同的情況」。「那些正在構建非常複雜且大規模的AI應用程式的使用者將使用專用的向量搜尋數據庫,而那些需要為現有應用程式添加一點AI功能的使用者更有可能使用已有數據庫中的向量搜尋功能」。

但Zayarni和他的Qdrant同事們打賭,完全建立在向量基礎上的本地解決方案將提供所需的「速度、內存安全性和規模」,而不是像其他公司那樣事後添加向量搜尋。

Zayarni說:「他們的宣傳是,『如果需要,我們也可以進行向量搜尋』。而我們的宣傳是,『我們以最佳方式進行高級向量搜尋』。這完全是關於專業化。我們實際上建議從您已經在技術堆棧中擁有的任何數據庫開始。在某個時候,如果向量搜尋是您解決方案的關鍵組件,使用者將會面臨限制」。

新聞原址: https://techcrunch.com/2024/04/20/why-vector-databases-are-having-a-moment-as-the-ai-hype-cycle-peaks/