Blog

Twelve Labs獲得1000萬美元戰略融資:多模式影片理解AI引領行業新標準

Blog Image
Twelve Labs獲得1000萬美元戰略融資:多模式影片理解AI引領行業新標準

October 25, 2023

重點摘要:
  1. Twelve Labs是一家專注於多模式影音理解的新創公司,其AI模型能夠理解影片中的動作、物體和背景聲音,並用於廣告插入、內容審查和媒體分析等多種應用。
  2. 該公司近期完成了一輪由Nvidia、Intel和Samsung Next投資的1000萬美元戰略融資,總融資額達到2700萬美元。這筆資金將用於加速研究、產品開發和分發。
  3. Twelve Labs的創辦人兼CEO Jae Lee強調,該公司正努力滿足內部偏見和「公平性」指標,並計劃在未來發布與模型倫理相關的基準和數據庫。



新聞內文:
文字生成的人工智慧是目前主流。但能理解影像和文字的人工智慧模型可以開啟強大的新應用。

以「Twelve Labs」為例,這家位於舊金山的新創公司訓練人工智慧模型,如其創辦人兼CEO Jae Lee所稱「解決複雜的影片語言對齊問題」。

Lee 在一封電子郵件訪談中告訴 TechCrunch,「Twelve Labs」成立是為了創造多模式影音理解的基礎架構,第一個嘗試的是「語義搜索」,或者稱為「影片的『CTRL+F』」。「Twelve Labs的願景是『幫助開發人員建立能夠像我們一樣看、聽和理解世界的程式』」。

Twelve Labs的模型試圖將自然語言反映到影片內部發生的事情,包括動作、物體和背景聲音,使開發人員能創建造出能夠「搜索影片、分類場景、從中提取主題、自動摘要和將影片剪成章節」等應用程式,以及更多其他應用。

Lee表示,Twelve Labs的技術可以用於驅動廣告插入和內容審查。例如「弄清楚哪些展示刀具的影片是暴力的,哪些是教育性的」。他還補充說,它也可以用於媒體分析,並自動從影片中生成精華片段,或者從影片生成部落格文章標題和標籤。

我問Lee關於這些模型存在偏見的潛力,因為已經有科學證明模型會放大其訓練數據中的偏見。例如,將大部分是有關犯罪的地方新聞片段用於訓練影片理解模型,可能會使該模型學習到種族和性別偏見。

而Lee表示,Twelve Labs力求在發布模型之前滿足內部偏見和「公平性」指標,且該公司計劃在未來發布與模型倫理相關的基準和數據庫。但除此之外,他沒有其他分享。

Twelve Labs力求在發布模型之前滿足內部偏見和「公平性」指標,且該公司計劃在未來發布與模型倫理相關的基準和數據庫。

Lee說:「就我們的產品與大型語言模型如『ChatGPT』的區別而言,我們的模型是專門訓練並構建的,以處理和理解影片,全面整合視覺、語音和影片中的語音組合」。「我們真正推動了對於影片理解可能性的技術極限」。

Google正在開發一個類似的多模式影片理解模型,名為「MUM」,該公司正在用它來為Google搜索和YouTube提供影片推薦。除MUM外,Google及微軟和Amazon都提供在影片中識別對象、地點和動作,並在級別提取豐富元數據的API級別的人工智慧服務。

但Lee稱,Twelve Labs在模型品質和平台的微調功能方面有所區別,這允許客戶使用自己的數據對平台的模型進行「特定領域」的影片分析。

在模型方面,Twelve Labs 今天推出了「Pegasus-1」,這是一個新的多模式模型,能夠理解與整體影片分析相關的一系列提示。例如,Pegasus-1可以被提示生成一份關於影片的長篇詳細報告,或只是一些帶有時間點的亮點。

Lee說:「企業組織意識到利用他們龐大的影片數據來尋找新的商機的潛力。然而,傳統影片人工智慧模型的能力有限且簡單,通常無法滿足大多數業務用例所需的複雜理解」。「透過利用強大的多模式影片理解基礎模型,企業組織可以實現人類級的影片理解,而無需手動分析」。

Lee聲稱,自從在先前私人測試版推出以來,Twelve Labs的使用者數量已經增長到17,000名開發人員。該公司現在正在與多家公司合作,但不清楚有多少家;Lee不肯透露,但預估涵蓋體育、媒體和娛樂、電子學習和安全等多個行業,包括美國國家美式橄欖球聯盟(NFL)。

Twelve Labs也在繼續籌集資金,這對於任何新創企業都很重要。該公司近期也宣布已完成一輪由Nvidia、Intel和Samsung Next投資的1000萬美元戰略融資,使其總融資額達到2700萬美元。

Lee 說:「這筆新投資是關於能夠加速我們公司在研究(計算)、產品和分發方面的戰略合作伙伴」。「這是基於我們實驗室的研究,關於影片理解領域,為客戶持續提供最強大模型的燃料,無論他們的使用案例是什麼,我們正在推動行業的發展,使公司能夠創造出令人難以置信的成果」。

新聞原址: https://techcrunch.com/2023/10/24/twelve-labs-is-building-models-that-can-understand-videos-at-a-deep-level/