Blog

AI-coustics引領音訊工程新革命:以AI技術提升影片中的聲音清晰度

Blog Image
AI-coustics引領音訊工程新革命:以AI技術提升影片中的聲音清晰度

March 26, 2024

重點摘要: 

  1. 德國初創公司AI-coustics以獨特的生成式人工智慧技術解決訪談和演講中的噪音錄音問題,該技術可用於提升視頻中的聲音清晰度。
  2. AI-coustics的技術超越了傳統噪音抑制,可與任何設備和揚聲器配合使用,並已獲得190萬歐元的資金。
  3. 這家新創企業使用生成式人工智慧訓練模型,將語音樣本添加到數據庫中,以提升噪音抑制和聲音增強的效果。



新聞內文:

在訪談和演講的噪音錄音一直是音訊工程師的夢魘。但一家德國新創公司希望以獨特的技術方法來解決這個問題,該方法使用生成式人工智慧來提升視頻中聲音的清晰度。

今天,AI-coustics以190萬歐元的資金從隱藏狀態中浮現出來。根據共同創辦人兼首席執行官Fabian Seipel的說法,AI-coustics的技術超越了標準的噪音抑制,可以跨越和與任何設備和揚聲器一起使用。

Seipel是一位受過訓練的音訊工程師,他於2021年與柏林工業大學機器學習講師Corvin Jaedicke共同創立了AI-coustics。Seipel和Jaedicke在柏林工業大學學習聲學技術時相遇,他們經常在線課程和教程中遇到音質差的問題。

Seipel說道:「我們被一個個人使命所驅使,即克服數字通信中音質差的普遍挑戰」。「雖然我的聽力因我在二十幾歲時從事音樂製作而稍微受損,但我一直在為線上內容和講座而苦惱,這促使我們首先著手解決言語品質和清晰度的問題」。

基於人工智慧的噪音抑制和聲音增強軟件的市場已經非常強大。AI-coustics的競爭對手包括使用生成式人工智慧增強串流和預錄音語音片段的Insoundz,以及具有從片段中去除背景噪音工具的影片編輯套件「Veed.io」。

但Seipel表示,AI-coustics在開發實際噪音減少工作的人工智慧機制方面有獨特的方法。

該新創企業使用在柏林的新創企業工作室中錄製的語音樣本訓練的模型,柏林也是AI-coustics的所在地。人們被支付錄製樣本(Seipel並未透露多少錢)然後將其添加到數據庫中,以訓練AI-coustics的降噪模型。

Seipel說道:「在培訓過程中,我們開發了一種獨特的方法來模擬音頻藝術品和問題,例如噪音、混響、壓縮、帶限制的麥克風、失真、裁剪等」。

我敢打賭,一些人可能會對AI-coustics為創作者提供一次性補償方案感到不滿,因為新創企業正在訓練的模型可能長期來看會變得非常有利可圖。(關於AI模型的訓練數據創作者是否應該得到貢獻的分紅,存在著一場健康的辯論)。但也許更大更直接的問題是「偏見」。

眾所周知,語音識別算法可能存在偏見。這些偏見最終會傷害到用戶。《美國國家科學院院刊》上發表的一項研究顯示,領先公司的語音識別有兩倍的可能性錯誤地轉錄黑人發言人的語音,而不是白人發言人的語音。

為了解決這個問題,Seipel表示,AI-coustics正在專注於招聘「多樣化」的語音樣本貢獻者。他補充說:「規模和多樣性是消除偏見,使技術適用於所有語言、發言者身份、年齡、口音和性別的關鍵」。

這不是最科學的測試,但我將三段影片剪輯:「一個與18世紀農民的訪談」、「一個汽車駕駛示範」和「一個以色列-巴勒斯坦衝突抗議活動」上傳到AI-coustics的平台上,以查看它在每個方面的表現。AI-coustics確實兌現了提高清晰度的承諾;在我看來,處理後的片段中,周圍的背景噪音要少得多,不會壓制說話者的聲音。

Seipel認為AI-coustics的技術不僅可用於即時,還可用於錄音的語音增強,甚至可能嵌入到聲音棒、智慧手機和耳機等設備中,以自動提高語音清晰度。目前,AI-coustics提供了一個用於後期處理音訊和影片錄製的Web應用程式和API,以及一個SDK,將AI-coustics的平台引入現有的工作流程、應用程式和硬體中。

Seipel表示,AI-coustics目前有五個企業客戶和20,000名用戶(雖然不是所有人都付費)。在未來幾個月的路線圖上,是擴大公司的四人團隊,並改進基礎的語音增強模型。

Seipel說道:「在我們最初的投資之前,AI-coustics運營得相當精簡,燃燒率低,以應對VC投資市場的困難」。「AI-coustics現在在德國和英國擁有大量的投資者和導師,提供建議。強大的技術基礎和用相同的數據庫和核心技術來應對不同市場的能力使公司具有靈活性,並能夠進行較小的轉向」。

在被問及像AI-coustics這樣的音頻處理技術是否可能像一些專家所擔心的那樣搶走工作時,Seipel指出了AI-coustics加速人類音訊工程師目前負責的耗時任務的潛力。

他說:「內容創作工作室或廣播經理可以通過使用AI-coustics自動化部分音頻製作流程來節省時間和金錢,同時保持最高的語音品質」。「語音品質和清晰度仍然是幾乎每個消費者或專業設備以及內容生產或消費中都令人惱火的問題。每個錄製、處理或傳輸語音的應用都潛在受益於我們的技術」。

這筆資金來自Connect Ventures、Inovia Capital、FOV Ventures和Ableton首席財務官Jan Bohl,其中包括股權和債務部分。

新聞原址: https://techcrunch.com/2024/03/25/can-you-hear-me-now-ai-coustics-to-fight-noisy-audio-with-generative-ai/?guccounter=1