Blog

Meta開放新的生成式AI,用於生成聲音和音樂,並開放原始碼框架

Blog Image
Meta開放新的生成式AI,用於生成聲音和音樂,並開放原始碼框架

August 3, 2023

隨著時間演進,生成AI不僅能以令人信服的人類風格撰寫和創造圖像,還能作曲和製作聲音,並達到專業水準。



今晨,Meta宣布了AudioCraft,這是一個框架,用於根據短文本描述或提示生成所描述的「高品質」、「逼真」的音頻和音樂。這不是Meta首次涉足音頻生成,這家科技巨頭在6月開源了一個由AI驅動的音樂生成器MusicGen,但Meta聲稱,它已取得了極大的進展,提高了AI生成聲音的質量,例如狗叫、汽車按喇叭和木地板上的腳步聲。

在一篇與TechCrunch共享的部落格文章中,Meta解釋說,AudioCraft框架的設計旨在簡化與領域先前工作相比(例如Riffusion、Dance Diffusion和OpenAI的Jukebox)生成模型的音頻使用。AudioCraft的代碼是開源的,它提供了一個聲音和音樂生成器的集合,以及可以用於創建和編碼歌曲和音頻的壓縮算法,而無需在不同的代碼庫之間切換。

AudioCraft包括三個生成AI模型:MusicGen、AudioGen和EnCodec。

MusicGen並不新鮮。但Meta已發布了它的訓練代碼,使用戶可以在自己的音樂數據集上訓練該模型。

而這可能引發重大的道德和法律問題,考慮到MusicGen通過「學習」現有音樂來產生相似效果,並非所有藝術家或生成AI用戶都感到舒適。

越來越多使用生成AI創造出熟悉聲音的自製曲目正在走紅,這些聲音可以偽裝成真實的,或至少足夠接近。音樂唱片公司迅速將它們標記給流媒體合作夥伴,援引知識產權問題,並且通常取得了勝利。但是關於「深偽造」音樂是否侵犯了藝術家、唱片公司和其他權利持有人的版權,目前仍然存在缺乏明確性的問題。

Meta明確表示,MusicGen的預訓練版本是使用「Meta自有和專門許可的音樂」進行訓練的,具體來說是20,000小時的音頻——400,000個錄音以及文本描述和元數據——來自公司自己的Meta Music Initiative Sound Collection、Shutterstock的音樂圖書館和Pond5,一個大型股票媒體圖書館。Meta還從訓練數據中刪除了人聲,以防止模型複製藝術家的聲音。但是,雖然MusicGen的使用條款不鼓勵將模型用於研究之外的「超出範圍」的使用情況,Meta並未明確禁止任何商業應用。

AudioCraft中包含的另一個音頻生成模型AudioGen,則專注於生成環境聲音和聲效,而不是音樂和旋律。

AudioGen是一個基於擴散的模型,就像大多數現代圖像生成器一樣(參見OpenAI的DALL-E 2、Google的Imagen和Stable Diffusion)。在擴散過程中,模型學會如何逐步從完全由噪聲組成的起始數據中減去噪聲——例如,音頻或圖像——逐步接近目標提示。

根據聲音場景的文本描述,AudioGen可以生成具有「逼真的錄音條件」和「複雜的場景內容」的環境聲音。至少Meta是這麼說的——在模型發布之前,我們沒有機會測試AudioGen或聆聽

其樣本。根據今晨與AudioGen一同發布的白皮書,AudioGen還可以根據提示生成演講,除了音樂,還反映了其多樣化訓練數據的組成。

在白皮書中,Meta承認AudioCraft可能被濫用來深度偽造某人的聲音。而且,考慮到AudioCraft的生成音樂功能,該模型引起了與MusicGen相同的道德問題。但是,與MusicGen一樣,Meta並未對AudioCraft(及其訓練代碼)的使用方式施加太多限制,無論是好還是壞。

AudioCraft的三個模型中的最後一個,EnCodec,是Meta以前用於生成具有更少人工痕跡的音樂的模型的改進。Meta聲稱,它更有效地對音頻序列進行建模,捕捉訓練數據音頻波形中的不同信息層次,以幫助創造新的音頻。

Meta在部落格文章中解釋說:「EnCodec是一個有損神經編碼器,專門訓練用來壓縮任何類型的音頻並以高保真度重建原始信號。不同的流捕捉了音頻波形的不同資訊層次,使我們能夠從所有流中以高保真度重建音頻。」

那麼AudioCraft意味著什麼呢?Meta強調了潛在的積極方面,不出所料,例如為音樂家提供靈感,並幫助人們以「新的方式」迭代他們的作品。但是,正如圖像和文本生成器的出現向我們展示的那樣,其中潛伏著缺點——甚至可能是訴訟。

儘管有後果,Meta表示,計劃繼續調查改善生成音頻模型的可控性和性能的方法,以及減輕這些模型的限制和偏見的方法。在偏見問題上,Meta指出,MusicGen在英語以外的語言以及非西方的音樂風格和文化方面的表現不佳——這要歸因於其訓練數據中非常明顯的偏見。

Meta在部落格文章中寫道:「與其將工作保持為無法理解的黑盒,不如公開闡述我們如何開發這些模型,並確保它們易於使用——無論是研究人員還是整個音樂界——有助於人們了解這些模型能做什麼,了解它們不能做什麼,並有權實際使用它們。通過開發更先進的控制,我們希望這樣的模型既能對音樂業餘愛好者有所幫助,也能對專業人士有所幫助。」


新聞原址: https://techcrunch.com/2023/08/02/meta-open-sources-models-for-generating-sounds-and-music/