Meta開放新的生成式AI，用於生成聲音和音樂，並開放原始碼框架

Blog

August 3, 2023

隨著時間演進，生成AI不僅能以令人信服的人類風格撰寫和創造圖像，還能作曲和製作聲音，並達到專業水準。

今晨，Meta宣布了AudioCraft，這是一個框架，用於根據短文本描述或提示生成所描述的「高品質」、「逼真」的音頻和音樂。這不是Meta首次涉足音頻生成，這家科技巨頭在6月開源了一個由AI驅動的音樂生成器MusicGen，但Meta聲稱，它已取得了極大的進展，提高了AI生成聲音的質量，例如狗叫、汽車按喇叭和木地板上的腳步聲。

在一篇與TechCrunch共享的部落格文章中，Meta解釋說，AudioCraft框架的設計旨在簡化與領域先前工作相比（例如Riffusion、Dance Diffusion和OpenAI的Jukebox）生成模型的音頻使用。AudioCraft的代碼是開源的，它提供了一個聲音和音樂生成器的集合，以及可以用於創建和編碼歌曲和音頻的壓縮算法，而無需在不同的代碼庫之間切換。

AudioCraft包括三個生成AI模型：MusicGen、AudioGen和EnCodec。

MusicGen並不新鮮。但Meta已發布了它的訓練代碼，使用戶可以在自己的音樂數據集上訓練該模型。

而這可能引發重大的道德和法律問題，考慮到MusicGen通過「學習」現有音樂來產生相似效果，並非所有藝術家或生成AI用戶都感到舒適。

越來越多使用生成AI創造出熟悉聲音的自製曲目正在走紅，這些聲音可以偽裝成真實的，或至少足夠接近。音樂唱片公司迅速將它們標記給流媒體合作夥伴，援引知識產權問題，並且通常取得了勝利。但是關於「深偽造」音樂是否侵犯了藝術家、唱片公司和其他權利持有人的版權，目前仍然存在缺乏明確性的問題。

Meta明確表示，MusicGen的預訓練版本是使用「Meta自有和專門許可的音樂」進行訓練的，具體來說是20,000小時的音頻——400,000個錄音以及文本描述和元數據——來自公司自己的Meta Music Initiative Sound Collection、Shutterstock的音樂圖書館和Pond5，一個大型股票媒體圖書館。Meta還從訓練數據中刪除了人聲，以防止模型複製藝術家的聲音。但是，雖然MusicGen的使用條款不鼓勵將模型用於研究之外的「超出範圍」的使用情況，Meta並未明確禁止任何商業應用。

AudioCraft中包含的另一個音頻生成模型AudioGen，則專注於生成環境聲音和聲效，而不是音樂和旋律。

AudioGen是一個基於擴散的模型，就像大多數現代圖像生成器一樣（參見OpenAI的DALL-E 2、Google的Imagen和Stable Diffusion）。在擴散過程中，模型學會如何逐步從完全由噪聲組成的起始數據中減去噪聲——例如，音頻或圖像——逐步接近目標提示。

根據聲音場景的文本描述，AudioGen可以生成具有「逼真的錄音條件」和「複雜的場景內容」的環境聲音。至少Meta是這麼說的——在模型發布之前，我們沒有機會測試AudioGen或聆聽

其樣本。根據今晨與AudioGen一同發布的白皮書，AudioGen還可以根據提示生成演講，除了音樂，還反映了其多樣化訓練數據的組成。

在白皮書中，Meta承認AudioCraft可能被濫用來深度偽造某人的聲音。而且，考慮到AudioCraft的生成音樂功能，該模型引起了與MusicGen相同的道德問題。但是，與MusicGen一樣，Meta並未對AudioCraft（及其訓練代碼）的使用方式施加太多限制，無論是好還是壞。

AudioCraft的三個模型中的最後一個，EnCodec，是Meta以前用於生成具有更少人工痕跡的音樂的模型的改進。Meta聲稱，它更有效地對音頻序列進行建模，捕捉訓練數據音頻波形中的不同信息層次，以幫助創造新的音頻。

Meta在部落格文章中解釋說：「EnCodec是一個有損神經編碼器，專門訓練用來壓縮任何類型的音頻並以高保真度重建原始信號。不同的流捕捉了音頻波形的不同資訊層次，使我們能夠從所有流中以高保真度重建音頻。」

那麼AudioCraft意味著什麼呢？Meta強調了潛在的積極方面，不出所料，例如為音樂家提供靈感，並幫助人們以「新的方式」迭代他們的作品。但是，正如圖像和文本生成器的出現向我們展示的那樣，其中潛伏著缺點——甚至可能是訴訟。

儘管有後果，Meta表示，計劃繼續調查改善生成音頻模型的可控性和性能的方法，以及減輕這些模型的限制和偏見的方法。在偏見問題上，Meta指出，MusicGen在英語以外的語言以及非西方的音樂風格和文化方面的表現不佳——這要歸因於其訓練數據中非常明顯的偏見。

Meta在部落格文章中寫道：「與其將工作保持為無法理解的黑盒，不如公開闡述我們如何開發這些模型，並確保它們易於使用——無論是研究人員還是整個音樂界——有助於人們了解這些模型能做什麼，了解它們不能做什麼，並有權實際使用它們。通過開發更先進的控制，我們希望這樣的模型既能對音樂業餘愛好者有所幫助，也能對專業人士有所幫助。」

新聞原址： https://techcrunch.com/2023/08/02/meta-open-sources-models-for-generating-sounds-and-music/

Watch more News：

4個方法，讓創業者使用生成式AI時，能產生對記者更具吸引力的方式
一名女子透露，她因使用類似ChatGPT的AI工具撰寫文章內容而被公司解雇
Intuit首席多元化主管分享2024展望：技術創新與員工福祉的平衡
瑞典新創「Pirr」：用AI打破色情文學污名，目標成為全球最大辛辣故事平台
OpenAI的Sora：影片生成工具的挑戰與反思