Blog

Meta推出AI模型,能夠轉錄並翻譯接近100種語言

Blog Image
Meta推出AI模型,能夠轉錄並翻譯接近100種語言

August 23, 2023

為了開發能夠理解各種不同方言的AI,Meta創造了一個名為SeamlessM4T的AI模型,可以在文字和語音之間翻譯和轉錄接近100種語言。



Meta聲稱,SeamlessM4T是AI驅動的語音轉文字和語音翻譯領域的「重大突破」,並與新的翻譯數據集SeamlessAlign一起作為開源提供。

Meta在與TechCrunch分享的部落格文章中寫道:「我們的單一模型提供即時翻譯,使不同語言的人能夠更有效地溝通。SeamlessM4T能夠隱藏式地辨別原語言,無需單獨的語言辨別模型」。

SeamlessM4T可以看作是Meta的「No Language Left Behind」(一種文本到文本機器翻譯模型)和「Universal Speech Translator」(支援福建話等少數方言的直接語音到語音翻譯系統)的精神接班人。它還建立在Massively Multilingual Speech架構的基礎上,該架構提供超過1100種語言的語音辨別、語言辨別和語音合成技術。

Meta並不是唯一一家投資資源開發複雜AI翻譯和轉錄工具的公司。

除了Amazon、Microsoft、OpenAI和一新創公司已經提供的商業服務和開源模型之外,Google還正在創建所謂的Universal Speech Model,這是這家科技龍頭努力構建能夠理解全球1000種最常使用的語言的模型的一部分。同時,Mozilla也發起了Common Voice項目,這是一個用於訓練自動語音辨別算法的多語言語音集合中最大的之一。

然而,SeamlessM4T是迄今為止將翻譯和轉錄能力結合到單一模型中的更為野心勃勃的努力之一。

在開發過程中,Meta表示,他們從網絡上擷取了公開可用的文本(大約數十億句)和語音(400萬小時)。在接受TechCrunch的訪問時,Meta的AI研究部門研究科學家Juan Pino,也是該項目的貢獻者之一,沒有透露數據的具體來源,僅表示數據來源「多樣化」。

並不是每位創作者都同意利用公開數據來訓練可能會在商業上使用的模型的做法。一些人對於在公開可用的數據上構建AI工具的公司提出了訴訟,主張如果不能提供學分,則應該提供補償,並提供明確的退出方式。

然而,Meta聲稱,他們挖掘的數據(可能包含可辨別個人身份的訊息)並不受版權保護,主要來自於開源或經授權的來源。

無論如何,Meta使用這些擷取的文本和語音創建了SeamlessM4T的訓練數據集,稱為「SeamlessAlign」。研究人員將443,000小時的語音與文本比對,創建了29,000小時的「語音到語音」對齊,這些對齊教會了SeamlessM4T如何將語音轉錄為文本或翻譯文本、從文本生成語音,甚至將一種語言中的詞翻譯為另一種語言中的詞。

Meta聲稱,在內部基準測試中,SeamlessM4T在處理語音到文本的任務時,對背景噪音和「講話變化」的表現優於當前最先進的語音轉錄模型。Meta將這歸因於訓練數據集中豐富的語音和文本數據的結合,Meta認為這使得SeamlessM4T在僅處理語音或僅處理文本的模型方面具有優勢。

在部落格文章中,Meta寫道:「憑藉最先進的成果,我們相信SeamlessM4T是AI社區在創建通用多任務系統的追求中的一個重要突破」。

然而,人們可能會想知道這個模型可能包含什麼偏見。

「The Conversation」的一篇最近文章指出了AI動力翻譯中的許多缺陷,包括不同形式的性別偏見。例如,Google翻譯曾經假定在某些語言中,醫生是男性,而護士是女性,而Bing的翻譯器將「the table is soft」(這個桌子很軟)翻譯為德語的陰性「die Tabelle」,這是一個指涉數字的詞。

語音辨別算法也經常存在偏見。《美國國家科學院院刊》上發表的一項研究顯示,來自領先公司的語音辨別系統在將黑人演講者的語音錄音轉錄成文本時,出現錯誤的可能性是將白人演講者的兩倍。

不出所料,SeamlessM4T在這方面並不獨特。

在與Meta推出AI模型,能夠轉錄並翻譯接近100種語言
文章一起發布的白皮書中,Meta透露,該模型在「從中性詞彙翻譯時過分泛化到陽性形式」,並在大多數語言中,從陽性參考(例如英語中的名詞「他」)進行翻譯時表現更好。

此外,在缺乏性別訊息的情況下,SeamlessM4T偏好將陽性形式翻譯為另一種語言中的詞,大約有10%的時間,Meta推測這可能是因為在訓練數據中存在「陽性詞彙的過度呈現」。

Meta辯稱,SeamlessM4T在翻譯中不會添加過多有害的文本,這是翻譯和生成AI文本模型的常見問題。但它並不完美。在某些語言中,例如孟加拉語和吉爾吉斯語,SeamlessM4T進行的負面性翻譯更多,即涉及到社會經濟地位和文化的負面性翻譯。而且,SeamlessM4T在涉及性取向和宗教的翻譯中也更具有負面性。

Meta指出,SeamlessM4T的公共演示中包含了對輸入語音的負面過濾器,以及對可能有負面的輸出語音的過濾器。然而,在模型的開源版本中,這種過濾器不是默認存在的。

未在白皮書中解決的AI翻譯器的更大問題是過度使用可能導致詞彙豐富度的損失。不同於AI,人類口譯員在將一種語言翻譯成另一種語言時會做出獨特的選擇。他們可能會解釋、規範、縮減和概述,創建出非正式稱為"translationese"的指紋。AI系統可能會生成更"準確"的翻譯,但這些翻譯可能是以翻譯的多樣性和多樣性為代價的。

這可能就是為什麼Meta建議不要將SeamlessM4T用於長篇翻譯和政府機構和翻譯機構承認的認證翻譯,比如官方認可的翻譯。Meta還不鼓勵將SeamlessM4T用於醫療或法律目的,這可能是為了在翻譯出現錯誤的情況下做好準備。

這是明智的;至少有幾個情況顯示,AI翻譯錯誤導致了執法的錯誤。在2012年9月,警方因為一條被誤譯的訊息而錯誤地指責一名庫爾德人涉嫌資助恐怖主義。而在2017年,堪薩斯州的一名警察用Google翻譯問一名西班牙語使用者是否可以檢查他們的汽車是否有毒品,但由於翻譯不準確,該司機並不完全理解他同意了什麼,最終案件被撤銷。

Pino表示:「這種單一系統方法減少了錯誤和延誤,提高了翻譯過程的效率和品質,使我們更接近實現無縫翻譯的目標。在未來,我們希望探索這個基礎模型如何能夠實現新的通信功能,最終讓我們更接近每個人都能夠被理解的世界」。

讓我們希望在那個未來,人類不會完全被排除在外。

新聞原址: https://techcrunch.com/2023/08/22/meta-releases-an-ai-model-that-can-transcribe-and-translate-close-to-100-languages/