Blog

OpenAI Sora展現擴散變壓器驅動的GenAI革命:即時影片生成引領新時代

Blog Image
OpenAI Sora展現擴散變壓器驅動的GenAI革命:即時影片生成引領新時代

February 29, 2024

重點摘要:

  1. OpenAI的Sora能夠即時生成影片和互動式3D環境,展示了擴散變壓器的能力,這是GenAI領域的一個重要進展。
  2. 擴散變壓器是推動Stable Diffusion 3.0等AI模型的動力源,結合了擴散和變壓器兩個機器學習概念,提高了GenAI模型的能力。
  3. 變壓器的引入使得擴散過程更加高效,並顯著提升了模型的性能和可擴展性,這對於大規模應用,如Sora模型,尤其重要。



新聞內文:

OpenAI的Sora可以即時生成影片和互動式3D環境,是GenAI領域的一個顯著示範,也是一個真正的里程碑。

但耐人尋味的是,導致這一成果的創新之一,一種被俗稱為擴散變壓器的AI模型架構,早在幾年前就已出現在AI研究界。

擴散變壓器,也是AI新創公司Stability AI最新的圖像生成器Stable Diffusion 3.0的動力源,似乎已準備好通過使GenAI模型能夠超越以往的能力來改變GenAI領域。

紐約大學計算機科學教授Saining Xie於2022年6月開展了產生擴散變壓器的研究項目。在Meta的AI研究實驗室實習期間,他與William Peebles合作,Peebles現在是OpenAI的Sora的聯合負責人,將擴散和變壓器兩個機器學習概念結合起來,創造出了擴散變壓器。

大多數現代的AI驅動的媒體生成器,包括OpenAI的DALL-E 3,在輸出圖像、影片、語音、音樂、3D網格、藝術品等方面都依賴於一個叫做擴散的過程。

這不是最直觀的想法,但基本上是將噪音逐漸添加到媒體片段中,比如一張圖像,直到它變得無法辨認。這個過程被重複,以建立一個帶有噪音的媒體數據集。當擴散模型對此進行訓練時,它學會了如何逐步去除噪音,一步步地接近目標輸出的媒體片段(比如一張新圖像)。

擴散模型通常有一個稱為U-Net的「骨幹」,或者說引擎。U-Net骨幹學會估計需要移除的噪音,並且做得很好。但U-Net非常複雜,擁有特別設計的模塊,這可能會顯著拖慢擴散管道的速度。

幸運的是,變壓器可以取代U-Net,並在此過程中提高效率和性能。

A Sora-generated video. Image Credits: OpenAI

變壓器是複雜推理任務的首選架構,驅動著GPT-4、Gemini和ChatGPT等模型。它們具有幾個獨特的特性,但變壓器最具代表性的特徵是它們的「注意機制」。對於每個輸入數據(在擴散的情況下,即圖像噪聲),變壓器衡量每個其他輸入的相關性(圖像中的其他噪聲),並從中獲取訊息以生成輸出(對圖像噪聲的估計)。

注意機制不僅使變壓器比其他模型架構更簡單,而且使架構可並行化。換句話說,可以使用更大的變壓器模型進行訓練,並在計算方面取得顯著但不是無法實現的增加。

謝信宣在接受TechCrunch的電子郵件訪談時表示:「變壓器對擴散過程的貢獻相當於引擎升級」。「引入變壓器...標誌著可擴展性和效果的重大飛躍。這在像Sora這樣的模型中尤其明顯,這些模型受益於對大量視頻數據的訓練,並利用大量的模型參數展示了在大規模應用變壓器時的轉化潛力。

Generated by Stable Diffusion 3. Image Credits: Stability AI

因此,鑑於擴散變壓器的概念已經存在一段時間,為什麼要花多年的時間才開始利用它們,如Sora和Stable Diffusion等項目?謝信宣認為,擁有可擴展的基本模型的重要性直到相對最近才浮出水面。

他說:「Sora團隊確實不遺餘力地展示了在大規模應用這種方法時可以做多少更多。他們幾乎已經明確表示,對於擴散模型來說,U-Net已經被淘汰,而變壓器從現在開始將成為主流」。

謝信宣表示,擴散變壓器應該是現有擴散模型的簡單替換,無論模型生成圖像、影片、語音還是其他形式的媒體。目前訓練擴散變壓器的過程可能會引入一些效率低下和性能下降,但謝信宣認為這可以在長期的視角下解決。

他說:「主要的觀點非常簡單明了:忘記U-Net,轉向變壓器,因為它們更快、更有效,而且更具可擴展性。我對將內容理解和創建領域融合到擴散變壓器框架中感興趣。目前,這些就像兩個不同的世界:一個是理解,另一個是創造。我設想未來這些方面將被整合,並且我認為實現這種整合需要標準化的基礎架構,而變壓器是此目的的理想候選者」。

如果Sora和Stable Diffusion 3.0預示了擴散變壓器的發展方向,那麼我們將迎來一場驚險刺激的旅程。

新聞原址: https://techcrunch.com/2024/02/28/diffusion-transformers-are-the-key-behind-openais-sora-and-theyre-set-to-upend-genai/