Blog

Meta揭露全新的AI影像生成模型CM3leon,大力宣揚其更高效的性能

Blog Image
Meta揭露全新的AI影像生成模型CM3leon,大力宣揚其更高效的性能

July 18, 2023

Meta持續推進新型生成AI模型的研究,今天揭露了最新的努力成果,名為CM3leon(讀音類似於“變色龍”)。

CM3leon是一種多模態基礎模型,用於文本到圖像的創建,以及圖像到文本的創建,這對於自動生成圖像的標題非常有用。



此刻,AI生成的圖像顯然已不是新概念,像是廣受歡迎的Stable Diffusion、DALL-E 和Midjourney等工具已經廣泛可用。

然而新的是Meta建立CM3leon所使用的技術,以及Meta聲稱該基礎模型能夠達到的性能。

今天的文本到圖像生成技術大多依賴於使用擴散模型(這也是Stable Diffusion得名的地方)來創建圖像。CM3leon正在使用不同的東西:一種基於標記的自我迴歸模型。

Meta研究團隊在一篇題為「縮放自我迴歸多模式模型:預訓練和指令調校」的研究論文中寫道:“由於其強大的性能和相對適中的計算成本,擴散模型近期已經主導了圖像生成工作。相比之下,基於標記的自我迴歸模型也被知道可以產生強大的結果,特別是在全局圖像的連貫性上更好,但訓練和用於推理的成本更高。”

Meta的研究人員已經能夠利用CM3leon展示出基於標記的自我迴歸模型實際上可以比基於擴散模型的方法更有效。

“儘管CM3leon的訓練計算量比先前的基於變換器的方法少了五倍,但它仍實現了文本到圖像生成的最先進性能。”Meta的研究人員在一篇部落格文章中寫道。

Meta對影像訓練的「道德」方法
CM3leon的基本架構與現有的文本生成模型的工作方式有些相似。

Meta研究人員從增強檢索的預訓練階段開始。與其僅僅從互聯網上抓取公開可用的圖像(這種方法對於基於擴散的模型來說引發了一些法律挑戰),Meta選擇了一條不同的道路。

Meta的研究論文中寫道:“在文本到圖像生成領域中,影像數據採集的道德問題已經引起了大量的爭論。在本研究中,我們只使用來自Shutterstock的授權圖像。因此,我們可以避免與圖像所有權和屬性相關的疑慮,而不會犧牲性能。”

預訓練之後,CM3leon模型經過一個被Meta研究人員稱為可以產生高度優化結果的監督細調(SFT)階段,無論是在資源利用或圖像品質方面。SFT是OpenAI用來幫助訓練ChatGPT的一種方法。Meta在其研究論文中指出,SFT被用來訓練模型理解複雜的提示,這對於生成任務非常有用。

該論文指出:“我們發現,指令調校顯著提高了多模態模型在各種任務中的性能,例如圖像標題生成、視覺問題解答、基於文本的編輯,以及條件圖像生成。”

看看Meta在其關於CM3leon的部落格文章中分享的生成圖像的樣本集,結果令人印象深刻,清楚地展示了該模型理解複雜、多階段提示的能力,結果生成了極高解析度的圖像。

目前,CM3leon還是一項研究,尚不清楚Meta何時或是否將在其平台的一項服務中公開這項技術。考慮到它似乎如此強大,並且生成的效率更高,CM3leon及其對於生成AI的方法最終可能會超越現階段的研究。


新聞原址: Meta reveals new AI image generation model CM3leon, touting greater efficiency | VentureBeat