Blog

AI技術新突破:Animate Anyone將靜態圖像轉化為逼真動態影片

Blog Image
AI技術新突破:Animate Anyone將靜態圖像轉化為逼真動態影片

December 5, 2023

重點摘要:
  1. 阿里巴巴智慧計算研究所開發一種新的生成式影片技術「Animate Anyone」,能夠更逼真地操縱人物動作,這是對以前的圖像到影片系統的重大進步。
  2. 「Animate Anyone」技術透過從參考圖像提取細節(如面部特徵、圖案和姿勢),然後創作一系列圖像,將這些細節映射到略微不同的姿勢上,從而創造出更自然的動態影像。
  3. 雖然技術仍存在挑戰,特別是在眼睛和手部細節上,但它在保留基本和細微細節方面有了顯著改進,相較於以前的技術,生成的影像品質大大提高。



新聞內文:
靜止圖像的深度偽造已經夠糟糕了,我們可能很快就不得不應對任何敢在線上放照片的人的生成式影片:有了「Animate Anyone」,惡意行為者可以比以往更好地操縱人。

這種新的生成式影片技術是由阿里巴巴集團智慧計算研究所的研究人員開發的。它是對以前的圖像到影片系統(如DisCo和DreamPose)的一大進步,儘管這些系統在夏季時令人印象深刻,但現在已經過時了。

「Animate Anyone」所能做的事情不是無前例的,但已經跨越了「拙劣的學術實驗」和「如果你不仔細看的話還不錯」的困難階段。正如我們都知道的,下一階段只是「足夠好」,人們甚至不會麻煩仔細觀察,因為他們認為它是真實的。目前靜止圖像和文字對話正處於這個階段,對我們的現實感造成了破壞。

像這樣的圖像到影片模型首先從參考圖像中提取細節,如面部特徵、圖案和姿勢,比如一張模特穿著待售裙子的時尚照片。然後創作一系列圖像,其中這些細節被映射到略微不同的姿勢上,這些姿勢可以被捕捉,或者它們本身可以從另一個影片中提取。

以前的模型顯示,這是可能的,但存在很多問題。幻覺是一個大問題,因為模型必須創造出合理的細節,比如當一個人轉身時,袖子或頭髮可能會如何移動。這導致了很多非常奇怪的圖像,使得最終的影片遠非令人信服。但這種可能性仍然存在,而「Animate Anyone」在很大程度上有所改進,儘管仍然遠非完美。

新模型的技術細節超出了大多數人的理解,但論文強調了一個新的中間步驟,它「使模型能夠在一個一致的特徵空間中全面學習與參考圖像的關係,這在提高外觀細節保存方面有很大幫助」。透過改進基本細節和精細細節的保留,後續生成的圖像有更強的真實基準可以工作,效果更好。

時尚模特在不變形或衣服失去圖案的情況下採取任意姿勢。

他們展示了一些上下文中的結果。時尚模特在不變形或衣服失去圖案的情況下採取任意姿勢。一個2D的動畫角色變得生動,並且能夠逼真地跳舞。里奧內爾·梅西(Lionel Messi)進行一些通用的動作。

它們離完美還有很大距離,特別是眼睛和手,對於生成式模型來說,這些部位可能特別麻煩。而且最好呈現的姿勢是最接近原來的姿勢;如果一個人轉身,模型將難以跟上。但它相對於以前的技術水平來說是一個巨大的飛躍,以前的技術會產生更多的瑕疵,或者完全丟失一個人的頭髮顏色或衣物等重要細節。



想想一下,假設有一張高品質的照片,惡意行為者(或製片人)可以讓你做任何事情,再加上面部動畫和語音捕捉技術,他們還可以讓你同時表達任何事情。目前,這種技術對於一般用途來說過於複雜且有缺陷,但在AI領域,事情不會保持不變。

至少,該團隊尚未將代碼公開到網路上。雖然他們有一個GitHub頁面,但開發人員寫道:「我們正在積極準備公開發布演示和代碼。雖然我們目前不能確定具體的發布日期,但請確保我們提供演示和我們的源代碼的意圖是堅定的」。

當網路突然充斥著偽造舞蹈影片時,會不會出現混亂?我們將找出答案,而且可能比我們希望的要早。

新聞原址: https://techcrunch.com/2023/12/04/animate-anyone-heralds-the-approach-of-full-motion-deepfakes/