Blog

OpenAI Sora模型突破性能力:模擬數位世界展現超強創造力

Blog Image
OpenAI Sora模型突破性能力:模擬數位世界展現超強創造力

February 19, 2024

重點摘要:

  1. Sora模型的超強能力:Sora模型不僅能夠生成高分辨率影片,還能執行多種影像和影片編輯任務,從創造循環影片到修改影片內容。
  2. 模擬數位世界:Sora展現出模擬數位世界的能力,例如根據提示生成類似Minecraft的遊戲,包括動態和物理效應,展示其作為一個高效模擬器的潛力。
  3. 數據驅動的物理引擎:Sora更像是一個數據驅動的物理引擎,確定環境中物體的物理特性並進行渲染,而不僅僅是生成圖像或影片。



新聞內文:

OpenAI的新模型Sora能夠實現一些真正令人印象深刻的電影特技。但根據前幾天發表的一篇技術論文來看,這個模型的能力甚至比OpenAI最初宣稱的還要強大。

這篇名為《作為世界模擬器的視頻生成模型》的論文由一眾OpenAI研究人員合著,揭示了Sora架構的一些關鍵方面,例如揭示了Sora能夠生成任意分辨率和長寬比(高達1080p)的影片。根據該論文,Sora能夠執行一系列圖像和影片編輯任務,從創造循環影片到將影片向前或向後延長到更改現有影片中的背景等。

但對我來說,最引人注目的是Sora的「模擬數位世界」的能力,正如OpenAI的合著者所說。在一個實驗中,OpenAI給Sora提供了包含「Minecraft」一詞的提示,並讓其渲染出一個令人信服的類似Minecraft的HUD和遊戲,以及遊戲的動態,包括物理效應,同時控制玩家角色。



那麼,Sora是如何做到這一點的呢?根據Nvidia高級研究員吉姆·范(Jim Fan)的觀察(透過Quartz),Sora更像是一個「數據驅動的物理引擎」,而不是一個創造性的工具。它不僅僅是生成一張照片或影片,而是確定環境中每個物體的物理特性,並根據這些計算渲染一張照片或影片(或者根據情況可能是一個交互式的3D世界)。

OpenAI的合著者寫道:「這些能力表明,持續擴展視頻模型是朝著發展高能力的物理和數位世界的高效模擬器,以及其中的物體、動物和人的方向邁出的一條有希望的道路」。

現在,在影片遊戲領域中,Sora的通常限制仍然存在。該模型無法準確地模擬基本交互的物理現象,例如「玻璃破碎」。即使在它可以模擬的交互中,Sora通常也不夠一致,例如渲染一個人吃漢堡卻無法渲染出咬痕。

儘管如此,如果我正確理解這篇論文,似乎Sora可能為從僅憑文本描述生成更加真實、甚至逼真的程式生成遊戲打開了道路。這同時令人興奮和害怕(考慮到深度偽造的影響,這是值得關注的)。這可能就是為什麼OpenAI目前選擇將Sora限制在一個非常有限的使用計劃之後的原因。

希望我們能盡快了解更多。

新聞原址: https://techcrunch.com/2024/02/15/openais-sora-video-generating-model-can-render-video-games-too/