Blog

OpenAI新作「Sora」驚艷亮相,研究預覽引警

Blog Image
OpenAI新作「Sora」驚艷亮相,研究預覽引警

February 18, 2024

重點摘要:

  1. OpenAI推出「Sora」:文字生成高品質影片模型登場。
  2. Sora驚艷亮相:一句描述即可創作多角色動態影片。
  3. OpenAI警告:生成式影片模型「Sora」存在潛在濫用風險。



新聞內文:

OpenAI推出了名為「Sora」的生成式人工智慧模型,這款模型可以根據文字創作影片。OpenAI宣稱,只要給予簡短或詳細的描述,又或是一張靜態圖像,Sora就能夠生成多個角色、不同類型的動作和背景細節的高畫質影片場景。

Sora還可以「擴展」現有的影片片段,盡其所能的填補缺失細節。

OpenAI在一篇部落格文章中寫道:「Sora對語言有深刻的理解,使其能夠準確解釋提示,並生成表現生動情感的引人入勝的角色。該模型不僅了解使用者在提示中要求的內容,還了解這些事物在物理世界中的存在方式」。

現在,在OpenAI為Sora的演示頁面上有很多誇張的詞句,上述語句就是一個例子。但從模型挑選出來的樣本看起來相當令人印象深刻,至少與我們之前見過的其他文本到影片技術相比是這樣。

首先,Sora可以以多種風格(例如逼真、動畫、黑白)生成長達一分鐘的影片,遠遠超過大多數文本到影片模型。而且這些影片在某種程度上保持了合理的連貫性,即它們不總是陷入我喜歡稱之為「AI怪異」的狀況,比如物體會以不可能的方向移動。

看看這個由Sora生成的美術館導覽(請忽略顆粒感,這來自我的影片-GIF轉換工具的壓縮):

看看這個由Sora生成的美術館導覽

或是這個花朵綻放的動畫:

或是這個花朵綻放的動畫

我得說,有些Sora的影片中,人型主題的影片,比如「一個機器人站在城市的背景前」,或者「一個人走在雪地小徑上」,都帶有一種類似電子遊戲的質感,也許是因為背景中沒有太多活動。除此之外,許多片段都受到了AI奇異現象的影響,比如汽車向一個方向行駛,然後突然倒車,或是手臂融入了背景中。

OpenAI雖然對Sora的模型充滿了讚美,但也承認它並非完美無缺。

OpenAI雖然對Sora的模型充滿了讚美,但也承認它並非完美無缺。他們寫道:「Sora可能在準確模擬複雜場景的物理情況上會遇到困難,並且可能無法理解特定的因果關係。例如,一個人可能會咬一口餅乾,但之後餅乾上可能沒有咬痕。模型還可能混淆提示的空間細節,例如混淆左右,並且可能在隨時間推移發生的事件的精確描述方面遇到困難,例如跟隨特定的攝影機軌跡」。

OpenAI將Sora定位為一個研究預覽,並且對訓練模型使用的數據(除了約10,000小時的「高品質」影片)透露甚少,也不會使Sora普及。其理由是潛在的濫用風險;OpenAI正確指出,惡意使用者可能以各種方式濫用Sora這樣的模型。

OpenAI表示,他們正在與專家合作,探索模型的漏洞,並建立工具來檢測視頻是否由Sora生成。該公司還表示,如果選擇將該模型建立為面向公眾的產品,將確保生成的輸出中包含來源元數據。

「我們將與全球的政策制定者、教育工作者和藝術家展開合作,以了解他們的擔憂,並找出這項新技術的正面用例。儘管進行了大量的研究和測試,我們無法預測人們將如何使用我們的技術,以及人們將如何濫用它。這就是為什麼我們相信,從現實世界的使用中學習是創作,並隨著時間推移將逐漸釋放越來越安全的人工智慧系統的關鍵組成部分」。

新聞原址: https://techcrunch.com/2024/02/15/openais-newest-model-can-generate-videos-and-they-look-decent/