Blog

Google的「Gemini」AI演示揭露真實能力:基於靜態圖像和文字提示

Blog Image
Google的「Gemini」AI演示揭露真實能力:基於靜態圖像和文字提示

December 10, 2023

重點摘要:
  1. Google的AI演示影片「Gemini」在YouTube上獲得160萬次觀看,展示了AI對口頭提示和影像的實時回應,但事實上回應基於靜態圖像幀和文字提示。
  2. 影片中的AI表現包括識別橡皮鴨材料和追蹤球的位置,但實際上是通過向AI展示靜態圖像和提供文字提示來實現,而非AI對動態影片的直接反應。
  3. Google透露,AI並未真正發明影片中展示的「猜國家」遊戲,而是根據給定指示和靜態圖像進行操作,這顯示其能力與OpenAI的GPT-4相似。



新聞內文:
Google展示其人工智慧(AI)模型的能力的一段影片,看起來似乎太美好而不真實,事實可能正是如此。這段名為Gemini的演示影片在YouTube上有160萬次觀看,展示了一場引人注目的對話,其中AI實時回應口頭提示和影像。

在影片描述中,Google表示並非一切如表面所見。為了演示的目的,它加快了回應速度。但Google也承認AI根本沒有對聲音或影片做出回應。在與演示同時發布的一篇部落格文章中,Google透露了影片的實際製作方式。隨後,正如彭博觀點首次報導的那樣,Google向BBC證實,事實上是通過「使用來自影片的靜態圖像幀,並透過文字提示」來引導AI的。

Google發言人表示:「我們的Gemini實際示範影片展示了Gemini的真實提示和輸出。我們製作這段影片是為了展示Gemini的能力範圍,並激發開發者的靈感」。

演示影片中,一位示範者向Google的AI展示螢幕上的物體,並提出一系列問題。例如,在一個時刻,示範者拿起一隻橡皮鴨並問Gemini是否會漂浮。最初,AI不確定它是由什麼材料製成,但在人擠壓它並發出吱吱聲後,AI正確識別了該物體。

然而,影片中一開始看似發生的事情與實際生成提示的方式非常不同。AI實際上被顯示了鴨子的靜態圖像,並被問及它是由什麼材料製成。然後,它被提供了一個文字提示,解釋鴨子在被擠壓時會發出吱吱聲,從而做出正確識別。

在另一個令人印象深刻的時刻中,演示者進行了一個杯子和球的魔術,一個將球藏在三個移動的杯子下的魔術。AI能夠確定它移動到了哪裡。但同樣,由於AI沒有對影片作出回應,這實際上是通過向它顯示一系列靜態圖像實現的。在其部落格文章中,Google解釋說,實際上它告訴AI在三個杯子下有一個球,並展示了代表杯子被交換的圖像。

演示者進行了一個杯子和球的魔術,一個將球藏在三個移動的杯子下的魔術

Google澄清,該示範是透過捕捉影片中的鏡頭創作的,以便「在各種挑戰上測試Gemini的能力」。雖然序列被縮短且使用了靜態圖像,但影片中的旁白直接來自輸入Gemini的書面提示。

但影片中還有另一個元素進一步拉伸了真相。在某一點,使用者放下一張世界地圖,並問AI:「根據你所看到的,想出一個遊戲點子……並使用表情符號」。AI回應,似乎發明了一個名為「猜國家」的遊戲,在這個遊戲中,它提供線索(例如袋鼠和考拉),並對使用者指向一個國家(在這個案例中,是澳大利亞)的正確猜測做出回應。

我們來玩一個遊戲。想一個國家並給我一個線索。線索必須足夠具體,以至於只有一個正確的國家。我將嘗試在地圖上指向該國家

但事實上,根據Google的部落格,AI根本沒有發明這個遊戲。相反的,AI被給予了以下指示:「我們來玩一個遊戲。想一個國家並給我一個線索。線索必須足夠具體,以至於只有一個正確的國家。我將嘗試在地圖上指向該國家」。使用者然後給AI提供了正確和錯誤答案的例子。在此之後,Gemini能夠生成線索,並從地圖的靜態圖像中識別出使用者是否指向了正確的國家。

這很令人印象深刻,但這並不等同於聲稱AI發明了這個遊戲。Google的AI模型不論是使用靜態圖像還是基於文字的提示都很令人印象深刻,但這些事實意味著其能力與OpenAI的GPT-4非常相似。

值得注意的是,這段影片是在OpenAI的Sam Altman作為執行長被戲劇性解雇後的混亂期兩週後發布的。目前尚不清楚兩者哪一個更先進,但Google可能已經在追趕,因為Altman告訴《金融時報》該公司正在開發其AI的下一個版本。

新聞原址: https://www.bbc.com/news/technology-67650807