Google的「Gemini」AI演示揭露真實能力：基於靜態圖像和文字提示

Blog

December 10, 2023

重點摘要：

Google的AI演示影片「Gemini」在YouTube上獲得160萬次觀看，展示了AI對口頭提示和影像的實時回應，但事實上回應基於靜態圖像幀和文字提示。
影片中的AI表現包括識別橡皮鴨材料和追蹤球的位置，但實際上是通過向AI展示靜態圖像和提供文字提示來實現，而非AI對動態影片的直接反應。
Google透露，AI並未真正發明影片中展示的「猜國家」遊戲，而是根據給定指示和靜態圖像進行操作，這顯示其能力與OpenAI的GPT-4相似。

新聞內文：
Google展示其人工智慧（AI）模型的能力的一段影片，看起來似乎太美好而不真實，事實可能正是如此。這段名為Gemini的演示影片在YouTube上有160萬次觀看，展示了一場引人注目的對話，其中AI實時回應口頭提示和影像。

在影片描述中，Google表示並非一切如表面所見。為了演示的目的，它加快了回應速度。但Google也承認AI根本沒有對聲音或影片做出回應。在與演示同時發布的一篇部落格文章中，Google透露了影片的實際製作方式。隨後，正如彭博觀點首次報導的那樣，Google向BBC證實，事實上是通過「使用來自影片的靜態圖像幀，並透過文字提示」來引導AI的。

Google發言人表示：「我們的Gemini實際示範影片展示了Gemini的真實提示和輸出。我們製作這段影片是為了展示Gemini的能力範圍，並激發開發者的靈感」。

演示影片中，一位示範者向Google的AI展示螢幕上的物體，並提出一系列問題。例如，在一個時刻，示範者拿起一隻橡皮鴨並問Gemini是否會漂浮。最初，AI不確定它是由什麼材料製成，但在人擠壓它並發出吱吱聲後，AI正確識別了該物體。

然而，影片中一開始看似發生的事情與實際生成提示的方式非常不同。AI實際上被顯示了鴨子的靜態圖像，並被問及它是由什麼材料製成。然後，它被提供了一個文字提示，解釋鴨子在被擠壓時會發出吱吱聲，從而做出正確識別。

在另一個令人印象深刻的時刻中，演示者進行了一個杯子和球的魔術，一個將球藏在三個移動的杯子下的魔術。AI能夠確定它移動到了哪裡。但同樣，由於AI沒有對影片作出回應，這實際上是通過向它顯示一系列靜態圖像實現的。在其部落格文章中，Google解釋說，實際上它告訴AI在三個杯子下有一個球，並展示了代表杯子被交換的圖像。

演示者進行了一個杯子和球的魔術，一個將球藏在三個移動的杯子下的魔術

Google澄清，該示範是透過捕捉影片中的鏡頭創作的，以便「在各種挑戰上測試Gemini的能力」。雖然序列被縮短且使用了靜態圖像，但影片中的旁白直接來自輸入Gemini的書面提示。

但影片中還有另一個元素進一步拉伸了真相。在某一點，使用者放下一張世界地圖，並問AI：「根據你所看到的，想出一個遊戲點子……並使用表情符號」。AI回應，似乎發明了一個名為「猜國家」的遊戲，在這個遊戲中，它提供線索（例如袋鼠和考拉），並對使用者指向一個國家（在這個案例中，是澳大利亞）的正確猜測做出回應。

但事實上，根據Google的部落格，AI根本沒有發明這個遊戲。相反的，AI被給予了以下指示：「我們來玩一個遊戲。想一個國家並給我一個線索。線索必須足夠具體，以至於只有一個正確的國家。我將嘗試在地圖上指向該國家」。使用者然後給AI提供了正確和錯誤答案的例子。在此之後，Gemini能夠生成線索，並從地圖的靜態圖像中識別出使用者是否指向了正確的國家。

這很令人印象深刻，但這並不等同於聲稱AI發明了這個遊戲。Google的AI模型不論是使用靜態圖像還是基於文字的提示都很令人印象深刻，但這些事實意味著其能力與OpenAI的GPT-4非常相似。

值得注意的是，這段影片是在OpenAI的Sam Altman作為執行長被戲劇性解雇後的混亂期兩週後發布的。目前尚不清楚兩者哪一個更先進，但Google可能已經在追趕，因為Altman告訴《金融時報》該公司正在開發其AI的下一個版本。

新聞原址： https://www.bbc.com/news/technology-67650807

Watch more News：

AI模型能夠從健康個體的胸部X光片中去估算年齡
AI在手術中即時解碼腦瘤DNA，以實現實時診斷
AI熱潮席捲全球：四個重點，教你如何鎖定在生成式AI領域的工作機會
Google正在探索為新聞工作者開發AI工具，並也正與出版商進行對話中
Layla：創新AI聊天機器人，開創個性化旅行規劃新時代