Blog

Google的Gemini:一個全新的AI巨人,挑戰GPT-4並超越人類專家

Blog Image
Google的Gemini:一個全新的AI巨人,挑戰GPT-4並超越人類專家

December 10, 2023

重點摘要:
  1. Google推出了名為「Gemini」的新AI模型,包含三種不同大小和功能的版本,其中Gemini Ultra在多個方面優於GPT-4。
  2. Gemini Ultra在「Massive Multitask Language Understanding」(MMLU)測試上得分90%,超越了人類專家和GPT-4的得分。
  3. Gemini的多模態設計使其能夠更好地理解多種數據類型,但其準確性和幻覺問題仍待觀察。



新聞內文:
本週,Google推出了「Gemini」,它已經看起來像是OpenAI的「GPT-4」的一個極具競爭力的對手。

Gemini包含三種不同的模型,其大小和功能各不相同。Google在其公告中表示,其最先進的模型 Gemini Ultra(目前尚未向公眾提供,但設計用於 「高度複雜的任務」)在多個方面都優於 GPT-4,包括對歷史和法律等主題的知識、生成Python代碼以及需要多步推理的任務。

Google表示,Gemini在「Massive Multitask Language Understanding」測試(MMLU)上超越了GPT-4,這是一種用於衡量AI模型知識和解決問題能力的最流行方法之一。The New York Times的科技部落客Hard Fork上的Kevin Roose 將其比作 「AI模型的SAT考試」。然而,根據Google 的公告,MMLU稍微比典型的大學預備考試更高級。它涵蓋了57個科目,包括數學、物理、歷史、法律、醫學和倫理學,以測試世界知識和解決問題能力。

根據Google 的說法,Gemini Ultra在MMLU上得分為90%,而GPT-4得分為86.4%。

但Gemini Ultra更令人印象深刻的成就可能是,它也是第一個在MMLU上超越人類專家的模型。根據 Google在Gemini的技術報告中的說法,人類專家的得分約為89.8%。

Roose說:「我想,即使是在兩三年前,如果告訴AI研究人員,Google將有一個在MMLU上獲得90%的模型,優於人類專家的基準閾值,他們可能會說,那就是AGI」。AGI,或通用人工智慧,是一種假設的人工智慧形式,它可以處理像常識和意識這樣的複雜人類能力。

根據 Google 的說法,GPT-4在常識推理能力方面的日常任務中超越了Gemini Ultra數個百分點。

但Google表示,Gemini具有的優勢之一是它天生支援多模態,這意味著它從一開始就被設計用於處理多種數據類型,從文本到音訊、代碼、圖像和影片。Google的DeepMind研究副總裁奧里奧爾·維尼亞爾斯在一個宣布Gemini的影片中表示,其他多模態模型是透過「拼湊」文本、視覺和音訊模型而創建的,這種方法「次優」。

因此,Google表示,Gemini的設計使其能夠比現有的多模態模型更好地理解輸入。SemiAnalysis部落格的研究人員也表示,由於計算能力強大,Gemini很可能會「壓倒性地」擊敗GPT-4。

雖然Gemini Ultra的到來確實為其設定了高期望,但人們對Gemini模型三重奏將如何與已經在消費者意識方面具有優勢的OpenAI競爭仍然持觀望態度。

對於不那麼先進的Gemini Pro,這個模型可以透過Google的聊天機器人「Bard」使用,早期反饋是積極的。然而,該模型在準確性和幻覺方面也存在問題。它甚至告訴人們對有爭議的問題求助於Google。

Google和OpenAI未對Business Insider的評論請求做出回應。

新聞原址: https://www.businessinsider.com/gemini-ultra-google-ai-smarter-than-openai-gpt-4-2023-12