Google的Gemini：一個全新的AI巨人，挑戰GPT-4並超越人類專家

Blog

December 10, 2023

重點摘要：

Google推出了名為「Gemini」的新AI模型，包含三種不同大小和功能的版本，其中Gemini Ultra在多個方面優於GPT-4。
Gemini Ultra在「Massive Multitask Language Understanding」（MMLU）測試上得分90%，超越了人類專家和GPT-4的得分。
Gemini的多模態設計使其能夠更好地理解多種數據類型，但其準確性和幻覺問題仍待觀察。

新聞內文：
本週，Google推出了「Gemini」，它已經看起來像是OpenAI的「GPT-4」的一個極具競爭力的對手。

Gemini包含三種不同的模型，其大小和功能各不相同。Google在其公告中表示，其最先進的模型 Gemini Ultra（目前尚未向公眾提供，但設計用於「高度複雜的任務」）在多個方面都優於 GPT-4，包括對歷史和法律等主題的知識、生成Python代碼以及需要多步推理的任務。

Google表示，Gemini在「Massive Multitask Language Understanding」測試（MMLU）上超越了GPT-4，這是一種用於衡量AI模型知識和解決問題能力的最流行方法之一。The New York Times的科技部落客Hard Fork上的Kevin Roose 將其比作「AI模型的SAT考試」。然而，根據Google 的公告，MMLU稍微比典型的大學預備考試更高級。它涵蓋了57個科目，包括數學、物理、歷史、法律、醫學和倫理學，以測試世界知識和解決問題能力。

根據Google 的說法，Gemini Ultra在MMLU上得分為90％，而GPT-4得分為86.4％。

但Gemini Ultra更令人印象深刻的成就可能是，它也是第一個在MMLU上超越人類專家的模型。根據 Google在Gemini的技術報告中的說法，人類專家的得分約為89.8％。

Roose說：「我想，即使是在兩三年前，如果告訴AI研究人員，Google將有一個在MMLU上獲得90％的模型，優於人類專家的基準閾值，他們可能會說，那就是AGI」。AGI，或通用人工智慧，是一種假設的人工智慧形式，它可以處理像常識和意識這樣的複雜人類能力。

根據 Google 的說法，GPT-4在常識推理能力方面的日常任務中超越了Gemini Ultra數個百分點。

但Google表示，Gemini具有的優勢之一是它天生支援多模態，這意味著它從一開始就被設計用於處理多種數據類型，從文本到音訊、代碼、圖像和影片。Google的DeepMind研究副總裁奧里奧爾·維尼亞爾斯在一個宣布Gemini的影片中表示，其他多模態模型是透過「拼湊」文本、視覺和音訊模型而創建的，這種方法「次優」。

因此，Google表示，Gemini的設計使其能夠比現有的多模態模型更好地理解輸入。SemiAnalysis部落格的研究人員也表示，由於計算能力強大，Gemini很可能會「壓倒性地」擊敗GPT-4。

雖然Gemini Ultra的到來確實為其設定了高期望，但人們對Gemini模型三重奏將如何與已經在消費者意識方面具有優勢的OpenAI競爭仍然持觀望態度。

對於不那麼先進的Gemini Pro，這個模型可以透過Google的聊天機器人「Bard」使用，早期反饋是積極的。然而，該模型在準確性和幻覺方面也存在問題。它甚至告訴人們對有爭議的問題求助於Google。

Google和OpenAI未對Business Insider的評論請求做出回應。

新聞原址： https://www.businessinsider.com/gemini-ultra-google-ai-smarter-than-openai-gpt-4-2023-12

Watch more News：

研究人員發現，ChatGPT擅長以風格取勝，讓人們以為它很聰明
英國最高法院裁決AI無法成為發明者，確認專利申請人必須是人類
Meta加速推廣AI服務，將Llama 3融入四大應用程式搜索欄
Nvidia 推出的 FlexiCubes 利用生成式人工智慧來創造 3D 網格。
Betaworks雙倍吸引力：擴增式AI加速器為未來工作流程鋪平道路