Google發布Gemini：多模態AI的新紀元，挑戰OpenAI的GPT-4霸主地位

Blog

December 7, 2023

重點摘要：

Google推出了名為「Gemini」的新一代多模態AI模型，作為對OpenAI的GPT-4的回應，由DeepMind和Google Brain的合併團隊開發。
Gemini能夠處理多種數據類型，包括圖像、文本、語音、影片和編程語言，並將提供三種不同尺寸的版本：Ultra、Pro和Nano。
Gemini的開發受到AlphaGo的啟發，結合了AlphaGo的技術優勢和大型模型的語言能力，並在早期版本中展示了優於GPT-4的潛力。

新聞內文：
Google終於公開了Gemini，這是對OpenAI的GPT-4的回應。

這項技術是由從Google的DeepMind和Google Brain合併後招募的團隊的研究人員開發的下一代多模態AI模型。

該模型被宣傳為自然語言處理的重大進展，Google稱其為「我們有史以來最大的科學和工專案」。

使用者可以在本月使用Gemini，更高階的版本預計將於明年初推出。

長期以來，這一發布一直受到科技界的密切關注，許多人在猜測該模型是否能夠超越其主要競爭對手OpenAI的大型語言模型GPT-4。

一份早期宣布Google的AI優越性超越GPT-4的分析引發了一場激烈的網路辯論，甚至吸引了OpenAI的CEO Sam Altman參與其中。

該模型有三個「大小」，將分階段推出。以下是我們目前了解的情況。

Gemini是多模態的
Google的Gemini是一個多模態AI，這意味著它可以處理多種數據類型。

該模型可以處理圖像、文本、語音、影片和編程語言。這種新功能允許進行對視覺圖表的書面分析等功能。

此前有報導指出，這家科技龍頭還在提升技術的代碼生成能力，以應對由OpenAI提供支持的Microsoft GitHub Copilot。

模型的第一個版本Gemini 1.0，經過了三種尺寸的優化：Gemini Ultra、Pro和Nano。

受AlphaGo啟發
Gemini要歸功於AlphaGo，這是由Google的DeepMind開發的，成為了第一個擊敗職業人類圍棋選手的計算機程序。 2016年，AlphaGo在自己的領域擊敗了李世乭，這位世界上最偉大的圍棋選手之一。

DeepMind的老闆Demis Hassabis在今年6月告訴Wired，AlphaGo中使用的技術將與ChatGPT的技術相結合。

他說：「從較高的層面來看，您可以將Gemini視為結合了AlphaGo類型系統的某些優勢和大型模型的驚人語言能力」。

早期版本
據The Information報導，Google在九月份開始向一小部分公司提供了該模型的早期版本。

之前曾測試過該技術的一位人士告訴該出口，它可能具有優於GPT-4的優勢，因為它利用了Google的消費產品數據以及從網路上收集的訊息。該報導稱，這一添加應該意味著該模型可以更準確地理解使用者的意圖。

該人還表示，該模型似乎生成的錯誤答案較少，這在人工智慧中是一個常見的問題，被稱為「幻覺」。已知AI驅動的聊天機器人曾經以錯誤的訊息呈現不正確的答案。今年2月，Google的ChatGPT競爭對手Bard的廣告展示了AI聊天機器人給出不正確的答案。

SemiAnalysis部落格背後的研究人員還預測，由於Google可以獲得一流晶片，所以Google的Gemini可能會優於GPT-4。

總之，Gemini的發布被認為是自然語言處理領域的一個重大突破，它將競爭激烈的AI領域推向了一個新的水平。該模型具有多模態能力，並有望在各種應用中取得成功。

新聞原址： https://www.businessinsider.com/google-gemini-explainer-ai-model-2023-9

Watch more News：

Anthropic推出速度最快的人工智慧模型「Claude 3」，首次支持多模式功能
斯坦福大學和Meta研究團隊開發突破性AI：實現語言驅動的虛擬人物互動
科技龍頭Meta和Salesforce的人才再度招募：被裁員工面對回任的難題與機會
民主危機：AI生成偽造訊息襲擊全球選舉
前Coinbase成員推出Dili：自動化投資盡職調查引領新趨勢