Google推出全新多模態AI平台Gemini，旨在提升跨媒介應用與準確性

Blog

January 8, 2024

重點摘要：

Google的新生成式AI平台Gemini包括三種模型：Gemini Ultra、Gemini Pro和Gemini Nano。它們由DeepMind和Google Research共同開發，並訓練為能處理多種模態，包括語音、圖像和文本。
Gemini與Google早期的AI模型LaMDA不同，因為Gemini不僅限於文本，而且能處理其他模態。Gemini Pro已在Bard和Vertex AI中公開使用，而Gemini Ultra則是更大型的基礎模型，目前僅供選定客戶使用。
Gemini模型可以應用於各種任務，如錄音機中的語音轉錄和總結、Gboard中的智慧回覆以及在Vertex AI中的聊天機器人和搜索摘要功能。Gemini的功能和準確性仍待進一步驗證。

新聞內文：
Google正在努力推廣其新的生成式人工智慧平台Gemini，這個平台最近剛剛首次亮相。雖然Gemini在某些方面顯得有前景，但在其他方面卻有所不足。那麼，Gemini是什麼？你怎麼使用它？它與競爭對手相比如何？

為了讓您更容易跟上Gemini最新的發展，我們整理了這份實用指南，並將隨著新的Gemini模型和功能的發布而持續更新。

什麼是Gemini？
「Gemini」是Google長期承諾的下一代生成式人工智慧模型家族，由Google 的人工智慧研究實驗室DeepMind和Google Research開發。它有三種形式：

Gemini Ultra，旗艦型Gemini模型
Gemini Pro，輕量型Gemini模型
Gemini Nano，較小的「精煉」模型，可在像 Pixel 8 Pro 這樣的移動設備上運行

所有 Gemini 模型都被訓練成「本地多模態」的。換句話說，能夠使用並處理不僅僅是文本的多種模式。它們在大量的語音、圖像、影片、大量代碼庫以及不同語言的文本上進行了預訓練和微調。

這使Gemini與如Google自家的大型語言模型LaMDA不同，LaMDA只在文本數據上進行了訓練。LaMDA無法理解或生成除了文本（如論文、電子郵件草稿等）之外的任何東西，但Gemini模型不是這樣。它們對圖像、語音和其他模態的理解能力仍然有限，但總比沒有好。

「Bard」和「Gemini」有什麼不同？

Google再次證明了它在品牌命名方面缺乏天賦，並沒有一開始就清楚地表明Gemini與Bard是分開且獨立的。「Bard」僅僅是一個可以訪問某些Gemini模型的接口，可以認為它是Gemini和其他生成式AI模型的「應用程式或客戶端」。另一方面，Gemini是一個模型家族，不是應用程式或前端。不太可能會有獨立Gemini體驗。如果與OpenAI的產品進行比較，Bard對應於ChatGPT，OpenAI 的流行會話AI應用程式，而Gemini則對應於為其提供動力的語言模型，在ChatGPT的情況下是「GPT-3.5」或「GPT-4」。

順便說一下，Gemini也與文本到圖像模型「Imagen-2」完全獨立，後者可能與該公司的整體AI策略相吻合或不吻合。不要擔心，你並不是唯一一個對此感到困惑的人！

Gemini能做什麼？
由於Gemini模型是多模態的，理論上它們可以執行一系列任務，從轉錄語音到標記圖像和影片，到生成藝術作品。這些功能中的少數已經達到了產品階段（稍後會有更多資訊），但Google承諾所有這些功能在不久的將來都會實現。

當然，有點難以對Google的話信以為真。

Google 在最初的Bard啟動中嚴重交付不足。更近期，它因一段聲稱展示了 Gemini能力的影片，該影片被大量修飾，幾乎完全是理想化的，而引起了爭議。Gemini確實在今天以某種形式存在，但形式相當有限。

不過，假設Google在其聲明中或多或少是真誠的，以下是一旦發布，不同層次的Gemini模型將能夠做到的事情：

「Gemini Ultra」
到目前為止，很少有人能夠接觸到Gemini Ultra，這是其他模型建立的「基礎」模型，只有「選定的」客戶群在幾個Google應用程式和服務中有機會使用。這種情況不會改變，直到近期Google最大的模型更廣泛地推出。關於Ultra的大部分資訊來自Google主導的產品演示，所以最好帶著一粒鹽來看待。

Google說，Gemini Ultra可以用來幫助完成物理作業，例如在工作表上逐步解決問題，指出已填寫答案中可能的錯誤。Google還表示，Gemini Ultra也可以應用於識別與特定問題相關的科學論文

從這些論文中提取訊息並「更新」圖表，透過生成必要的公式來使用最新數據重新創造圖表。

Gemini Ultra在技術上支持圖像生成，正如前面提到的。但根據Google的說法，該功能在產品化版本的模型發布時不會出現。也許是因為該機制比例如 ChatGPT生成圖像的應用程式更複雜。Gemini不是向圖像生成器（如ChatGPT 的情況下的「DALL-E 3」）提供提示來輸出圖像，而是「原生」輸出圖像，不需要中間步驟。

「Gemini Pro」
與Gemini Ultra不同，Gemini Pro今天已經可以公開使用。但令人困惑的是，其功能取決於使用位置。

Google表示，在Bard中，Gemini Pro最初以純文字形式推出，該模型在推理、規劃和理解能力上優於「LaMDA」。卡內基梅隆大學和「BerriAI」研究人員的一項獨立研究發現，Gemini Pro確實比OpenAI的GPT-3.5更擅長處理更長、更複雜的推理。

但該研究還發現，就像所有大型語言模型一樣，Gemini Pro特別難以解決涉及「多位數的數學問題」，使用者已經發現了許多不良推理和錯誤的例子。它在回答像「最新奧斯卡獎得主是誰」這樣的簡單查詢時犯了很多事實錯誤。Google 承諾會進行改進，但不清楚何時改進。

Gemini Pro也透過API在「Vertex AI」中可用，Google的完全管理的AI開發平台，它接受文本作為輸入並生成文本作為輸出。另一個端點，Gemini Pro Vision，可以處理文本和圖像，包括照片和影片，並輸出文本，類似於OpenAI 的「GPT-4 with Vision」模型。

Gemini Pro也透過API在「Vertex AI」中可用，Google的完全管理的AI開發平台

Gemini Pro也透過API在「Vertex AI」中可用，Google的完全管理的AI開發平台

在Vertex AI中，開發人員可以使用微調或「定位」過程將Gemini Pro定制到特定的上下文和用例。Gemini Pro還可連接到外部第三方API來執行特定動作。

在2024 年初，Vertex客戶將能夠利用Gemini Pro驅動自定義構建的對話式語音和聊天代理（即聊天機器人）。Gemini Pro還將成為在Vertex AI中驅動搜索摘要、推薦和回答生成功能的選項，利用來自不同來源（例如OneDrive、Salesforce）的不同模態的文件（例如PDF、圖像）來滿足查詢。

在Google的基於Web的工具「AI Studio」中，有使用Gemini Pro創造自由形式、結構化和聊天提示的工作流程。開發人員可以使用Gemini Pro和Gemini Pro Vision端點，他們可以調整模型溫度以控制輸出的創意範圍並提供示例來給予語氣和風格指示，還可以調整安全設置。

「Gemini Nano」
Gemini Nano是Gemini Pro和Ultra模型的小型版本，效率足以直接在（某些）手機上運行，而不是將任務發送到某處的服務器。到目前為止，它在Pixel 8 Pro 上支持兩項功能：錄音機中的「總結」和Gboard中的「智慧回覆」。

錄音機應用程式允許使用者按下按鈕來錄製和轉錄語音，包括Gemini驅動的錄製的對話、訪談、演示文稿和其他片段的摘要。即使使用者沒有訊號或Wi-Fi 連接可用，他們也會得到這些摘要，為了隱私，沒有數據會離開他們的手機。

Gemini Nano也在Google的鍵盤應用「Gboard」中，作為開發者預覽。在那裡，它支持一項名為「智慧回覆」的功能，該功能有助於在消息應用中進行對話時建議您可能想要說的下一件事。該功能最初僅在WhatsApp上工作，但Google說它將在2024年到達更多應用程式。

Gemini是否優於OpenAI的「GPT-4」？
在Google今年晚些時候發布Ultra之前，我們無法知道Gemini家族的真實實力如何，但該公司聲稱在當前最先進水平上有所改進，通常是OpenAI的GPT-4。

Google多次誇大Gemini在基準測試中的優越性，聲稱Gemini Ultra超過了「大型語言模型研究和開發中常用的32項學術基準測試中的30項」的當前最先進結果。該公司表示，與此同時，Gemini Pro在摘要內容、頭腦風暴和寫作等任務上比GPT-3.5更有能力。

但撇開基準測試是否真的表明了一個更好的模型的問題，Google指出的分數似乎只比OpenAI的相應模型略好。而且，正如前面提到的，一些早期印象並不是很好，使用者和學者指出Gemini Pro傾向於獲得基本事實錯誤，翻譯不佳，並給出糟糕的編碼建議。

Gemini的成本是多少？
Gemini Pro目前在Bard中免費使用，現在也在AI Studio和Vertex AI中免費使用。

但一旦Gemini Pro在Vertex退出預覽，該模型將以每個字符0.0025美元的價格收費，而輸出將以每個字符0.00005美元的價格收費。Vertex客戶每1,000個字符支付（約140到250個單詞），並且在像Gemini Pro Vision這樣的模型的情況下，每張圖像支付（0.0025美元）。

假設一篇500字的文章包含2,000個字符。使用Gemini Pro總結該文章將花費5美元。與此同時，生成類似長度的文章將花費0.1美元。

您在哪裡可以嘗試Gemini？

「Gemini Pro」
體驗Gemini Pro最簡單的地方是在「Bard」中。Pro的微調版本正在美國以英文回答基於文本的Bard查詢，未來將支持其他語言和國家與地區。

Gemini Pro也可以透過「Vertex AI」中的API進行預覽使用。該AP目前可免費使用「在限制範圍內」，並支持38種語言和地區，包括歐洲，以及聊天功能和過濾等功能。

此外，Gemini Pro可在AI Studio中找到。使用該服務，開發人員可以迭代提示和基於Gemini的聊天機器人，然後獲取API密鑰以在他們的應用程式中使用它們（或將代碼導出到更全功能的IDE）。

開發者套組「Duet AI」將在未來幾週開始使用Gemini模型。Google計劃在大約同一時間將Gemini模型引入Chrome和其Firebase 動開發平台的開發工具，即 2024年初。

「Gemini Nano」
Gemini Nano在「Pixel 8 Pro」上（並將來到其他設備也將開放）可以使用。有興趣將該模型整合到他們的Android應用程式中的開發人員可以報名試用。

新聞原址： https://techcrunch.com/2024/01/07/what-is-google-gemini-ai/

Watch more News：

IBM計劃用AI取代近8,000個工作職位—以下是首批被淘汰的工作
英國AI安全峰會受批評：過度關注「存在主義威脅」，忽略「公平和責任」
AI藝術：由偷客兔推出，以「Stable Diffusion」為核心技術帶來的畫作革命
研究揭示人工智慧模型可被訓練進行欺騙行為，安全技術面臨挑戰
ChatGPT Plus推出全新升級：20美元月費解鎖語音互動與圖像識別功能