Blog

Google即將推出多模式語言模型Gemini:挑戰OpenAI並改寫AI戰局?

Blog Image
Google即將推出多模式語言模型Gemini:挑戰OpenAI並改寫AI戰局?

October 13, 2023

重點摘要:
  1. Google即將推出名為「Gemini」的新大型語言模型,該模型不僅能理解和生成文本,還能處理圖像和其他類型的內容。
  2. Sissie Hsiao,Google的「Bard」和Google Assistant的副總裁兼總經理,表示Gemini能以圖像方式與人類對話,並將與使用者可用的新AI系統整合。
  3. 如果Gemini成功,它將有助於改變Google在AI領域被微軟和OpenAI超越的現狀;如果失敗,則會加劇批評者認為Google已經落後的觀點。

新聞內文:
Google目前面臨巨大的壓力。

公司即將發布Gemini,這是備受期待的新大型語言模型,將與OpenAI的GPT-4進行密切比較。

Gemini將是多模式的,意味著它將能夠理解並生成文本、圖像和其他類型的內容。執行長Sundar Pichai暗示它將更擅長規劃,而DeepMind執行長Demis Hassabis告訴Wired,Gemini正在使用驅動其AlphaGo程式的技術進行訓練,該程式在2016年贏了最優秀的人類圍棋選手。

在這些中間的一個關鍵人物是Sissie Hsiao,Google的「Bard」和Google Assistant的副總裁兼總經理。她還是Insider首屆AI 100的成員之一。

Hsiao並不是負責架構Gemini的團隊一員,這是由DeepMind和Google的Brain部門新成立的聯盟,但她負責的主要產品將讓使用者可以使用這些新的AI系統。

Hsiao說:「我見證了一些令人驚嘆的事情。比如,我正在嘗試烤蛋糕,請幫我畫3幅冰三層蛋糕的步驟,而Gemini實際上會創造這些圖像」。

她補充說:「這些是全新的圖片,不是從網路上複製來的。它現在能夠以圖像的方式與人類對話,而不僅僅是文本」。

可以說,Google需要Gemini取得成功,這一點已經言之過早。OpenAI最近宣布第三代視覺藝術生成器「DALL-E」,並升級了ChatGPT,使其能夠使用更新的訊息(到目前為止,它無法使用2021年9月之後的數據)。

如果Gemini令人印象深刻,它將有助於Google改變它被微軟和OpenAI擺了一道的敘述。如果令人失望,它將放大批評者的聲音,他們認為Google已經落後了。


這家搜尋引擎龍頭從第一天開始就坦言Bard存在限制,並仍然將其稱為「實驗」。這款聊天機器人因生成虛假訊息而受到指責。Hsiao的團隊最近推出了一個功能,突顯Bard懷疑可能不準確的訊息。

就像目前大多數Google高層主管一樣,Hsiao喜歡說Google「勇敢而負責任」,但她也承認公司內部的事情「進行得非常快」,並且Bard團隊目前感覺像一家「新創公司」。

她說:「感覺就像我在Google的前一兩年一樣。感覺就像重新開始」。

她說:「人們問我,『炒作是真的嗎?』我不認為這是炒作,我認為這是真的,因為我每天都在使用這項技術」。

「就像出現了新的魔法成分」

Sissie Hsiao on stage at Google I/O 2023 Josh Edelson/Getty

Hsiao於2006年加入Google,擔任圖像搜尋和Google Docs的產品經理。從那時起後開始,她在Google的廣告產品上擔任各種職位。

她說:「在我在Google工作了幾年之後,我真的看著它並說,『在Google上最具未來性的產品是什麼?這是一個未解決的問題』」。 Google Assistant就是答案,並且在2021年,Google重新調整了其搜尋團隊,讓Hsiao負責其語音助手。

Hsiao表示,她希望在「將未來性研究與未來願景相結合」的事物上工作。

Bard和Assistant團隊在今年早些時候合併在Hsiao的領導下,我們開始了解為什麼:Google最近宣布,Bard正在集成到移動設備上的Assistant中,就在Amazon公佈了更強大的Alexa之後。

Assistant with Bard,正如Google所稱呼的,將融合Bard的生成式AI能力與其語音助手的幫助能力。它的到來還表明,在功能強大的LLM時代,該公司正在重新思考Assistant的實際作用。

「我們正在遠離語音作為主要模式」,Hsiao談到最近的Assistant更新,該更新將允許使用者使用文本、語音和圖像與其互動。


至於Google是否計劃改進智慧音箱上的體驗還有待觀察。Hsiao說:「我們仍在探索」。「現在說明是否有用還太早」。

儘管聊天機器人和大規模語言模型令使用者驚艷,但關於這些AI系統是否在長期內真正有用仍然存在問題。Google的優勢在於它已經流行的應用程式,例如Gmail、Docs和Maps等,它可以將基礎AI功能注入其中。

Hsiao認為,Bard本身在長期內具有價值作為一種產品。她告訴Insider:「它是大規模語言模型最不受限制的表達方式」。「這個盒子中有美感,因為在那個盒子中,你可以要求它做任何事情」。

她還認為,這項新技術既可以作為獨立的AI產品,也可以嵌入到其他產品中。

Assistant with Bard可能有助於Google證明這一點,但現在說還太早。Hsiao的團隊,就像Google內的許多團隊一樣,正在快速實驗,尋找令人印象深刻且真正有幫助注入AI的方法。

她說:「就像出現了新的魔法成分」,她說「你正試圖弄清它能做什麼」。

新聞原址: https://www.businessinsider.com/google-sissie-hsiao-teases-gemini-ai-model-pretty-amazing-things-2023-10