Blog

ChatGPT全面升級:語音與圖像搜索加持,OpenAI與Spotify聯手挑戰AI新局面

Blog Image
ChatGPT全面升級:語音與圖像搜索加持,OpenAI與Spotify聯手挑戰AI新局面

September 26, 2023

重點摘要:
  1. OpenAI宣布將為ChatGPT加入新的語音和圖像功能,使其成為一個更多元互動的搜尋引擎。
  2. 這一更新來在Amazon向OpenAI的競爭對手「Anthropic」投資40億美元的同一天,凸顯了生成式AI競爭日趨激烈。
  3. Spotify成為首批合作夥伴,新功能將在未來兩周內開放給付費的「Plus」和「Enterprise」訂閱帳戶。

新聞內文:
ChatGPT將更新為不止只有文本功能的搜尋引擎,OpenAI今天宣布將新的語音和圖像功能加入其中。

這個廣受歡迎的生成式AI助手自九個月前首次亮相以來,一直是近年來最大的技術成功故事之一,使任何人都能夠從簡單的文本提示生成文章、詩歌和摘要。但現在,ChatGPT將變得更加「多元互動」,使用者還可以與聊天機器人進行語音對話。

這一宣布將是一大亮點,因為今天亦是Amazon承諾向OpenAI競爭對手「Anthropic」投資高達40億美元的一天,這標誌著世界科技龍頭之間更大的生成式AI競爭,其中包括Google試圖透過其『Bard聊天機器人』追趕,Meta採取堅定的開源理念來提升自己的地位,而微軟則密切與OpenAI合作。

引領對話
今天標誌著生成式AI運動的一個顯著進步,OpenAI將基於語音的助手世界與其強大的大型語言模型(LLM)融合在一起。

例如,使用者將能夠口頭要求ChatGPT即時編寫一個入睡故事,只需一些口語提示來引導敘事。或者使用者可以簡單地問一個問題,ChatGPT會以口語形式回答。

此外,ChatGPT使用者還可以使用圖像搜尋答案,例如「上傳某物的圖片,然後問ChatGPT解釋那是什麼」,或者提供完成目標的指示。

ChatGPT image search. Image Credits: OpenAI

語音功能由一個新的文本到語音模型提供支持,該模型可以從文本和幾秒鐘的取樣語音生成人類般的聲音。OpenAI表示,他們已經聯手建立了五種不同的聲音,使用了其開源的「Whisper語音識別系統」來將口語發言轉錄為文本。


Spotify也被宣布為首批合作夥伴,音樂串流龍頭為語音節目製作人引入了一個相當不錯的新功能,允許他們採樣自己的聲音,並將節目從英語翻譯成西班牙語、法語或德語,同時保留自己的原始聲音。然而,OpenAI似乎正在謹慎行事,因為他們不會向任何人提供這項技術。他們特別為此次推出與語音節目製作人Dax Shepard、Monica Padman、Lex Fridman、Bill Simmons和Steven Bartlett等合作。

公司在一篇部落格文章中寫道:「新的語音技術,能夠根據僅僅幾秒鐘的真實語音生成逼真的合成語音。為許多創意和可使用性導向的應用打開了大門,但這些能力也帶來了新的風險,比如惡意行為者可能冒充公眾人物或進行欺詐」。

新功能將在未來兩周內開始提供給付費的Plus和Enterprise訂閱帳戶。要啟用語音功能,使用者需要進入應用程式中的「設置」頁面,然後進入「新功能」並選擇加入語音對話。然後,他們需要點擊右上角的耳機按鈕,並選擇所需的聲音。

語音最初將僅限於ChatGPT Android和iOS應用程式上的自選測試版,而圖像搜索將在所有平台上提供。

新聞原址: https://techcrunch.com/2023/09/25/openai-chatgpt-voice/