ChatGPT全面升級：語音與圖像搜索加持，OpenAI與Spotify聯手挑戰AI新局面

Blog

September 26, 2023

重點摘要：

OpenAI宣布將為ChatGPT加入新的語音和圖像功能，使其成為一個更多元互動的搜尋引擎。
這一更新來在Amazon向OpenAI的競爭對手「Anthropic」投資40億美元的同一天，凸顯了生成式AI競爭日趨激烈。
Spotify成為首批合作夥伴，新功能將在未來兩周內開放給付費的「Plus」和「Enterprise」訂閱帳戶。

新聞內文：
ChatGPT將更新為不止只有文本功能的搜尋引擎，OpenAI今天宣布將新的語音和圖像功能加入其中。

這個廣受歡迎的生成式AI助手自九個月前首次亮相以來，一直是近年來最大的技術成功故事之一，使任何人都能夠從簡單的文本提示生成文章、詩歌和摘要。但現在，ChatGPT將變得更加「多元互動」，使用者還可以與聊天機器人進行語音對話。

這一宣布將是一大亮點，因為今天亦是Amazon承諾向OpenAI競爭對手「Anthropic」投資高達40億美元的一天，這標誌著世界科技龍頭之間更大的生成式AI競爭，其中包括Google試圖透過其『Bard聊天機器人』追趕，Meta採取堅定的開源理念來提升自己的地位，而微軟則密切與OpenAI合作。

引領對話
今天標誌著生成式AI運動的一個顯著進步，OpenAI將基於語音的助手世界與其強大的大型語言模型（LLM）融合在一起。

例如，使用者將能夠口頭要求ChatGPT即時編寫一個入睡故事，只需一些口語提示來引導敘事。或者使用者可以簡單地問一個問題，ChatGPT會以口語形式回答。

此外，ChatGPT使用者還可以使用圖像搜尋答案，例如「上傳某物的圖片，然後問ChatGPT解釋那是什麼」，或者提供完成目標的指示。

ChatGPT image search. Image Credits: OpenAI

ChatGPT image search. Image Credits: OpenAI

語音功能由一個新的文本到語音模型提供支持，該模型可以從文本和幾秒鐘的取樣語音生成人類般的聲音。OpenAI表示，他們已經聯手建立了五種不同的聲音，使用了其開源的「Whisper語音識別系統」來將口語發言轉錄為文本。

Spotify也被宣布為首批合作夥伴，音樂串流龍頭為語音節目製作人引入了一個相當不錯的新功能，允許他們採樣自己的聲音，並將節目從英語翻譯成西班牙語、法語或德語，同時保留自己的原始聲音。然而，OpenAI似乎正在謹慎行事，因為他們不會向任何人提供這項技術。他們特別為此次推出與語音節目製作人Dax Shepard、Monica Padman、Lex Fridman、Bill Simmons和Steven Bartlett等合作。

公司在一篇部落格文章中寫道：「新的語音技術，能夠根據僅僅幾秒鐘的真實語音生成逼真的合成語音。為許多創意和可使用性導向的應用打開了大門，但這些能力也帶來了新的風險，比如惡意行為者可能冒充公眾人物或進行欺詐」。

新功能將在未來兩周內開始提供給付費的Plus和Enterprise訂閱帳戶。要啟用語音功能，使用者需要進入應用程式中的「設置」頁面，然後進入「新功能」並選擇加入語音對話。然後，他們需要點擊右上角的耳機按鈕，並選擇所需的聲音。

語音最初將僅限於ChatGPT Android和iOS應用程式上的自選測試版，而圖像搜索將在所有平台上提供。

新聞原址： https://techcrunch.com/2023/09/25/openai-chatgpt-voice/

Watch more News：

Meta開放新的生成式AI，用於生成聲音和音樂，並開放原始碼框架
AI新創Modular募資1億美元：打破複雜性障礙，推動AI系統革新
Rightbot推出創新吸力機器人，獲Amazon領投625萬美元，為物流業帶來自動化卸貨革命
三星發布全新AI模型「Samsung Gauss」，預計賦能2024年Galaxy S24
CEO以AI聊天機器人取代90%客服人員，以追求利潤為由，引發網路激憤