OpenAI發布全新GPT-4 with vision：圖像理解能力大躍進，但挑戰猶存

Blog

November 7, 2023

重點摘要：

OpenAI在開發者大會上發布了GPT-4的新版本，這個版本新增了視覺功能，能夠理解和解釋圖像內容。
GPT-4 with vision原先僅限於特定使用者群體使用，以測試其功能並確保安全性，現在將透過GPT-4 Turbo API向更廣泛的開發者開放。
雖然GPT-4 with vision在圖像描述方面表現出色，但研究發現它在理解圖像中的結構、關係和文本提取方面存在缺陷。

新聞內文：
在OpenAI首次開發者大會上，OpenAI發佈了GPT-4的新細節，這是該公司的旗艦文本生成人工智慧模型，它可以理解圖像和文本的上下文。這個版本被OpenAI稱為「帶視覺的GPT-4」，可以為圖像進行標題，甚至可以解釋相對複雜的圖像，例如從插入iPhone的圖片中識別Lightning Cable適配器。

在此之前，GPT-4 with vision僅提供給Be My Eyes的選定使用者，目的在幫助視障人士適應周圍世界的應用程式；及OpenAI的AI聊天機器人ChatGPT的高級訂閱者；還有負責探測GPT-4 with vision是否存在意外行為跡象的「紅隊成員」。這是因為OpenAI在3月初推出「GPT-4 with vision」後一直未公開，據報擔心它可能被濫用，並侵犯隱私。

現在，OpenAI似乎對其緩解措施足夠有信心，可以讓更廣泛的開發者社群將GPT-4 with vision集成到他們的應用程式、產品和服務中。公司表示，GPT-4 with vision透過新推出的GPT-4 Turbo API將在未來幾週內提供。

然而，問題是GPT-4 with vision是否實際上比以前更安全呢？

在OpenAI開始向ChatGPT訂閱者提供GPT-4 with vision之前的十月，該公司發表了一份關於該模型局限性和更疑問的傾向（例如歧視某些體型）的白皮書。但是這份文件是由OpenAI的科學家共同撰寫的，而不是外部測試者，後者可能會提供更公正的觀點。

幸運的是，OpenAI為幾名研究人員提供了早期訪問GPT-4 with vision以進行評估的機會。至少有兩名研究人員，賓夕法尼亞大學計算機科學副教授克里斯·卡里森-伯奇（Chris Callison-Burch）和卡里森-伯奇的博士生阿莉莎·黃（Alyssa Hwang），在OpenAI的大會上發表了他們的初步印象。

一家公關公司透過電子郵件將TechCrunch與卡里森-伯奇和黃聯繫起來。

卡里森-伯奇在接受TechCrunch訪問時表示：「我對GPT-4 with vision進行了各種任務的實驗，從圖像的問答到幫助選擇影像遊戲場景中的3D對象，再到描述美術畫作的組成和藝術風格」。「每一次，它都做得很好。描述非常出色，明顯優於以前的圖像標題技術」。

但是，黃對GPT-4 with vision的能力進行了更系統性的評估，發現該模型在一些重要方面仍然存在缺陷，而且在某些情況下問題嚴重。

黃在電子郵件中告訴TechCrunch：「我發現GPT-4 with vision在描述圖像中的元素位置時經常正確，但在它們的結構或相對關係方面表現不佳」。「例如，它曾經正確地說出線圖上的兩個曲線向上傾斜，但錯誤地說出哪一個比另一個高。它在處理圖表方面出現了許多錯誤，從不正確估算條形圖或線圖上的數值到誤解圖例中的顏色」。

黃在Arxiv.org上發表的一項初步研究中記錄了GPT-4 with vision的許多其他錯誤實例。她的工作主要集中在GPT-4 with vision在描述學術論文中的圖形的能力上，這可能是技術的一個非常有用的應用，但其中精度非常重要。

不幸的是，在科學解釋方面，GPT-4 with vision並不擅長精確度。

黃寫道，GPT-4 with vision在重現數學公式時出現錯誤，往往會漏掉下標或錯誤打印它們。在圖示中計數對該模型來說也是一個問題，描述顏色也是一個問題，特別是相鄰物體的顏色，GPT-4 with vision有時會混淆。

GPT-4 with vision的一些更嚴重和更廣泛的缺陷在事實精確性部分。

GPT-4 with vision無法可靠地從圖像中提取文本。為了證明這一點，在研究中，黃給該模型一個包含食譜列表的頁面，要求它將每個食譜都寫下來。GPT-4 with vision在解析食譜標題時犯了錯誤，寫下了「Eggs Red Velvet Cake」，而不是「Eggless Red Velvet Cake」、「Sesame Pork Medallions」、「Sesame Pork Milanese」等錯誤。

GPT-4 with vision無法可靠地從圖像中提取文本。

對於GPT-4 with vision來說，另一個挑戰是「重點摘要」。當要求總結文件掃描時，GPT-4 with vision可能會不太恰當地重新述語文件中的句子，從中省略訊息。或者它可能會以誤導方式更改直接引用，刪除部分以影響文本的含義。

這並不是說GPT-4 with vision是多模式模型的完全失敗。黃讚揚其分析能力，指出該模型在描述甚至相當複雜的場景時表現出色。OpenAI和Be My Eyes為何認為GPT-4 with vision可能對可使用性有用是顯而易見的，這是一個自然的選擇。

但是黃的研究結果確認了OpenAI文件所暗示的：GPT-4 with vision仍然需要改進。與人類不同，GPT-4 with vision在基本方面犯了錯誤，並且可能在過程中引入偏見。

目前尚不清楚OpenAI的安全措施，這些措施旨在防止GPT-4 with vision傳播有害訊息或錯誤資訊，可能會影響其準確性的程度，或者該模型是否簡單地沒有受過足夠多視覺數據的訓練以處理某些邊緣情況（例如，書寫數學公式）。黃沒有進一步推測，留下了後續研究的問題。

在文件中，OpenAI聲稱正在建立「緩解措施」和「流程」，以「安全」的方式擴展GPT-4 with vision的功能，例如允許GPT-4 with vision描述人臉和人物而不提及這些人物的名字。我們將等待並看看它在多大程度上成功，或者OpenAI是否接近了當今多模式模型培訓方法的極限。

新聞原址： https://techcrunch.com/2023/11/06/openai-gpt-4-with-vision-release-research-flaws/

Watch more News：

Linux基金會推出開放企業AI平台，Cloudera、Intel、IBM等龍頭企業加入
新聞應用程式Artifact加入AI語音轉文字功能，包括Snoop Dogg和Gwyneth Paltrow的聲音
巴黎新創Zama獲7300萬美元融資，引領同態加密應用發展
三星即將推出Galaxy S24系列：預計將成為史上最聰明的AI手機，挑戰Google Pixel
Vicarius推出AI驅動漏洞修復工具vuln_GPT，完成3000萬美元融資