Blog

OpenAI揭露GPT-4視覺功能:有巨大潛力,但安全隱憂仍待解決

Blog Image
OpenAI揭露GPT-4視覺功能:有巨大潛力,但安全隱憂仍待解決

September 27, 2023

重點摘要:
  1. OpenAI發表了一篇技術論文,詳細介紹其旗艦模型「GPT-4」的視覺功能(簡稱GPT-4V),並強調已實施多項安全措施以防止濫用和偏見。
  2. GPT-4V目前主要由「Be My Eyes」的低視力和盲人使用者使用,但模型在某些情況下仍存在不足,如誤識化學物質和醫學影像。
  3. OpenAI警告,GPT-4V在性別和體型方面有歧視傾向,並強調該模型仍在開發中,距離公司最初的願景還有一段距離。

新聞內文:
當OpenAI首次推出它的旗艦文本生成AI模型「GPT-4」時,該公司號稱該模型的多模式能力,也就是它能夠理解圖像的上下文及文本。OpenAI表示,GPT-4可以為相對複雜的圖像編寫標題,甚至可以解釋圖像,例如「從插入iPhone圖像中識別『Lightning Cable』適配器」。

但自從GPT-4在去年三月底宣布以來,OpenAI一直隱瞞該模型的圖像功能,據傳是擔心濫用和隱私問題。直到現在,這些擔憂的確切性質仍然是個謎。但本週,OpenAI發表了一篇詳細介紹其工作內容的技術論文,以減輕GPT-4的圖像分析工具被人認為有爭議的聲音。

根據該論文,到目前為止,具有視覺功能的GPT-4,由OpenAI內部簡稱為「GPT-4V」,目前只有「Be My Eyes」的幾千名低視力和盲人使用者定期使用。然而,在過去幾個月中,OpenAI也開始與「紅隊成員」合作,探討模型是否存在意外行為的跡象。

在論文中,OpenAI聲稱已經實施了防止GPT-4V被用於惡意用途的安全措施,例如「破解『CAPTCHAs』(許多網頁表單上的反垃圾郵件工具)、識別個人或估算其年齡或種族」,並基於圖像中不存在的資訊得出結論。OpenAI還表示,目前已經努力減輕了GPT-4V更有害的偏見言論,特別是與「一個人的外貌及性別或種族」有關的偏見。

但與所有AI模型一樣,安全措施目前也只能做到這麼多。

論文表示,GPT-4V有時難以做出正確的推論,例如「將圖像中的兩個文本串錯誤地結合成一個虛構的術語」。與基本的GPT-4一樣,GPT-4V容易出現幻覺,便以權威的語氣發明事實。它甚至有可能遺漏文本或文字符號,忽視數學符號,無法識別相當明顯的物體和場景設定。

當應用於醫學成像領域時

因此,不足為奇的是,以明確、清晰的語言,OpenAI表示,GPT-4V不應用於在圖像中查找危險物質或化學品。(記者甚至沒有考慮過這種用例,但顯然地OpenAI對此表示擔憂,公司覺得有必要指出這一點。)紅隊成員發現,儘管模型偶爾能夠正確識別有毒食物,如有毒蘑菇,但它卻是從「有毒菲薄」、「卡菲納坦」和「可卡因」的化學結構圖像中誤認這些物質。

當應用於醫學成像領域時,GPT-4V也沒有表現得更好,有時會對相同問題給出錯誤的回答,而在先前的上下文中它回答正確。它還不了解像查看影像掃描一樣的標準做法,這意味著它會誤診許多疾病。

當提示為「穿著泳裝的女性」提供建議時,GPT-4V的回答幾乎完全與「女性的體重」和「身體正面性」的概念有關"

此外,OpenAI警告稱,GPT-4V不理解某些令人討厭符號中的細微差別,例如「不理解聖殿騎士十字」(美國的白人至上主義)的現代含義。更奇怪的是,也許是它的幻覺傾向,當提供了他們的圖像時,他們觀察到GPT-4V會創作歌曲或詩詞來讚美某些仇恨的人物或團體,即使這些人物或團體並沒有明確被提到。

GPT-4V還對某些性別和體型進行歧視,儘管只有在OpenAI的生產保障被禁用時才會出現這種情況。OpenAI寫道,在一項測試中,當提示為「穿著泳裝的女性」提供建議時,GPT-4V的回答幾乎完全與「女性的體重」和「身體正面性」的概念有關。我們可以推斷,如果圖像是一個男性,情況就不會如此。

在許多情況下,該公司被迫實施過於嚴格的安全措施,以防止模型傳播有害或不實的訊息,甚至侵犯一個人的隱私。


根據論文中的帶有保留條款條款,「GPT-4V」仍然是一項正在進行中的工作,距離OpenAI最初設想的可能還有一段距離。在許多情況下,該公司被迫實施過於嚴格的安全措施,以防止模型傳播有害或不實的訊息,甚至侵犯一個人的隱私。

OpenAI聲稱,它正在建立「緩和措施」和「流程」,以「安全」的方式擴展模型功能,並允許GPT-4V描述面孔和人物,但不會點名這些人的名字。但論文表示,GPT-4V並不是萬能的,OpenAI的工作還有很多要做。

新聞原址: https://techcrunch.com/2023/09/26/openais-gpt-4-with-vision-still-has-flaws-paper-reveals/