重點摘要：

「Hugging Face」推出名為「Open Medical-LLM」的基準測試，旨在評估生成式人工智慧模型在醫學相關任務上的表現，以標準化評估模型的效能。
Open Medical-LLM利用現有的測試集，包括MedQA、PubMedQA、MedMCQA等，探測模型對醫學知識和相關領域的理解能力，並包含多項選擇題和開放式問題。
儘管Open Medical-LLM提供了初步評估，但一些醫學專家警告稱，這些基準測試不能替代現實世界的測試，生成式人工智慧模型的應用仍需謹慎。

新聞內文：

醫療領域越來越多地應用生成式人工智慧模型。在某些情況下，或許這是太過早地。早期採用者相信，這些模型將提高效率，同時揭示出否則可能被忽略的見解。然而，批評者指出，這些模型存在缺陷和偏見，可能導致更糟糕的健康結果。

但有沒有一種量化的方式來了解一個模型在處理概括患者記錄或回答與健康相關問題時可能有多有幫助或有害呢？

人工智慧新創公司「Hugging Face」提出了一個解決方案，這就是他們最新發布的基準測試，名為「Open Medical-LLM」。該測試是與非營利組織Open Life Science AI和愛丁堡大學自然語言處理小組的研究人員合作建立的，目的在標準化評估生成式人工智慧模型在各種醫學相關任務上的表現。

Open Medical-LLM並不是一個從零開始的基準測試，而是將現有的測試集（如MedQA、PubMedQA、MedMCQA等）拼湊在一起，目的在探測模型對於一般醫學知識和相關領域（如解剖學、藥理學、遺傳學和臨床實踐）的理解能力。這個基準測試包含多項選擇題和開放式問題，需要醫學推理和理解能力，來自包括美國和印度醫學許可考試以及大學生物學測試題庫在內的資料。

Hugging Face在一篇部落格中寫道：「『Open Medical-LLM』使研究人員和從業者能夠識別不同方法的優點和缺點，推動該領域的進一步發展，最終有助於改善患者護理和結果」。

Image Credits: Hugging Face

Hugging Face將這個基準測試定位為醫療導向生成式人工智慧模型的「全面評估」。但一些社交媒體上的醫學專家警告稱，不應過分看重Open Medical-LLM，以免導致不明智的應用。

在X平台上，艾伯塔大學神經學住院醫師利亞姆·麥科伊指出，醫學問答的「虛構環境」與實際臨床實踐之間的差距可能相當大。

Hugging Face的研究科學家克萊門汀·福瑞爾（Clémentine Fourrier）是該篇部落格文章的共同作者，她表示同意。

福瑞爾在X上回應說：「這些排行榜應該僅被用作探索特定使用案例的哪個[生成式人工智慧模型]的第一個近似值，但隨後始終需要更深入的測試階段來檢驗模型的限制和在實際條件下的相關性」。「醫療[模型]絕對不應該由患者單獨使用，而應該接受培訓成為醫生的支援工具」。

這讓人想起Google在試圖將一款用於糖尿病視網膜病變篩查的人工智慧工具引入泰國醫療系統時的經驗。

Google開發了一款深度學習系統，掃描眼睛的影像，尋找視網膜病變的證據，這是導致視力喪失的主要原因之一。但儘管理論上的準確性很高，該工具在實際測試中被證明是不切實際的，結果不一致，與現場實踐不協調，令患者和護士感到沮喪。

值得注意的是，到目前為止，美國食品藥物管理局已批准的139款與人工智慧相關的醫療設備中，沒有一款使用生成式人工智慧。測試一個生成式人工智慧工具在實驗室中的表現如何會轉化為醫院和門診診所的情況，以及更重要的是，結果如何會隨著時間的推移而趨勢，這是非常困難的。

這並不是說Open Medical-LLM沒有用或者沒有訊息價值。如果沒有其他，結果排行榜提醒我們模型回答基本健康問題的能力有多差。但Open Medical-LLM，或者其他任何基準測試，都不能代替精心思考的現實世界測試。

新聞原址： https://techcrunch.com/2024/04/18/hugging-face-releases-a-benchmark-for-testing-generative-ai-on-health-tasks/

Watch more News：

AI技術對購物體驗的革命性影響
Arthur推出開源工具，協助公司找到最適合工作的大型語言模型(LLM)
AI與社交媒體的現狀顯示，資本主義的結束可能不會是因為機器人的反叛
亞馬遜將100億美元大筆資金，投向了生成性人工智慧(GAI)，意圖與微軟和谷歌等科技重鎮競爭。
Meta加速推廣AI服務，將Llama 3融入四大應用程式搜索欄