AI 醫療新紀元！GPT-5 在醫療測試表現超越真人醫生或成臨床最佳助手？

By Miki Liang on 01 Oct 2025

OpenAI 最新發布的 GPT-5 大型語言模型在醫療領域展現出突破性的表現，它在多項醫學測驗中的成績顯著超越人類專家，在推理方面超越人類醫療工作者 24%，在理解方面超越 29%，預示著人工智能在醫療健康領域的應用將進入一個全新階段。OpenAI 執行長 Sam Altman 曾在 GPT-5 的發布會上，將該模型描述為一位「合法的博士級專家」，並強調其有望徹底改變人們理解和駕馭個人醫療旅程的方式。

根據 Emory 大學的研究顯示，GPT-5 在標準化診斷推理任務上的表現顯著優於尚未取得執照的人類醫學專家。該模型在美國醫學執照考試 (USMLE) MedQA 數據集上取得了 95.84% 的驚人準確度，相較於前代模型 GPT-4o 提升了近五個百分點。更值得注意的是，在結合病史和醫學影像的複雜多模態任務中，GPT-5 的成功率達到 70%，比 GPT-4o 高出 30 個百分點。在專業測試中，GPT-5 在推理方面超越人類醫療工作者 24%，在理解方面超越 29%。

OpenAI 與 250 名醫師合作開發的 HealthBench 評估框架顯示，GPT-5 在真實世界任務中的表現優於所有先前模型，並在 HealthBench Hard 測試中獲得 46.2% 的分數，而 GPT-4o 為 0%。此外，GPT-5 在包含 150 個多選題的醫學物理考試中，得分高達 90.7%，超越了人類的及格門檻。

成為醫療最佳助手：降低錯誤與提升效率

GPT-5 在減少 AI 幻覺（hallucinations）和不安全回應方面取得了顯著進展，使其成為 OpenAI 最安全、最可靠的醫療模型之一。研究人員發現，GPT-5 提供了比 GPT-4o 更清晰、更容易解釋的思考過程。這對於醫療應用至關重要，因為它能提升對 AI 建議的信任度。 GPT-5 的能力涵蓋解釋實驗室結果、分析醫學研究、提供非診斷性健康建議，以及更細緻地理解醫學術語。

近期，OpenAI 於 2025 年 9 月下旬發布了一項名為 GDPval 的新評估，旨在衡量 AI 模型在 44 個行業（包括醫療保健）中執行「具有經濟價值的真實世界任務」的表現。報告指出，GPT-5-high 版本在超過 40% 的時間裡，其產出被評為與行業專家交付的成果一樣好或更好，尤其在準確性方面表現出色。專家們強調，GPT-5 是協助醫師的工具，而非取代他們。未來，在臨床實踐中不利用 AI 可能會被視為專業上的疏忽。

GPT-5 的問世，將加速精準醫療的發展，透過分析患者的基因組、病史和生活方式，提供個人化的治療方案。這不僅能提高診斷效率和準確性，更能為患者帶來更好的治療結果。然而，AI 在醫療領域的廣泛應用仍需克服資料隱私、倫理考量以及與現有醫療系統整合等挑戰。隨著技術持續演進，GPT-5 有望成為醫療專業人員不可或缺的「最佳助手」，共同推動醫療產業邁向更智慧、更高效的未來。