2026 年 6 月 12 日發表於《自然醫學》的一項研究發現,通用型大型語言模型在標準化的醫療任務中持續優於專用的臨床 AI 產品,且使用這些模型的臨床醫生也更偏好它們。
研究人員將三款主要的通用大語言模型與專為醫療設計的工具進行對比。一邊是 OpenAI 的 GPT-5.2、Google 的 Gemini 3.1 Pro Preview 和 Anthropic 的 Claude Opus 4.6;另一邊則是專為醫療專業人員設計和推廣的臨床產品,例如 OpenEvidence 和 UpToDate Expert AI。
競賽內容包括 MedQA 問題,這是一個廣為認可的基準,用於評估源自醫學執照考試的醫學知識。通用模型在這些任務中表現出色,擊敗了專業模型在其主場的表現。
Google 搜尋 AI 概述被作為控制組,代表醫生在繁忙輪班時實際會使用的快速參考工具。
一項2025年2月的研究發現,聊天機器人在臨床決策方面的表現優於僅能使用網際網路資料的醫生。
隨後,一項於2026年2月9日發表的隨機對照研究,涵蓋了英國的1,298名參與者。單獨使用的LLM在識別醫療狀況方面達到了94.9%的準確率。然而,在醫生與LLM協作的情況下,其表現並未超越對照組。
研究人員自身指出,高基準表現與實際臨床應用之間存在差距。法規合規性、電子健康記錄整合和責任框架並未體現在 MedQA 分數中。
但臨床醫生的偏好不容忽視。如果醫生主動更傾向使用 GPT-5.2 而非為他們專門開發的工具,這就是一個市場信號,而不僅僅是研究發現。
安全稳定的交易平台 | 新用户注册享专属福利
⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策