发布时间:2026-06-25
浏览量图标 1次浏览

通用型大語言模型在《自然醫學》研究中表現優於專用醫療 AI 工具

摘要

2026 年 6 月 12 日發表於《自然醫學》的一項研究發現,通用型大型語言模型在標準化的醫療任務中持續優於專用的臨床 AI 產品,且使用這些模型的臨床醫生也更偏好它們。

該研究實際測試的內容

研究人員將三款主要的通用大語言模型與專為醫療設計的工具進行對比。一邊是 OpenAI 的 GPT-5.2、Google 的 Gemini 3.1 Pro Preview 和 Anthropic 的 Claude Opus 4.6;另一邊則是專為醫療專業人員設計和推廣的臨床產品,例如 OpenEvidence 和 UpToDate Expert AI。

競賽內容包括 MedQA 問題,這是一個廣為認可的基準,用於評估源自醫學執照考試的醫學知識。通用模型在這些任務中表現出色,擊敗了專業模型在其主場的表現。

廣告

Google 搜尋 AI 概述被作為控制組,代表醫生在繁忙輪班時實際會使用的快速參考工具。

一個不斷重複的模式

一項2025年2月的研究發現,聊天機器人在臨床決策方面的表現優於僅能使用網際網路資料的醫生。

隨後,一項於2026年2月9日發表的隨機對照研究,涵蓋了英國的1,298名參與者。單獨使用的LLM在識別醫療狀況方面達到了94.9%的準確率。然而,在醫生與LLM協作的情況下,其表現並未超越對照組。

為何這不僅限於醫療保健領域

研究人員自身指出,高基準表現與實際臨床應用之間存在差距。法規合規性、電子健康記錄整合和責任框架並未體現在 MedQA 分數中。

但臨床醫生的偏好不容忽視。如果醫生主動更傾向使用 GPT-5.2 而非為他們專門開發的工具,這就是一個市場信號,而不僅僅是研究發現。

🚀 主流数字货币交易所推荐

安全稳定的交易平台 | 新用户注册享专属福利

Binance币安交易所LOGO

Binance 币安

全球最大加密货币交易所

立即注册 下载APP
OKX欧易交易所LOGO

OKX 欧易

老牌知名数字资产平台

立即注册 下载APP
Bybit交易所LOGO

Bybit

专业合约交易平台

立即注册 下载APP

⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部