新闻中心

News Center

BJO | AI会看眼科影像,却真的会推理吗?316道双语题实测三个多模态大模型

  • 来源:未知
  • 作者:bmjchina
  • 日期:2026-06-30
  • 分享:

主要发现

British Journal of Ophthalmology期刊近日发布的一项双语多模态基准研究用316道中英文眼科影像题,对3个多模态大模型进行了“开推理”和“关推理”的对照测试。结果显示:让模型解释为什么,通常能让答案更有条理,但并不等于每次都答得更准。

 

• 在316道中英文“临床病史+眼科影像”题目中,要求模型给出简短推理后,自动评分的推理质量在3个模型、2套数据中均提高。

• 准确率并未在所有场景同步提升:收益随模型、语言和数据集而变化,部分比较未达到统计学显著性。

• ChatGPT-5总体表现最佳;人工专家评分也提示,推理提示的收益并非对所有模型和中文数据都成立。

• 模型仍会漏掉关键影像征象、排除错误选项不充分,甚至给出可能影响临床安全的建议,不能替代眼科医生判断。

 
原文献信息:
Evaluating reasoning in multimodal large language models for ophthalmology: a bilingual benchmark study using clinical vignettes and imaging
 
Yin H, Zhao K, Shi D, et al.
 
British Journal of Ophthalmology Published Online First: 10 June 2026.
doi: 10.1136/bjo-2025-328992
 

研究背景

大语言模型已在多种纯文字医学考试中展现出较强的知识回忆能力。然而,眼科诊疗高度依赖视觉信息:裂隙灯照片、眼底照相、光学相干断层扫描(OCT)、超广角成像以及眼眶CT/MRI中的细微征象,往往决定最终诊断与处理。仅比较答案对错,难以判断模型是否真正整合了病史和影像,也无法发现“答案碰巧正确、理由却不可靠”的情况。


因此,该研究关注两个问题:第一,多模态大模型在中英文复杂眼科影像题上的表现如何;第二,要求模型给出简短临床推理,能否改善答案准确性、解释质量与安全性。


研究方法

研究纳入316道去标识化、以影像为核心的眼科题目,包括175道英文美国眼科学会基础与临床科学课程(BCSC)单选题,以及141道中文高级职称考试题。题目覆盖角膜、葡萄膜、青光眼、视网膜和眼眶疾病,每道题均由临床情景、1张眼科影像和备选答案组成,并由眼科医生核定答案。


研究比较CLM-V、ChatGPT-5和MiniCPM-V 4.5三个视觉语言模型。每个模型分别接受两种提示:在“推理开启”条件下,模型需用不超过3句话说明图像与临床依据,并简要排除其他选项;在“推理关闭”条件下,模型只输出最终答案。测试过程中关闭外部检索、浏览及工具调用。


评价采用双轨方案:一方面计算答案的完全匹配准确率;另一方面由自动量表从答案准确性、信息整合、临床逻辑、鉴别诊断/选项分析和安全性5个维度评分。另有两名具有10年以上经验的眼科医生盲法评价120份回答,其中50份由两人重复评分。

1 研究流程:构建中英文眼科临床情景+影像题库,在推理开启和关闭条件下测试3个多模态大模型,并同时评价准确率与推理质量。图源:原文Figure 1
研究结果
1. 自动评分显示,推理质量整体提高
在英文数据中,开启推理后,CLM-V、ChatGPT-5和MiniCPM-V 4.5的自动评价平均总分分别由14.97、20.77和10.83升至16.07、23.97和12.60;在中文数据中,则分别由9.03、19.95和11.05升至10.27、22.00和13.30。两种语言、两种提示条件下,ChatGPT-5的平均总分均最高。

中文子集中,ChatGPT-5和MiniCPM-V 4.5的自动推理总分提升达到统计学显著性,Holm校正后两者的调整后P值均为0.046。需要注意,自动评分与人工评分衡量的侧重点并不完全相同。

2 自动量表评价:蓝色为推理开启,红色为推理关闭。上半部分为英文题,下半部分为中文题;柱状图显示3个模型的平均总分。图源:原文Figure 4

2. 准确率改善具有模型和数据集差异

在具有完整配对输出的英文BCSC子集(30题)中,3个模型开启推理后的准确率均数值上升:CLM-V由53.3%升至63.3%,ChatGPT-5由80.0%升至93.3%,MiniCPM-V 4.5由40.0%升至53.3%;但这些差异均未达到统计学显著性。


在中文子集(37题)中,结果更不一致:ChatGPT-5由37.8%升至48.6%,MiniCPM-V 4.5由21.6%升至27.0%,而CLM-V由21.6%降至13.5%,同样均未达到统计学显著性。这意味着“要求解释”与“最终答对”之间并非简单的因果关系,提示效果还受模型能力、语言和题目构成影响。

3 3个模型在不同眼科亚专科中的正确率。A为全部题目,B为英文BCSC题,C为中文职称考试题;左列为推理开启,右列为推理关闭。该亚组分析为描述性结果,不宜据此建立固定的亚专科优劣排序。图源:原文Figure 3

3. 人工专家评价提醒:自动高分不等于临床可靠

两名专家的评分一致性较高(Cohen's κ=0.87,95%CI 0.83–0.90)。英文数据中,3个模型开启推理后的人工总分均更高;中文数据中,仅ChatGPT-5由9.35升至10.22,CLM-V基本不变,MiniCPM-V 4.5反而由7.92降至7.27。由此可见,自动评价与临床专家可能捕捉到不同维度的推理质量,二者应结合使用。


4. 典型案例:错误理由可能比错误答案更危险

研究对4个病例进行了定性分析。在新生血管性青光眼病例中,开启推理更有助于把缺血机制与降眼压、抗血管内皮生长因子治疗、全视网膜光凝及必要时手术联系起来;在类风湿关节炎相关周边溃疡性角膜炎病例中,推理关闭时模型曾把局部糖皮质激素误作一线处理,忽视全身性血管炎及系统治疗需求,带来潜在安全风险。


此外,模型还可能混淆与眼眶骨质增生相关的病变,或把铺路石样变性与格子样变性混为一谈,进而错误估计视网膜脱离风险。这些案例说明,临床应用不能只看最终选项,还必须审查模型是否抓住决定性影像征象、是否完整排除鉴别诊断,以及建议是否安全。

 
总结

该项双语多模态基准研究表明,要求大模型给出简短推理,通常可改善回答的可解释性和自动量表评分,并在多数场景带来数值上的准确率提升;但其效果并不稳定,也不能推广为“开启推理必然更准确”。尤其在中文题和不同模型之间,人工评价所见收益存在明显差异。


对医学教育而言,多模态模型可作为互动式辅导工具,帮助学习者梳理影像线索、诊断逻辑和鉴别诊断。对临床决策支持而言,模型或可用于提示关键征象和管理路径,但目前仍不适合脱离专业监督独立工作。未来基准应纳入纵向影像、手术决策、罕见病及真实临床工作流,并同时保留准确率、推理质量、错误模式和安全性评价。

该研究也存在局限:题库不能覆盖真实世界眼科诊疗的全部复杂性;仅评价了3个快速迭代的模型;尚未开展前瞻性临床验证;专有模型的训练语料不透明,无法完全排除基准泄漏;儿童眼科和神经眼科等亚专科代表不足。因此,研究结果更适合用于理解当前模型能力边界,而不是直接证明其已具备临床部署条件


作者信息

浙江大学医学院附属第二医院眼科中心尹厚发为论文第一作者浙江大学医学院附属第二医院眼科中心金凯为论文通讯作者


关于 British Journal of Ophthalmology
British Journal of Ophthalmology期刊服务于眼科医生和视觉科学专家,发表眼科学临床调查、临床观察以及与临床相关的实验室研究。期刊主要特色包括同时涉及临床和实验室内容的文章、最新大型综述、教育相关文章等。
收稿率:13%
出版频率:月刊
出版速度:投稿至初步决定:60天 (中位时间;含外审)
                 接收至发表:21天(中位时间)
2025年影响因子:4.5
官网:bjo.bmj.com