BJO | AI会看眼科影像，却真的会推理吗？316道双语题实测三个多模态大模型-公司新闻-BMJ官网

新闻中心

News Center

当前位置：首页>新闻中心>公司新闻

BJO | AI会看眼科影像，却真的会推理吗？316道双语题实测三个多模态大模型

来源：未知
作者：bmjchina
日期：2026-06-30
分享：

主要发现

British Journal of Ophthalmology期刊近日发布的一项双语多模态基准研究用316道中英文眼科影像题，对3个多模态大模型进行了“开推理”和“关推理”的对照测试。结果显示：让模型解释为什么，通常能让答案更有条理，但并不等于每次都答得更准。

• 在316道中英文“临床病史+眼科影像”题目中，要求模型给出简短推理后，自动评分的推理质量在3个模型、2套数据中均提高。

• 准确率并未在所有场景同步提升：收益随模型、语言和数据集而变化，部分比较未达到统计学显著性。

• ChatGPT-5总体表现最佳；人工专家评分也提示，推理提示的收益并非对所有模型和中文数据都成立。

• 模型仍会漏掉关键影像征象、排除错误选项不充分，甚至给出可能影响临床安全的建议，不能替代眼科医生判断。

原文献信息：

Evaluating reasoning in multimodal large language models for ophthalmology: a bilingual benchmark study using clinical vignettes and imaging

Yin H, Zhao K, Shi D, et al.

British Journal of Ophthalmology Published Online First: 10 June 2026.

doi: 10.1136/bjo-2025-328992

研究背景

大语言模型已在多种纯文字医学考试中展现出较强的知识回忆能力。然而，眼科诊疗高度依赖视觉信息：裂隙灯照片、眼底照相、光学相干断层扫描（OCT）、超广角成像以及眼眶CT/MRI中的细微征象，往往决定最终诊断与处理。仅比较答案对错，难以判断模型是否真正整合了病史和影像，也无法发现“答案碰巧正确、理由却不可靠”的情况。

因此，该研究关注两个问题：第一，多模态大模型在中英文复杂眼科影像题上的表现如何；第二，要求模型给出简短临床推理，能否改善答案准确性、解释质量与安全性。

研究方法

研究纳入316道去标识化、以影像为核心的眼科题目，包括175道英文美国眼科学会基础与临床科学课程（BCSC）单选题，以及141道中文高级职称考试题。题目覆盖角膜、葡萄膜、青光眼、视网膜和眼眶疾病，每道题均由临床情景、1张眼科影像和备选答案组成，并由眼科医生核定答案。

研究比较CLM-V、ChatGPT-5和MiniCPM-V 4.5三个视觉语言模型。每个模型分别接受两种提示：在“推理开启”条件下，模型需用不超过3句话说明图像与临床依据，并简要排除其他选项；在“推理关闭”条件下，模型只输出最终答案。测试过程中关闭外部检索、浏览及工具调用。

评价采用双轨方案：一方面计算答案的完全匹配准确率；另一方面由自动量表从答案准确性、信息整合、临床逻辑、鉴别诊断/选项分析和安全性5个维度评分。另有两名具有10年以上经验的眼科医生盲法评价120份回答，其中50份由两人重复评分。

图1 研究流程：构建中英文眼科“临床情景+影像”题库，在推理开启和关闭条件下测试3个多模态大模型，并同时评价准确率与推理质量。图源：原文Figure 1。

研究结果

1. 自动评分显示，推理质量整体提高
在英文数据中，开启推理后，CLM-V、ChatGPT-5和MiniCPM-V 4.5的自动评价平均总分分别由14.97、20.77和10.83升至16.07、23.97和12.60；在中文数据中，则分别由9.03、19.95和11.05升至10.27、22.00和13.30。两种语言、两种提示条件下，ChatGPT-5的平均总分均最高。

中文子集中，ChatGPT-5和MiniCPM-V 4.5的自动推理总分提升达到统计学显著性，Holm校正后两者的调整后P值均为0.046。需要注意，自动评分与人工评分衡量的侧重点并不完全相同。

图2 自动量表评价：蓝色为推理开启，红色为推理关闭。上半部分为英文题，下半部分为中文题；柱状图显示3个模型的平均总分。图源：原文Figure 4。

2. 准确率改善具有模型和数据集差异

在具有完整配对输出的英文BCSC子集（30题）中，3个模型开启推理后的准确率均数值上升：CLM-V由53.3%升至63.3%，ChatGPT-5由80.0%升至93.3%，MiniCPM-V 4.5由40.0%升至53.3%；但这些差异均未达到统计学显著性。

在中文子集（37题）中，结果更不一致：ChatGPT-5由37.8%升至48.6%，MiniCPM-V 4.5由21.6%升至27.0%，而CLM-V由21.6%降至13.5%，同样均未达到统计学显著性。这意味着“要求解释”与“最终答对”之间并非简单的因果关系，提示效果还受模型能力、语言和题目构成影响。

图3 3个模型在不同眼科亚专科中的正确率。A为全部题目，B为英文BCSC题，C为中文职称考试题；左列为推理开启，右列为推理关闭。该亚组分析为描述性结果，不宜据此建立固定的亚专科优劣排序。图源：原文Figure 3。

3. 人工专家评价提醒：自动高分不等于临床可靠

两名专家的评分一致性较高（Cohen's κ=0.87，95%CI 0.83–0.90）。英文数据中，3个模型开启推理后的人工总分均更高；中文数据中，仅ChatGPT-5由9.35升至10.22，CLM-V基本不变，MiniCPM-V 4.5反而由7.92降至7.27。由此可见，自动评价与临床专家可能捕捉到不同维度的推理质量，二者应结合使用。

4. 典型案例：错误理由可能比错误答案更危险

研究对4个病例进行了定性分析。在新生血管性青光眼病例中，开启推理更有助于把缺血机制与降眼压、抗血管内皮生长因子治疗、全视网膜光凝及必要时手术联系起来；在类风湿关节炎相关周边溃疡性角膜炎病例中，推理关闭时模型曾把局部糖皮质激素误作一线处理，忽视全身性血管炎及系统治疗需求，带来潜在安全风险。

此外，模型还可能混淆与眼眶骨质增生相关的病变，或把铺路石样变性与格子样变性混为一谈，进而错误估计视网膜脱离风险。这些案例说明，临床应用不能只看最终选项，还必须审查模型是否抓住决定性影像征象、是否完整排除鉴别诊断，以及建议是否安全。

总结

该项双语多模态基准研究表明，要求大模型给出简短推理，通常可改善回答的可解释性和自动量表评分，并在多数场景带来数值上的准确率提升；但其效果并不稳定，也不能推广为“开启推理必然更准确”。尤其在中文题和不同模型之间，人工评价所见收益存在明显差异。

对医学教育而言，多模态模型可作为互动式辅导工具，帮助学习者梳理影像线索、诊断逻辑和鉴别诊断。对临床决策支持而言，模型或可用于提示关键征象和管理路径，但目前仍不适合脱离专业监督独立工作。未来基准应纳入纵向影像、手术决策、罕见病及真实临床工作流，并同时保留准确率、推理质量、错误模式和安全性评价。

该研究也存在局限：题库不能覆盖真实世界眼科诊疗的全部复杂性；仅评价了3个快速迭代的模型；尚未开展前瞻性临床验证；专有模型的训练语料不透明，无法完全排除基准泄漏；儿童眼科和神经眼科等亚专科代表不足。因此，研究结果更适合用于理解当前模型能力边界，而不是直接证明其已具备临床部署条件。

作者信息

浙江大学医学院附属第二医院眼科中心尹厚发为论文第一作者，浙江大学医学院附属第二医院眼科中心金凯为论文通讯作者。

关于 British Journal of Ophthalmology
British Journal of Ophthalmology期刊服务于眼科医生和视觉科学专家，发表眼科学临床调查、临床观察以及与临床相关的实验室研究。期刊主要特色包括同时涉及临床和实验室内容的文章、最新大型综述、教育相关文章等。

收稿率：13%
出版频率：月刊
出版速度：投稿至初步决定：60天（中位时间；含外审）
接收至发表：21天（中位时间）
2025年影响因子：4.5

官网：bjo.bmj.com

新闻中心

BJO | AI会看眼科影像，却真的会推理吗？316道双语题实测三个多模态大模型

法律声明| 网站地图