内容精选

Content Selection

中国佳稿

Articles from China

BMJ Health & Care Informatics | 可解释性机器学习揭示用于区分MTB和NTM的关键实验室指标

  • 分享:

 主要发现

BMJ Health & Care Informatics期刊近日发表的一项研究利用机器学习技术实现了对结核分枝杆菌(MTB)与非结核分枝杆菌(NTM)感染的快速鉴别。该研究基于来自中国两家医院的临床实验室数据,构建并比较了六种机器学习模型,最终发现随机森林模型在区分MTB与NTM方面表现最佳。研究进一步结合SHAP可解释性分析,揭示了Cl、Na、性别及白蛋白等关键指标在模型判别中的重要作用。该成果为资源有限地区的结核病辅助诊断提供了新的技术路径与临床决策支持视角。

原文献信息:
Rapid discrimination of Mycobacterium tuberculosis and non-tuberculous mycobacteria disease via interpretive machine learning analysis of routine laboratory tests.
 
Tang J, Xiong X, Huang T et al. 
 
BMJ Health & Care Informatics. 2025;32:e101575.
doi: 10.1136/bmjhci-2025-101575
 
研究背景
MTB与NTM感染是临床中常见且易混淆的呼吸系统疾病,二者在症状和影像学表现上高度相似,但在治疗策略和公共卫生管理上存在显著差异。若无法在早期准确区分,患者可能面临误诊、延误治疗甚至耐药风险,进而加重疾病负担。尽管涂片和培养等传统方法在分枝杆菌检测中仍具价值,但其耗时长、灵敏度有限,难以满足临床对快速诊断的需求。已有研究表明,常规血液和生化指标可能蕴含区分MTB与NTM的潜在线索,但迄今仍缺乏回顾性的队列研究分析来明确核心判别特征及其临床意义。尤其是在缺乏多变量集成、具有可解释性并经过外部验证的预测模型的情况下,如何利用日常检验数据实现快速鉴别仍是亟待解决的重要问题。


研究方法
该研究基于中国江苏省两家传染病专科医院的466例确诊患者数据,整合49项常规实验室指标(包括人口学信息、血常规及生化指标),旨在在缺乏培养与基因检测条件时实现MTB与NTM的快速鉴别。研究采用AdaBoost、决策树、LightGBM和随机森林(RF)等六种机器学习模型,结合ROC曲线、交叉验证、校准曲线和决策曲线分析(CDA),对模型性能进行系统比较;并运用SHAP解析了特征贡献。
 

主要技术路径包括:

1. 性能验证和特征选择:在内部验证集中使用不同评价指标、ROC曲线、校准曲线和DCA分析来选择最佳诊断模型;通过计算不同特征相关系数,对特征进行筛选以消除特征共线性。

图1 内部验证队列中机器学习性能测试

 


2. 外部验证和可解释性分析:外部测试中RF性能最佳,准确率达到87.69%;可解释性分析发现了10项关键指标,揭示Cl、Na、白蛋白、高密度脂蛋白及性别等关键因素在判别过程中的核心作用。

 

图2 外部队列测试和可解释性分析


3. 在线诊断平台开发:基于SHAP筛选的10个关键特征构建RF模型并开发在线工具,用户可直接预测MTB或NTM感染的概率。

图3 基于核心指标的在线预测平台


 

主要结果包括:
• 基于49项常规实验室指标构建的多种机器学习模型中,RF模型显示出最优性能,在内部验证中达到82.71%的准确率,并在外部验证集上提升至87.69%,体现出良好的泛化能力与模型稳健性。决策曲线分析表明,RF模型在广泛的风险阈值范围内持续优于“全治疗”策略,提供更高的净临床获益。这不仅证明模型具备统计意义上的区分能力,也提示其在真实临床决策中具有帮助医生减少误治与漏治的实际应用价值。
• 模型在外部独立样本的准确率达到87.69%,进一步支持了该模型的可靠性及其广泛适用性。
• 结合SHAP解释性分析研究不仅确定了区分MTB与NTM的十大关键特征,其中,Cl与Na是贡献最高的特征,其SHAP依赖图显示,当Cl低于约104mmol/L或Na低于约136mmol/L时,模型显著倾向于判定为NTM感染。除电解质外,白蛋白、前白蛋白、高密度脂蛋白及降钙素原等指标的SHAP分布同样展示出明确的阈值趋势,反映出营养状态、炎症反应和感染背景在模型判决中的综合作用。
• 研究将模型部署为在线平台,用户仅需输入10项常规指标即可获得MTB或NTM的预测结果,实现快速、无创的辅助决策。该工具降低了对培养和分子检测的依赖,具备在基层与资源受限地区推广的可行性,也为后续扩展至更多分枝杆菌亚型鉴别提供了基础。

 

 
总结
研究结果证实基于常规实验室参数的机器学习诊断模型有望成为推动结核分枝杆菌和非结核分枝杆菌诊断方法发展的辅助工具。该模型为MTB和NTM的诊断和管理提供了一种更便捷、更经济的临床应用,尤其是在资源有限的地区。
 

作者信息
广东省人民医院王亮、徐州医科大学刘莘和淮安市第四人民医院蒋坤为论文共同通讯作者。西澳大学马歇尔中心唐佳伟、淮安市第五人民医院熊雪松和黄婷婷为论文共同第一作者。

 


 

关于 BMJ Health & Informatics
 
BMJ Health & Care Informatics是一本国际性的同行评议期刊,发表高质量的研究与评估文章、综述、研究方案、快报、评论和通讯文章。期刊重点关注信息学如何支持医疗护理服务的直接提供,公共健康战略与干预,以及学习型卫生系统的实施和国家政策问题。
 
收稿率:23%
出版频率:连续出版
出版速度:
       投稿至初步决定:93天(中位时间;含外审)
       接收至发表:21天(中位时间)
2024年影响因子:4.4
 
官网:informatics.bmj.com