内容精选

Content Selection

中国佳稿

Articles from China

BMJ Oncology | 将机器学习算法应用于全癌风险预测模型:大型前瞻性队列中的应用研究

  • 分享:

 主要发现:

BMJ Oncology期刊近期在线发表了来自浙江大学公共卫生学院吴息凤教授团队题为《Novel machine learning algorithm in risk prediction model for pan-cancer risk: application in a large prospective cohort》的模型研究。该研究成功开发并内部验证了一个基于常规体检数据的机器学习模型,该模型在预测亚洲人群全癌发病风险方面展示出了良好的预测性能和区分能力。

 

 

原文献信息:

Novel machine learning algorithm in risk prediction model for pan-cancer risk: application in a large prospective cohort.

Wu X, Tu H, Hu Q, et al.

BMJ Oncology 2024;3:e000087.
doi: 10.1136/ bmjonc-2023-000087

 

背景介绍
癌症是全球性的健康挑战,预计未来十年全球癌症发病率将增加27.4%,显示出其严重的威胁性和持续增长的趋势。鉴于癌症的高发性和严峻性,该研究旨在利用人口统计学、问卷调查和健康体检数据,开发了基于机器学习的全癌风险预测模型,以预测亚洲人群的全癌发病风险。该预测模型对于早期识别高危人群、制定个性化的预防策略具有重要意义。

研究方法

该研究人群来自美兆队列,其中包含来自中国台湾美兆健康管理机构进行的自费医疗筛查计划的前瞻性队列数据。研究的数据包括1996年至2008年间在台湾四个具有地理代表性的地区收集的标准化临床和问卷数据。研究纳入了来自美兆前瞻性队列的433,549名研究对象,包括208,599名男性(48.1%)和224,950名女性(51.9%)。收集的数据包括人口统计学信息、问卷调查结果和健康体检数据,为模型的开发提供了丰富的信息基础。关注的主要结局是自基线访视以来随访期间的癌症发病率。随访开始于参与者基线入组日期,结束于癌症诊断日期、死亡日期或队列随访结束日期(2007年12月31日),以先到者为准。在8年的中位随访中,男性发生癌症5143例,女性发生癌症4764例。该研究纳入了99个基于问卷的变量和90个基于医学测试的变量,其中包括人口统计学特征、生活方式变量、个人健康史、个人用药史、癌症及其他疾病家族史、医学检查、尿液、功能检查和体格检查。研究人员比较了Lasso-Cox,Random Survival Forests(RSF)和XGBoost这三个基于机器学习的生存预测模型在男性和女性队列的模型性能(ROC曲线下面积和校准度),并通过特征筛选,开发了使用常见健检指标的轻量级模型。

 

 

研究结果

该研究结果显示,与Lasso-Cox和RSF相比,XGBoost在男女队列中都表现出更优的性能。在男性队列中,包含所有155个特征的XGBoost模型实现了曲线下面积(AUC)为0.877;在女性队列中,包含所有160个特征的XGBoost模型实现了AUC为0.750。对于轻量级模型,男性队列包含31个变量,女性队列包含11个变量,它们表现出与完整模型相当的性能:男性队列中总体人群的AUC为0.876(95% CI 0.858至0.894),年龄≥40岁群体的AUC为0.818(95% CI 0.795至0.841);女性队列中总体人群的AUC为0.746(95% CI 0.721至0.771),年龄≥40岁群体的AUC为0.641(95% CI 0.605至0.677)。在使用模型对人群进行风险分层后,研究人员发现高危个体罹患全癌的风险是低危人群的9倍以上。

通过使用常规的体检数据, XGBoost预测模型可以帮助临床人员对个体进行患癌风险评估以及个人风险分层管理。以65岁的女性为例,如果癌症相关的指标(AFP和CEA)和肝功能相关的指标(AST、ALP、GGT和ALB)同时上升,那么10年患癌风险将从3.53%增加到9.03%。

 
结论
该研究成功开发并内部验证了一个基于常规体检数据的机器学习模型,用于预测亚洲人群的全癌发病风险。该模型在XGBoost算法的基础上,利用丰富的数据来源和严格的验证流程,展示了良好的预测性能和区分能力。特别是轻量级模型在少量预测因子的基础上取得了令人满意的预测效果,为未来的临床应用提供了坚实的基础。然而,值得注意的是,在将该模型应用于临床实践之前,还需要进行外部验证以进一步评估其泛化能力和实用性。 
 
 
 

作者简介

本文第一兼通讯作者:吴息凤,博士,国家级特聘专家、长江学者讲席教授、浙江省鲲鹏计划顶尖人才。浙江大学求是讲席教授,陈廷骅大健康讲席教授,博士研究生导师,浙江大学公共卫生学院院长、浙江大学医学院附属第二医院副院长、浙江大学陈廷骅大健康学院执行院长、浙江大学健康医疗大数据国家研究院院长。


该研究合作机构包括浙江大学医学院附属第二医院临床大数据与分析中心,浙江省全省智能预防医学重点实验室,浙江大学健康医疗大数据国家研究院,台湾台北市MJ健康研究基金会,台湾台北市MJ健康管理中心等。

 

 

 

关于 BMJ Oncology

BMJ Oncology是一本开放获取期刊,旨在发表有关癌症研究领域各个方面的高质量原创研究和综述文章。

 

创刊年份:2022年

官网:bmjoncology.bmj.com