唐家尧 余粟

唐家尧, 余粟. 基于提升决策树算法的心脏病鉴别[J]. 上海工程技术大学学报, 2024, 38(4): 465-470. doi: 10.12299/jsues.24-0219
TANG Jiayao, YU Su. Heart disease identification based on boosted decision tree[J]. Journal of Shanghai University of Engineering Science, 2024, 38(4): 465-470. doi: 10.12299/jsues.24-0219
doi: 10.12299/jsues.24-0219
基金项目: 国家科技支撑计划项目资助(2015BAF10B00);上海市科委科研计划项目资助(17511110204)

    唐家尧(1995 − ),男,硕士生,研究方向为机器学习。E-mail:1444430622@qq.com


    余 粟(1962 − ),女,教授,硕士,研究方向为大数据。E-mail:yusu@sues.edu.cn

  • 中图分类号: O434

Heart disease identification based on boosted decision tree

  • 摘要: 基于高能物理数据分析的ROOT框架下的梯度提升决策树(BDTG)模型,提出一种多变量分析法用于心脏病鉴别。通过大量的临床数据,分析变量的各种复杂关系提高心脏病鉴别的准确性和可靠性。使用Kaggle开源心脏病数据集,结果表明,模型在BDTG响应值为−0.4~0.5时,没有出现错误鉴别情况。当BDTG响应值的截断为−0.6或0.6时,模型的准确率、查准率、查全率和F1分数达到98%以上。该模型在心脏病诊断方面具有较高的准确性和可靠性,不仅为心脏病预测提供新视角和方法,也为其他疾病的机器学习预测研究提供参考。
  • 图  1  心脏病患者与正常人的输入变量分布

    Figure  1.  Distribution of input variables between heart disease patients and normal individuals

    图  2  决策树示意图

    Figure  2.  Schematic view of a decision tree

    图  3  特征变量的关联矩阵

    Figure  3.  Correlation matrix among feature variables

    图  4  BDTG 响应分布

    Figure  4.  BDTG response distribution

    表  1  数据集特征变量

    Table  1.   Dataset feature variable

    序号 特征 描述
    1 Age 年龄
    2 Sex 性别
    3 Cp 胸痛类型
    4 Trestbps 静息血压/(mm·Hg−1)
    5 Chol 胆固醇/(mg·dL−1)
    6 Fbs 空腹血糖
    7 Restecg 静息心电图
    8 Thalach 最大心率
    9 Exang 运动诱发性心绞痛
    10 Oldpeak ST抑制
    11 Ca 主要血管数量
    12 Thal 地中海贫血
    13 Target 心脏病
    表  2  4种预测结果类别的具体描述

    Table  2.   Description of four prediction result categories

    类型 描述
    TP(真正例) 真实值为1,预测值为1
    TN(真负例) 真实值为0,预测值为0
    FP(假正例) 真实值为0,预测值为1
    FN(假负例) 真实值为1,预测值为0
    表  3  BDTG调节参数

    Table  3.   BDTG tuning parameters

    参数 含义 设置
    Ntree 树的数量 1000
    BoostType 提升算法类型 Gradient
    Shrinkage GradientBoost算法学习率 0.1
    nCuts 节点切割优化过程步骤数 20
    MaxDepth MaxDepth 决策树最大深度
    表  4  特征变量影响排序

    Table  4.   Influence of characteristic variable ranking

    表  5  BDTG 响应在不同值截断的模型表现评价

    Table  5.   BDTG performance measurements

    BDTG响应 查准率/% 查全率/% F1分数/%
    −0.6 98.84 100 99.42
    −0.5 99.88 100 99.94
    −0.45 99.97 100 99.98
    −0.4~0.5 100 100 100
    0.55 100 99.86 99.93
    0.6 100 99.39 99.69
