留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于数据剪辑的自训练信用评估集成分类模型

刘文杰 王国强

刘文杰, 王国强. 基于数据剪辑的自训练信用评估集成分类模型[J]. 上海工程技术大学学报, 2024, 38(1): 83-89. doi: 10.12299/jsues.23-0054
引用本文: 刘文杰, 王国强. 基于数据剪辑的自训练信用评估集成分类模型[J]. 上海工程技术大学学报, 2024, 38(1): 83-89. doi: 10.12299/jsues.23-0054
LIU Wenjie, WANG Guoqiang. Self-training credit evaluation integrated classification model based on data editing[J]. Journal of Shanghai University of Engineering Science, 2024, 38(1): 83-89. doi: 10.12299/jsues.23-0054
Citation: LIU Wenjie, WANG Guoqiang. Self-training credit evaluation integrated classification model based on data editing[J]. Journal of Shanghai University of Engineering Science, 2024, 38(1): 83-89. doi: 10.12299/jsues.23-0054

基于数据剪辑的自训练信用评估集成分类模型

doi: 10.12299/jsues.23-0054
基金项目: 国家自然科学基金面上项目资助(11971302);浦东新区科技发展基金产学研专项资金(人工智能)项目资助(PKX2020-R02);全国统计科学研究项目一般项目资助(2020LY067)
详细信息
    作者简介:

    刘文杰(1996−),女,硕士生,研究方向为机器学习与数据挖掘。E-mail:18737891691@163.com

    通讯作者:

    王国强(1977−),男,教授,博士,研究方向为最优化理论与算法、高维数据统计推断、统计优化和数据挖掘。E-mail:guoq_wang@hotmail.com

  • 中图分类号: TP391

Self-training credit evaluation integrated classification model based on data editing

  • 摘要: 针对信用数据不平衡及类标签数据难以获取的问题,提出一种基于数据剪辑的自训练信用评估集成分类模型。首先,采用合成少数类过采样法(SMOTE)在有标记样本上采样,以缓解数据不平衡性。其次,在少量带标签样本数据集上构建Stacking集成模型,并对无标记样本做“伪标记”,以获取类标签数据。最后,提出一种改进的双重加权半监督K近邻算法,并利用其剪辑伪标签数据和扩充训练集,直到模型收敛。使用UCI和Kaggle信用评估数据集进行仿真试验,结果表明,该模型具有更好的预测性能,更能有效识别少数类样本。
  • 图  1  基于SDWKNN的自训练信用评估流程图

    Figure  1.  Self-training credit evaluation glow chart based on SDWKNN

    表  1  数据集概况

    Table  1.   Data set overview

    数据集样本量特征数类别正样占比/%
    Taiwanese46189224.8
    Financial36708323.7
    下载: 导出CSV

    表  2  各个阶段参数设置

    Table  2.   Parameter Settings of each phase

    数据集SMOTE特征选择pSDWKNN
    Taiwanese(0.2, 4)4010(4, 6)
    Financial(0.3, 3)4010(4, 6)
    下载: 导出CSV

    表  3  混肴矩阵

    Table  3.   Mixed matrix

    预测类别真实正类真实负类
    预测正类TPFP
    预测负类FNTN
    下载: 导出CSV

    表  4  各个模型G值对比

    Table  4.   Comparisons of G values of each model

    编号Taiwanese数据集Financial数据集
    3:21:11:21:31:4均值3:21:11:21:31:4均值
    1 0.699 0.682 0.632 0.620 0.602 0.647 0.518 0.520 0.487 0.522 0.487 0.507
    2 0.664 0.696 0.671 0.629 0.609 0.654 0.491 0.480 0.519 0.499 0.459 0.490
    3 0.683 0.669 0.670 0.626 0.626 0.655 0.503 0.483 0.436 0.492 0.468 0.476
    4 0.664 0.680 0.680 0.641 0.658 0.665 0.708 0.713 0.707 0.707 0.707 0.708
    5 0.679 0.645 0.658 0.670 0.659 0.662 0.537 0.474 0.534 0.559 0.542 0.529
    6 0.706 0.678 0.709 0.697 0.688 0.696 0.707 0.713 0.718 0.718 0.718 0.715
    7 0.712 0.730 0.753 0.736 0.748 0.736 0.707 0.718 0.718 0.717 0.718 0.715
    8 0.726 0.724 0.759 0.748 0.756 0.743 0.707 0.718 0.718 0.718 0.718 0.716
    下载: 导出CSV

    表  5  各个模型F值对比

    Table  5.   Comparisons of F values of each model

    编号Taiwanese数据集Financial数据集
    3:21:11:21:31:4均值3:21:11:21:31:4均值
    1 0.577 0.554 0.489 0.469 0.463 0.510 0.355 0.364 0.322 0.357 0.309 0.341
    2 0.552 0.589 0.571 0.505 0.491 0.542 0.330 0.317 0.349 0.334 0.291 0.324
    3 0.583 0.564 0.575 0.512 0.517 0.550 0.351 0.329 0.269 0.342 0.308 0.320
    4 0.552 0.568 0.582 0.526 0.560 0.558 0.388 0.393 0.386 0.385 0.384 0.387
    5 0.561 0.508 0.524 0.540 0.536 0.534 0.295 0.233 0.289 0.308 0.303 0.286
    6 0.590 0.556 0.563 0.542 0.532 0.557 0.386 0.391 0.395 0.396 0.396 0.393
    7 0.574 0.588 0.585 0.536 0.562 0.569 0.386 0.397 0.395 0.391 0.394 0.393
    8 0.606 0.578 0.593 0.546 0.562 0.577 0.386 0.397 0.394 0.394 0.394 0.393
    下载: 导出CSV
  • [1] 高俊光, 刘旭, 朱辰辰. 小微企业信用评估的数据挖掘方法综述[J] . 金融理论与实践,2015(10):98 − 101. doi: 10.3969/j.issn.1003-4625.2015.10.019
    [2] 周永圣, 崔佳丽, 周琳云, 等. 基于改进的随机森林模型的个人信用风险评估研究[J] . 征信,2020,38(1):28 − 32. doi: 10.3969/j.issn.1674-747X.2020.01.006
    [3] 张田华, 罗康洋. 基于集成学习的上市公司高送转预测实证研究[J] . 计算机工程与应用,2022,58(10):255 − 262. doi: 10.3778/j.issn.1002-8331.2011-0224
    [4] 罗康洋, 王国强. 基于改进的MRMR算法和代价敏感分类的财务预警研究[J] . 统计与信息论坛,2020,35(3):77 − 85. doi: 10.3969/j.issn.1007-3116.2020.03.011
    [5] 张涛, 汪御寒, 李凯, 等. 基于样本依赖代价矩阵的小微企业信用评估方法[J] . 同济大学学报(自然科学版),2020,48(1):149 − 158. doi: 10.11908/j.issn.0253-374x.19017
    [6] YAROWSKY D. Unsupervised word sense disambiguation rivaling supervised methods[C]// Proceedings of the 33rd annual meeting on Association for Computational Linguistics. Cambridge: Association for Computational Linguistics, 1995: 189−196.
    [7] ZHOU Z H. When semi-supervised learning meets ensemble learning[C]// Proceedings of the 8th International Workshop on Multiple Classifier Systems. Reykjavik: Springer, 2009: 529−538.
    [8] HADY M F A, SCHWENKER F. Co-training by committee: A generalized framework for semi-supervised learning with committees[J] . International Journal of Software and Informatics,2008,2(2):95 − 124.
    [9] 黎春, 周振宇. 信用评分模型中拒绝推断问题研究: 基于半监督协同训练法的改进[J] . 统计研究,2019,36(9):82 − 92.
    [10] WANG G. D-self-smote: New method for customer credit risk prediction based on self-training and smote[J] . Icic Express Letters Part B Applications An International Journal of Research & Surveys,2018,9(3):241 − 246.
    [11] 肖进, 李思涵, 贺小舟, 等. 代价敏感的客户流失预测半监督集成模型研究[J] . 系统工程理论与实践,2021,41(1):188 − 199. doi: 10.12011/SETP2019-2879
    [12] 张天翼, 丁立新. 一种基于SMOTE的不平衡数据集重采样方法[J] . 计算机应用与软件,2021,38(9):273 − 279. doi: 10.3969/j.issn.1000-386x.2021.09.043
    [13] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic minority over-sampling technique[J] . Journal of Artificial Intelligence Research,2002,16:321 − 357. doi: 10.1613/jair.953
    [14] 岳鹏, 侯凌燕, 杨大利, 等. 基于XGBoost特征选择的疾病诊断XLC-Stacking方法[J] . 计算机工程与应用,2020,56(17):136 − 141.
    [15] WOLPERT D H. Stacked generalization[J] . Neural Networks,1992,5(2):241 − 259. doi: 10.1016/S0893-6080(05)80023-1
    [16] 陆万荣, 许江淳, 李玉惠. 面向Stacking集成的改进分类算法及其应用[J] . 计算机应用与软件,2022,39(2):281 − 286. doi: 10.3969/j.issn.1000-386x.2022.02.045
    [17] 韩嵩, 韩秋弘. 半监督学习研究的述评[J] . 计算机工程与应用,2020,56(6):19 − 27. doi: 10.3778/j.issn.1002-8331.1911-0083
    [18] 龚旭. 半监督协同训练算法中样本去噪的研究[D]. 重庆: 重庆师范大学, 2021.
    [19] 潘用科, 贺紫平, 夏克文, 等. 改进的协同训练半监督SVM在油层识别中的应用[J] . 郑州大学学报(工学版),2022,43(1):14 − 19. doi: 10.13705/j.issn.1671-6833.2022.01.001
    [20] 陈日新, 朱明旱. 半监督k近邻分类方法[J] . 中国图象图形学报,2013,18(2):195 − 200. doi: 10.11834/jig.20130210
    [21] 陈振洲, 李磊, 姚正安. 基于SVM的特征加权KNN算法[J] . 中山大学学报(自然科学版),2005(1):17 − 20. doi: 10.3321/j.issn:0529-6579.2005.01.005
    [22] UCI Machine Learning Repository. Taiwanese Bankruptcy Prediction[EB/OL]. (2020-06-27)[2022-12-23]. https://archive.ics.uci.edu/ml/datasets/Taiwanese+Bankruptcy+Prediction.html.
    [23] Kaggle. Financial distress Preduction[EB/OL]. (2017-12-15)[2022-12-23]. https://www.kaggle.com/datasets/shebrahimi/financial-distress.html.
  • 加载中
图(1) / 表(5)
计量
  • 文章访问数:  203
  • HTML全文浏览量:  109
  • PDF下载量:  83
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-03-06
  • 刊出日期:  2024-03-30

目录

    /

    返回文章
    返回