Self-training credit evaluation integrated classification model based on data editing
-
摘要: 针对信用数据不平衡及类标签数据难以获取的问题,提出一种基于数据剪辑的自训练信用评估集成分类模型。首先,采用合成少数类过采样法(SMOTE)在有标记样本上采样,以缓解数据不平衡性。其次,在少量带标签样本数据集上构建Stacking集成模型,并对无标记样本做“伪标记”,以获取类标签数据。最后,提出一种改进的双重加权半监督K近邻算法,并利用其剪辑伪标签数据和扩充训练集,直到模型收敛。使用UCI和Kaggle信用评估数据集进行仿真试验,结果表明,该模型具有更好的预测性能,更能有效识别少数类样本。
-
关键词:
- 信用评估 /
- 半监督学习 /
- Stacking集成策略 /
- 数据剪辑 /
- 自训练
Abstract: Aiming at the problems of unbalance of credit data and difficult acquisition of label data, a self-training credit evaluation integrated classification model based on data editing was proposed. Firstly, synthetic minority over-sampling technique (SMOTE) was used to sample labeled samples to alleviate data imbalance. Secondly, a Stacking integration model was constructed on a few labeled sample datasets and unlabeled samples were "falsified" to obtain label-like data. Finally, an improved semi-supervised double-weighted K-nearest neighbor algorithm was proposed, which was used to clip the pseudo-label data and expand the training set until the model converged. Simulation experiments of UCI and Kaggle credit evaluation dataset show that the model has better predictive performance and can identify a few types of samples more effectively. -
信用风险评估是典型的二分类问题,个人贷款、企业贷款、信用评级等都属于信用风险评估中研究的热点问题。逻辑斯蒂回归、支持向量机和神经网络等[1]机器学习方法在信用评估领域得到广泛应用。然而,信用数据的高维和不平衡的典型特征使得机器学习方法在实际研究中遇到诸多困难。近年来,一些学者利用简约子集[2]、集成学习[3]、代价敏感学习[4]和过采样技术[5]等方法对信用数据在实际中的应用提出了具体的解决方案。已有研究存在以下不足:一是常用特定的单一模型,稳健性差且性能不稳定,在多变的经济环境中表现往往差强人意;二是信用数据一般标签缺失度较高且数据极度不平衡,当监督数据不足时,很难学习到泛化能力强的模型。
为此,国内外学者借助半监督学习在监督数据不足的情况下,利用大量的无标记样本来提升模型性能。其中,自训练算法[6](self-training)由于没有特定的假设条件,简易有效,得到广泛应用。然而,在self-training中,无标记样本被错误标记会降低模型性能,当错误积累到一定程度后,还会使原本的样本空间结构发生扭曲。针对平衡数据集的情形,Zhou[7]从理论和实践角度论证了半监督学习和集成学习之间的互益性,前者可以最大化模型的多样性,后者可以提高“伪标记”的正确性。Hady等[8]构建了一种集成式的自训练学习框架(co-training by committee, CoBC),通过融合多个基学习器提高伪标记样本的准确性。
然而,在处理不平衡数据时,上述模型的性能会显著下降。对此,黎春等[9]在半监督协同训练中借助Bagging构建动态集成模型,引入分类阈值来提高对无标记样本预测的准确性。Wang[10]在self-training中利用合成少数类过采样法(synthetic minority over-sampling technique,SMOTE)处理数据的不平衡问题。肖进等[11]将协同训练、Bagging集成学习和Metacost代价敏感学习等技术相结合,提出代价敏感的半监督集成模型。已有研究主要将监督学习下解决不平衡问题的方法与半监督学习方法相结合,忽略了类不平衡下半监督数据的分布情况,即不平衡数据集周围存在大量的无标记样本,其类别分布也是不平衡的。基于此,本研究在解决半监督数据不平衡问题时,从有标记数据和无标记数据不平衡分布的两方面出发进行研究。本研究提出一种基于数据剪辑的自训练信用评估集成分类模型,主要包括3个阶段:1)生成伪标记前,对有标记数据进行SMOTE过采样,解决样本数据的不平衡问题;2)生成伪标记时,使用Stacking集成策略融合XGBoost、LightGBM和CatBoost三个分类器,提高无标记样本的伪标记质量;3)生成伪标记后,利用双重加权半监督K近邻(semi-superised double weighted K-nearest neighbor,SDWKNN)算法对无标记样本及其伪标记进行剪辑,以减少伪标记样本的错误积累,有效缓解模型性能的下降。
1. 相关理论
1.1 SMOTE采样
信用数据通常是不平衡的,对数据进行重采样是有效缓解数据不平衡的手段[12]。其中,欠采样主要通过减少多数类样本数量,直至和少数类形成一定比例来达到样本间的平衡,但可能会删去潜在有效的数据,过采样可以保留样本的全部信息。Chawla等[13]提出的SMOTE方法是典型的合成少数类过采样技术,该方法能够针对随机过采样中放大少数类噪声的缺点,通过在少数类样本和其
k 个近邻样本之间随机插值,生成新的少数类样本,有效缓解过拟合风险。为进一步减少过拟合,考虑到类不平衡下半监督数据的分布特性,即在类不平衡的有标记数据周围存在着大量类不平衡的无标记数据。本研究从3个阶段对数据进行预处理:
1)训练模型前利用SMOTE缓解数据集的不平衡性时,每次都对扩充过的有标记训练集进行采样,能够同时对有标记样本和无标记样本进行随机插值;
2)在每次训练模型后删除SMOTE合成的样本,以减少重采样带来的错误积累,有效解决模型过拟合问题;
3)SMOTE算法中的参数
sampling_strategy 可以有效控制算法过拟合的程度,通过参数寻优来抑制算法过拟合。1.2 Stacking集成模型
梯度提升决策树[14]由于算法性能优越得到广泛应用,其改进算法Catboost、LightGBM和XGBoost在处理高维数据时,稳健性较好且均优于主流的学习方法。Stacking[15]是一种集成模型的策略,即在初始训练集上使用交叉验证训练多个初级学习器,将其分类结果进行横向堆叠形成新的训练集来训练次级分类器,以提升模型的性能。相对于减少方差的Bagging和减少偏差的Boosting算法来说,Stacking集成算法不仅能将传统的分类算法集成在一起,还能组合Boosting和Bagging生成集成信用评估分类模型,从而显著提升模型的泛化能力[16]。
为提高自训练过程中伪标记预测的准确性,本研究选择Stacking集成算法作为基分类器。其中,选择XGBoost、LightGBM和CatBoost作为Stacking算法中的初级学习器,选择Logistic回归(LR)分类器作为次级学习器。为避免过拟合问题,选择初级学习器输出的分类概率作为高层分类器输入。
1.3 半监督K近邻算法
通常自训练中基分类器泛化能力强意味着伪标记预测是正确的,但不能保证分类性能提高[17]。除提高自训练中分类器的预测能力之外,部分学者通过数据剪辑技术[18]对无标签样本及其伪标记进行修正和净化,以除去错误的伪标记样本。潘用科等[19]利用改进的近邻剪辑技术来估计样本的标签置信度。陈日新等[20]采用联合概率密度作为样本的分类依据提出半监督K近邻(semi-supervised K-nearest neighbor, SKNN)算法,基本步骤如下。
首先,计算待测样本第
k+1 个近邻样本xt(k+1) 到xt 的距离d(xt,xt(k+1)) ,标准化这k 个近邻样本到其最近的c 个待测样本{xj,j=1,2,⋯,c} 的距离d(xj,xt(l)) ,公式为D(xj,xt(l))=d(xj,xt(l))d(xj,xt(k+l)),l=1,2,⋯,k (1) 其次,用高斯核函数将
D(xj,xt(l)) 转化为两者属于同类的概率P(xt(l)|xj) 为P(xt(l)|xj)=1√2πexp(−D(xj,xt(l))2) (2) 最后,由公式
yt=argmaxwsk∑l=1(t∏j=t−cP(xt(l)|xj))I(y(l)=ws) (3) 确定样本
xt 所属类别。SKNN能够有效利用大量的无标记样本来学习待测样本周围的数据分布,从而提高模型的泛化性能。在SKNN的实践过程中,根据样本的所有特征计算样本距离。由于不同特征与分类相关程度不同,还有一些特征与分类是不相关的,这样导致样本距离被大量不相关的特征所影响,产生“维度爆炸”及噪声问题,使得SKNN无法合理度量样本间的相似度[21]。
2. 基于数据剪辑的自训练信用评估集成分类模型
本研究首先基于SKNN算法提出SDWKNN算法,从而更好地对伪标记数据进行剪辑以及减少噪声的积累。进一步结合半监督学习、Stacking集成策略和SDWKNN算法构建基于数据剪辑的自训练信用评估集成分类模型,以提高其泛化性能。
2.1 SDWKNN算法
在SKNN基础上,本研究提出SDWKNN算法对数据进行剪辑,并考虑不同特征与分类相关程度不同的影响。借鉴文献[21]在改进K近邻算法中利用特征重要性对特征进行加权的思想,基于待测样本周围的有标记样本和无标记样本计算样本间距离时不仅对样本间距离进行加权,而且对特征进行加权。在计算两个样本间的距离时与文献[21]基于支持向量机(support vector machine, SVM)分类函数的权重分量对特征加权不同,本研究采用XGBoost特征选择算法来提取最佳特征,对特征的重要性程度进行衡量并加权,公式为
dw(xi,xj)=√m∑l=1(wl)2(xli−xlj)2 (4) 式中:
wl 为XGBoost中各个特征用于树分割次数的总和,衡量各个特征对模型贡献的重要度[14]。SDWKNN算法的主要步骤如下。
输入:正负样本比例
ratio 、正类样本个数p、待测样本近邻的有标记样本数k、无标记样本数c,有标记训练集L、无标记训练集U、伪标记样本集D、伪标记样本集m中样本个数p、样本空集Filtered_D 。输出:经过剪辑净化后的样本集
Filtered_D 。For
1)在L和U中分别选取
xt (xt∈D,t=1,⋯,m )的k 个最近邻样本和c 个最近邻样本,计算无标记样本xt 属于ws 类别的概率[21],公式为P(xt(ws))=k∑l=1(t∏j=t−cP(xt(l)|xj))I(y(l)=ws)∑ws=1,2k∑l=1(t∏j=t−cP(xt(l)|xj))I(y(l)=ws) (5) 2)当
xt 的伪标签为少数类时,选择P(xt(ws)) 最高的p 个样本加入Filtered_D 中;当伪标签为多数类时,选择伪标签类别概率最高的p×ratio 个样本,若P(xt(ws))>0.5 ,则加入Filtered_D 中,否则将其删去。2.2 基于SDWKNN的自训练信用评估集成分类模型
记
L 为企业信用评估问题的初始有标记训练集,T 为测试集,U 为无标记训练集。本研究结合半监督学习、Stacking集成策略和SDWKNN提出一种基于数据剪辑的集成自训练信用评估集成分类模型。模型的建模流程如图1所示。建模过程中对不平衡数据的处理和伪标记样本集的剪辑是核心步骤,详细的模型步骤如下。
输入:有标记训练集L,无标记训练集U,测试集T,每次选择性标记的正类样本个数p,L中正负样本比例
ratio ,有标记近邻样本数k,无标记近邻样本数c,最大迭代次数M。输出:最终的Stacking集成模型在测试集
T 上的分类结果。1)利用SMOTE对
L 采样得到新的训练集L;2)在
LSMOTE 上训练集成模型Stacking,对U 中样本进行分类预测,得到伪标记样本集D ;3)使用SDWKNN对
D 中的样本进行剪辑,得到Filtered_D ,将Filtered_D 中样本加入到L中,并将其从U 和Filtered_D 中删去;4)重复执行以上步骤,直至达到最大迭代次数或者
U 为空集;5)对最终的训练集L过采样得到
LSMOTE ,并训练得到Stacking集成模型,对测试集T进行分类。3. 试验结果及分析
3.1 数据来源及数据预处理
本研究选取UCI数据库中的Taiwanese Bankruptcy Prediction Data Set[22]数据集和Kaggle数据库中Financial Distress Prediction[23]数据集进行试验研究。前者是预测公司是否破产的数据集:当类标签为0时,表示该公司正常;当类标签为1时,表示该公司破产。后者是预测样本公司是否陷入财务困境的数据集:当目标变量大于−0.5时,该公司被视为健康(0);否则被视为财务困境(1)。这两个数据集中其他数据为样本公司的财务特征和非财务特征。将两个数据集中财务困境或者破产的样本记为正样本,否则记为负样本。
对两个数据集进行数据预处理。首先,进行缺失值处理,删去数据中缺失程度大于1/3的特征;针对代表破产的样本,删去超过10个缺失值的样本;针对代表未破产的样本,删去所有含有缺失值的样本。其次,对于缺失值,使用每个特征的均值对其填充。最后,使用离差标准化去除数据的量纲。数据处理结果见表1。可以看出,这两个数据集均为类别分布极度不平衡的数据。
表 1 数据集概况Table 1. Data set overview数据集 样本量 特征数 类别 正样占比/% Taiwanese 4618 92 2 4.8 Financial 3670 83 2 3.7 3.2 试验设计
首先,将公开数据集按类别分层划分为3个子集:有标记训练集L、无标记训练集U和测试集T。其中,在所有样本中抽取20%的样本作为测试集T,剩下80%的样本中依照比例分层划分为有标记训练集L和无标记训练集U,并将U中标签删去当作无标记样本。不失一般性,取L和U的比例分别为3∶2、1∶1、1∶2、1∶3和1∶4。
其次,在L上训练有监督模型,在L和U上训练半监督模型。选择不同的有监督和无监督算法,将XGBoost、CatBoost、LightGBM和Stacking等4种有监督学习算法以及协同训练算法co-triaining和自训练算法self-training等2种半监督学习算法与本研究模型的性能在不同的无标记样本比例下进行综合对比。为验证本研究所提SDWKNN算法的有效性,选择结合SMOTE和SKNN[20]的Stacking自训练方法(stacking self-training combined SMOTE and SKNN,4S)与本研究所提SDWKNN算法进行比较。
最后,半监督算法的分类模型均选择本研究提出的Stacking集成模型。其中,初级学习选择XGBoost、LightGBM和CatBoost,次级学习器选择Logistic回归分类器。在半监督的每次迭代中都重新训练Stacking集成模型,并对无标记样本进行预测,以增加分类器的多样性和随机性,避免偶然性或随机性导致的预测失败累积。
为了选择不同算法的最优参数,使其在测试集上达到最高的性能以及充分验证模型的有效性,对不同模型进行五折交叉验证,所有比例下同一模型的参数保持一致,将其评估指标的均值进行对比。在本研究算法中,SMOTE过采样比例和采样近邻数
(sampling_strategy,K_neighbors) 、选择特征个数f 、每次选择性标记的正类样本个数p 以及SDWKNN中有标记近邻数和无标记近邻数(k,c) 是较为重要的参数。根据以往经验以及在数据集上反复调参的结果,参数设置见表2。表 2 各个阶段参数设置Table 2. Parameter Settings of each phase数据集 SMOTE 特征选择 p SDWKNN Taiwanese (0.2, 4) 40 10 (4, 6) Financial (0.3, 3) 40 10 (4, 6) 3.3 分类评估指标
本研究所提出的模型本质是对高维类数据不平衡数据构建信用评估集成分类模型,传统衡量分类模型性能的评价指标如精确率等不再适用[3-4]。本研究构建利用混肴矩阵,见表3。
表 3 混肴矩阵Table 3. Mixed matrix预测类别 真实正类 真实负类 预测正类 TP FP 预测负类 FN TN 利用混肴矩阵构造正类(少数类)样本召回率
rrp 、正类(少数类)样本查准率prp 、G-means(G)值和F-value(F)值,定义为rrp=TP/(TP+FN) (6) prp=TP/(TP+FP) (7) rrn=TN/(FP+TN) (8) G=√rrp×rrn (9) F=2rrP×prprrP+prp (10) 式中:
rrp 为违约样本被正确预测的概率;rrn 为非违约样本被正确预测的概率;G为模型对两种类别的样本预测正确的性能,G值越大,代表模型整体的性能越强;F为违约样本的召回率和精准率,F值越大,表明模型对违约样本的识别能力越强。3.4 试验结果分析
本试验给出4种有监督学习算法和4种半监督学习算法在公开数据集上的G值和少数类的F值,见表4和表5。表中,编号1、2、3、4、5、6、7、8分别代表CatBoost、XGBoost、LightGBM、Stacking、Co-training、Selftraining、4S和本研究模型,黑色粗体数值为每个无标记样本比例下的最优值。
表 4 各个模型G值对比Table 4. Comparisons of G values of each model编号 Taiwanese数据集 Financial数据集 3:2 1:1 1:2 1:3 1:4 均值 3:2 1:1 1:2 1:3 1:4 均值 1 0.699 0.682 0.632 0.620 0.602 0.647 0.518 0.520 0.487 0.522 0.487 0.507 2 0.664 0.696 0.671 0.629 0.609 0.654 0.491 0.480 0.519 0.499 0.459 0.490 3 0.683 0.669 0.670 0.626 0.626 0.655 0.503 0.483 0.436 0.492 0.468 0.476 4 0.664 0.680 0.680 0.641 0.658 0.665 0.708 0.713 0.707 0.707 0.707 0.708 5 0.679 0.645 0.658 0.670 0.659 0.662 0.537 0.474 0.534 0.559 0.542 0.529 6 0.706 0.678 0.709 0.697 0.688 0.696 0.707 0.713 0.718 0.718 0.718 0.715 7 0.712 0.730 0.753 0.736 0.748 0.736 0.707 0.718 0.718 0.717 0.718 0.715 8 0.726 0.724 0.759 0.748 0.756 0.743 0.707 0.718 0.718 0.718 0.718 0.716 表 5 各个模型F值对比Table 5. Comparisons of F values of each model编号 Taiwanese数据集 Financial数据集 3:2 1:1 1:2 1:3 1:4 均值 3:2 1:1 1:2 1:3 1:4 均值 1 0.577 0.554 0.489 0.469 0.463 0.510 0.355 0.364 0.322 0.357 0.309 0.341 2 0.552 0.589 0.571 0.505 0.491 0.542 0.330 0.317 0.349 0.334 0.291 0.324 3 0.583 0.564 0.575 0.512 0.517 0.550 0.351 0.329 0.269 0.342 0.308 0.320 4 0.552 0.568 0.582 0.526 0.560 0.558 0.388 0.393 0.386 0.385 0.384 0.387 5 0.561 0.508 0.524 0.540 0.536 0.534 0.295 0.233 0.289 0.308 0.303 0.286 6 0.590 0.556 0.563 0.542 0.532 0.557 0.386 0.391 0.395 0.396 0.396 0.393 7 0.574 0.588 0.585 0.536 0.562 0.569 0.386 0.397 0.395 0.391 0.394 0.393 8 0.606 0.578 0.593 0.546 0.562 0.577 0.386 0.397 0.394 0.394 0.394 0.393 表中可以看出,随着无标记训练集增加,本研究模型G值逐渐增大,且提升效果显著增强,说明本研究模型可以有效利用无标记样本提升模型总体性能,且无标记比例越大,提升能力越强。在多数情形下本研究模型取得最大的G值和F值,说明模型在信用评估数据集上具有良好的性能,且能够有效识别少数类样本。此外,大部分情况下本研究模型的G值和F值优于4S模型的G值和F值。这说明本研究所提出的SDWKNN算法相比SKNN算法能有效识别出不同类别样本,对数据的过滤和净化更有效。
数据中无标记数据和有标记数据的分布不一致时,偶尔会出现本研究模型的数值结果不是最优但与最优值极其接近的情况。这是由于数据总体分布具有随机性,而本研究模型不能每次都对无标记样本做出完全正确的预测,但无标记的利用对模型性能带来的提升总体来说大于对模型性能带来的损伤。在不同有标记样本和无标记样本比例下,本研究模型的数值结果在所有模型中均为最优值。与初始Stacking模型相比,本研究模型G值平均提升0.007左右,F值平均提升0.006~0.020,提升效果显著。
4. 结 语
本研究结合半监督学习、Stacking集成策略和SDWKNN算法提出一种基于数据剪辑的自训练信用评估集成分类模型。利用UCI和Kaggle公开数据集仿真试验表明,在少数有标记样本的情况下,模型能够利用大量无标记样本显著提升模型的整体性能以及对少数类的识别能力,为信用评估提供新的方法和思路。
高维数据中会出现大量不相关和冗余的特征,如何更好地衡量特征权重并筛选最优特征子集以及提高信用评估分类模型的性能,对信用评估数据进行特征选择值得深入研究。此外,本研究凭经验和手动调参的方法选择参数最优值可能会产生误差。如何寻找一种更好的自动寻找参数的方法,以提高模型的稳定性和稳健性是一个值得研究的课题。
-
表 1 数据集概况
Table 1. Data set overview
数据集 样本量 特征数 类别 正样占比/% Taiwanese 4618 92 2 4.8 Financial 3670 83 2 3.7 表 2 各个阶段参数设置
Table 2. Parameter Settings of each phase
数据集 SMOTE 特征选择 p SDWKNN Taiwanese (0.2, 4) 40 10 (4, 6) Financial (0.3, 3) 40 10 (4, 6) 表 3 混肴矩阵
Table 3. Mixed matrix
预测类别 真实正类 真实负类 预测正类 TP FP 预测负类 FN TN 表 4 各个模型G值对比
Table 4. Comparisons of G values of each model
编号 Taiwanese数据集 Financial数据集 3:2 1:1 1:2 1:3 1:4 均值 3:2 1:1 1:2 1:3 1:4 均值 1 0.699 0.682 0.632 0.620 0.602 0.647 0.518 0.520 0.487 0.522 0.487 0.507 2 0.664 0.696 0.671 0.629 0.609 0.654 0.491 0.480 0.519 0.499 0.459 0.490 3 0.683 0.669 0.670 0.626 0.626 0.655 0.503 0.483 0.436 0.492 0.468 0.476 4 0.664 0.680 0.680 0.641 0.658 0.665 0.708 0.713 0.707 0.707 0.707 0.708 5 0.679 0.645 0.658 0.670 0.659 0.662 0.537 0.474 0.534 0.559 0.542 0.529 6 0.706 0.678 0.709 0.697 0.688 0.696 0.707 0.713 0.718 0.718 0.718 0.715 7 0.712 0.730 0.753 0.736 0.748 0.736 0.707 0.718 0.718 0.717 0.718 0.715 8 0.726 0.724 0.759 0.748 0.756 0.743 0.707 0.718 0.718 0.718 0.718 0.716 表 5 各个模型F值对比
Table 5. Comparisons of F values of each model
编号 Taiwanese数据集 Financial数据集 3:2 1:1 1:2 1:3 1:4 均值 3:2 1:1 1:2 1:3 1:4 均值 1 0.577 0.554 0.489 0.469 0.463 0.510 0.355 0.364 0.322 0.357 0.309 0.341 2 0.552 0.589 0.571 0.505 0.491 0.542 0.330 0.317 0.349 0.334 0.291 0.324 3 0.583 0.564 0.575 0.512 0.517 0.550 0.351 0.329 0.269 0.342 0.308 0.320 4 0.552 0.568 0.582 0.526 0.560 0.558 0.388 0.393 0.386 0.385 0.384 0.387 5 0.561 0.508 0.524 0.540 0.536 0.534 0.295 0.233 0.289 0.308 0.303 0.286 6 0.590 0.556 0.563 0.542 0.532 0.557 0.386 0.391 0.395 0.396 0.396 0.393 7 0.574 0.588 0.585 0.536 0.562 0.569 0.386 0.397 0.395 0.391 0.394 0.393 8 0.606 0.578 0.593 0.546 0.562 0.577 0.386 0.397 0.394 0.394 0.394 0.393 -
[1] 高俊光, 刘旭, 朱辰辰. 小微企业信用评估的数据挖掘方法综述[J] . 金融理论与实践,2015(10):98 − 101. doi: 10.3969/j.issn.1003-4625.2015.10.019 [2] 周永圣, 崔佳丽, 周琳云, 等. 基于改进的随机森林模型的个人信用风险评估研究[J] . 征信,2020,38(1):28 − 32. doi: 10.3969/j.issn.1674-747X.2020.01.006 [3] 张田华, 罗康洋. 基于集成学习的上市公司高送转预测实证研究[J] . 计算机工程与应用,2022,58(10):255 − 262. doi: 10.3778/j.issn.1002-8331.2011-0224 [4] 罗康洋, 王国强. 基于改进的MRMR算法和代价敏感分类的财务预警研究[J] . 统计与信息论坛,2020,35(3):77 − 85. doi: 10.3969/j.issn.1007-3116.2020.03.011 [5] 张涛, 汪御寒, 李凯, 等. 基于样本依赖代价矩阵的小微企业信用评估方法[J] . 同济大学学报(自然科学版),2020,48(1):149 − 158. doi: 10.11908/j.issn.0253-374x.19017 [6] YAROWSKY D. Unsupervised word sense disambiguation rivaling supervised methods[C]// Proceedings of the 33rd annual meeting on Association for Computational Linguistics. Cambridge: Association for Computational Linguistics, 1995: 189−196. [7] ZHOU Z H. When semi-supervised learning meets ensemble learning[C]// Proceedings of the 8th International Workshop on Multiple Classifier Systems. Reykjavik: Springer, 2009: 529−538. [8] HADY M F A, SCHWENKER F. Co-training by committee: A generalized framework for semi-supervised learning with committees[J] . International Journal of Software and Informatics,2008,2(2):95 − 124. [9] 黎春, 周振宇. 信用评分模型中拒绝推断问题研究: 基于半监督协同训练法的改进[J] . 统计研究,2019,36(9):82 − 92. [10] WANG G. D-self-smote: New method for customer credit risk prediction based on self-training and smote[J] . Icic Express Letters Part B Applications An International Journal of Research & Surveys,2018,9(3):241 − 246. [11] 肖进, 李思涵, 贺小舟, 等. 代价敏感的客户流失预测半监督集成模型研究[J] . 系统工程理论与实践,2021,41(1):188 − 199. doi: 10.12011/SETP2019-2879 [12] 张天翼, 丁立新. 一种基于SMOTE的不平衡数据集重采样方法[J] . 计算机应用与软件,2021,38(9):273 − 279. doi: 10.3969/j.issn.1000-386x.2021.09.043 [13] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic minority over-sampling technique[J] . Journal of Artificial Intelligence Research,2002,16:321 − 357. doi: 10.1613/jair.953 [14] 岳鹏, 侯凌燕, 杨大利, 等. 基于XGBoost特征选择的疾病诊断XLC-Stacking方法[J] . 计算机工程与应用,2020,56(17):136 − 141. [15] WOLPERT D H. Stacked generalization[J] . Neural Networks,1992,5(2):241 − 259. doi: 10.1016/S0893-6080(05)80023-1 [16] 陆万荣, 许江淳, 李玉惠. 面向Stacking集成的改进分类算法及其应用[J] . 计算机应用与软件,2022,39(2):281 − 286. doi: 10.3969/j.issn.1000-386x.2022.02.045 [17] 韩嵩, 韩秋弘. 半监督学习研究的述评[J] . 计算机工程与应用,2020,56(6):19 − 27. doi: 10.3778/j.issn.1002-8331.1911-0083 [18] 龚旭. 半监督协同训练算法中样本去噪的研究[D]. 重庆: 重庆师范大学, 2021. [19] 潘用科, 贺紫平, 夏克文, 等. 改进的协同训练半监督SVM在油层识别中的应用[J] . 郑州大学学报(工学版),2022,43(1):14 − 19. doi: 10.13705/j.issn.1671-6833.2022.01.001 [20] 陈日新, 朱明旱. 半监督k近邻分类方法[J] . 中国图象图形学报,2013,18(2):195 − 200. doi: 10.11834/jig.20130210 [21] 陈振洲, 李磊, 姚正安. 基于SVM的特征加权KNN算法[J] . 中山大学学报(自然科学版),2005(1):17 − 20. doi: 10.3321/j.issn:0529-6579.2005.01.005 [22] UCI Machine Learning Repository. Taiwanese Bankruptcy Prediction[EB/OL]. (2020-06-27)[2022-12-23]. https://archive.ics.uci.edu/ml/datasets/Taiwanese+Bankruptcy+Prediction.html. [23] Kaggle. Financial distress Preduction[EB/OL]. (2017-12-15)[2022-12-23]. https://www.kaggle.com/datasets/shebrahimi/financial-distress.html. -