摘要: 针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.
中图分类号:
董立岩, 王越群, 李永丽, 朱琪. 基于最大平衡度的自适应随机抽样算法[J]. 东北大学学报:自然科学版, 2018, 39(6): 792-796.
DONG Li-yan, WANG Yue-qun, LI Yong-li, ZHU Qi. Adaptive Random Sampling Algorithm Based on the Balance Maximization[J]. Journal of Northeastern University Natural Science, 2018, 39(6): 792-796.