东北大学学报:自然科学版 ›› 2018, Vol. 39 ›› Issue (6): 792-796.DOI: 10.12068/j.issn.1005-3026.2018.06.007

• 信息与控制 • 上一篇    下一篇

基于最大平衡度的自适应随机抽样算法

董立岩1, 王越群1, 李永丽2, 朱琪1   

  1. (1. 吉林大学 计算机科学与技术学院, 吉林 长春130012; 2. 东北师范大学 计算机科学与信息技术学院, 吉林 长春130117)
  • 收稿日期:2017-04-21 修回日期:2017-04-21 出版日期:2018-06-15 发布日期:2018-06-22
  • 通讯作者: 董立岩
  • 作者简介:董立岩(1966-),男,吉林长春人,吉林大学教授,博士生导师.冯明杰(1971-), 男, 河南禹州人, 东北大学副教授; 王恩刚(1962-), 男, 辽宁沈阳人, 东北大学教授,博士生导师.
  • 基金资助:
    国家自然科学基金资助项目(61272209).国家自然科学基金资助项目(51171041).

Adaptive Random Sampling Algorithm Based on the Balance Maximization

DONG Li-yan1, WANG Yue-qun1, LI Yong-li2, ZHU Qi1   

  1. 1. College of Computer Science and Technology, Jilin University, Changchun 130012, China; 2. School of Computer Science and Technology, Northeast Normal University, Changchun 130117, China.
  • Received:2017-04-21 Revised:2017-04-21 Online:2018-06-15 Published:2018-06-22
  • Contact: DONG Li-yan
  • About author:-
  • Supported by:
    -

摘要: 针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.

关键词: 非平衡数据集, 最大平衡度, 随机抽样, 随机森林, 数据预处理

Abstract: The problem on the classification algorithm of imbalanced datasets was analyzed. Common methods of balancing data, including improvement of datasets and the improved algorithm, were summarized. Then a novel algorithm called adaptive random sampling algorithm was put forward based on balance maximization. The classification effect of random forest algorithm was further optimized. Experiments show that the proposed algorithm performs well with the imbalanced data, the new data are fitted with the original data, and it could improve the ability of classifier to deal with the imbalanced data.

Key words: imbalanced dataset, balance maximization, random sampling, random forest, data preprocessing

中图分类号: