东北大学学报(自然科学版) ›› 2003, Vol. 24 ›› Issue (3): 229-232.DOI: -

• 论著 • 上一篇    下一篇

应用特征聚合进行中文文本分类的改进KNN算法

张晓辉;李莹;王华勇;赵宏   

  1. 东北大学软件中心;东北大学软件中心;东北大学软件中心;东北大学软件中心 辽宁沈阳110004
  • 收稿日期:2013-06-23 修回日期:2013-06-23 出版日期:2003-03-15 发布日期:2013-06-23
  • 通讯作者: Zhang, X.-H.
  • 作者简介:-
  • 基金资助:
    国家“八六三”高技术计划项目 ( 863 3 0 6 ZD0 2 0 2 6)

Improved KNN algorithm applied term feature combination technology for Chinese textual classification

Zhang, Xiao-Hui (1); Li, Ying (1); Wang, Hua-Yong (1); Zhao, Hong (1)   

  1. (1) Software Ctr., Northeastern Univ., Shenyang 110004, China
  • Received:2013-06-23 Revised:2013-06-23 Online:2003-03-15 Published:2013-06-23
  • Contact: Zhang, X.-H.
  • About author:-
  • Supported by:
    -

摘要: 针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 ,该算法明显提高了分类的准确率和召回率

关键词: KNN算法, 中文文本分类, 分类贡献模式, 特征聚合

Abstract: A feature combination method was presented to improve the KNN algorithm. Each term's CHI value was calculated. Multiple discriminating words with same contribution on classification were combined into one pattern. The pattern was used as the basic feature dimension. The algorithm increases the discriminating words' contribution, enhances the effect of the related terms, and decreases the dimensions of the text vector. Compared with the traditional algorithm the algorithm increases recall and precision rate greatly.

中图分类号: