摘要: 博客聚类是处理博客信息的有效方法,提出基于评论修正的博客页面聚类算法.首先分析博客所包含的信息层次结构,然后利用博客页面的通用属性构建博客属性模型,基于博客属性模型对博客页面进行聚类,并且在初次聚类的基础上利用博文的评论对聚类结果进行修正.采用通用的熵和纯净度来衡量聚类结果,根据评论利用方式的不同,设计了两种实验方案:一个实验直接使用评论参与聚类,另一个将评论作为聚类后的修正手段.实验结果对比表明,在大多数情况下,利用评论作为修正手段的聚类效果要优于直接利用评论参与聚类.
中图分类号:
郭朋伟;高克宁;张斌;. 基于评论修正的博客聚类算法[J]. 东北大学学报(自然科学版), 2010, 31(6): 782-785.
Guo, Peng-Wei (1); Gao, Ke-Ning (1); Zhang, Bin (1) . Public blog clustering algorithm based on revision by comments[J]. Journal of Northeastern University, 2010, 31(6): 782-785.