东北大学学报:自然科学版 ›› 2016, Vol. 37 ›› Issue (12): 1677-1682.DOI: 10.12068/j.issn.1005-3026.2016.12.002
韩东红1, 王坤1, 邵崇雷2, 马畅1
HAN Dong-hong1, WANG Kun1, SHAO Chong-lei2, MA Chang1
摘要: 作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR (minimum bounding rectangle) 描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.
中图分类号: