东北大学学报:自然科学版 ›› 2017, Vol. 38 ›› Issue (10): 1373-1377.DOI: 10.12068/j.issn.1005-3026.2017.10.002
陈超1,2, 申德荣1, 寇月1, 于戈1
CHEN Chao1,2, SHEN De-rong1, KOU Yue1, YU Ge1
摘要: 互联网上提供的同一事实的信息通常会存在冲突,影响数据集成和知识发现.为了甄别真值,提出了一种基于距离的异构数据联合真值发现算法.首先,关于同一数据项,基于数据源声明值与真值的距离,计算数据项向量;采用KMeans聚类算法,获得数据项初始聚类.然后,迭代进行信任分析和聚类,即在每个类簇内,采用最优化思想,联合异构类型数据,更新事实的可信度和数据源的类簇内可靠性,重新计算每个数据项向量,再次聚类,迭代直至类簇达到稳定.实验结果表明:由于细粒度的数据源质量划分,联合考虑异构数据类型,可以获得更高的真值发现准确度.
中图分类号: