东北大学学报(自然科学版) ›› 2022, Vol. 43 ›› Issue (3): 321-327.DOI: 10.12068/j.issn.1005-3026.2022.03.003
于长永, 王雯函, 温秀静, 赵宇海
YU Chang-yong, WANG Wen-han, WEN Xiu-jing, ZHAO Yu-hai
摘要: 针对相似性连接问题, 提出了动态双重前缀的模糊相似性连接算法.与之前的算法不同的是,本文采用双重前缀,即在查找候选以及构建索引时使用不同的前缀来提高过滤效率,并在此基础上进行了优化.首先通过取各个前缀生成的候选集合的交集来缩小候选集合;其次提出最大区分任选前缀,利用此前缀进行预验证来减少最终进入到验证过程的候选对,以此来减少连接时间.并且在三个真实数据集上进行实验,将本文算法与Silkmoth算法以及MF-Join算法进行比较,结果表明所提算法可以生成更小的候选集集合并且需要更少的连接时间.
中图分类号: