东北大学学报:自然科学版 ›› 2018, Vol. 39 ›› Issue (7): 959-963.DOI: 10.12068/j.issn.1005-3026.2018.07.010
于长永1, 高明1, 柏禄一1, 赵宇海2
YU Chang-yong1, GAO Ming1, BAI Lu-yi1, ZHAO Yu-hai2
摘要: 提出了一种基于BWT(Burrows-wheeler-transform)的字符串集合的索引方法,以解决带有匹配字符串长度和匹配子串位置约束的子串确切匹配查找问题.讨论了BWT和基于BWT索引进行确切子串查找的基本原理.分析了字符串集合、匹配字符串长度和匹配子串位置约束对原BWT索引的影响.重点解决了快速地从匹配后缀位置到字符串ID和匹配子串位置的计算问题.在3个真实的数据集上进行了比对实验,结果表明:所提出的基于BWT索引方法在没有增加原索引大小的情况下,大大提升了带有匹配字符串长度和匹配位置约束的确切子串的查找的性能,因此该算法更加适用于大规模的字符串集合的索引进行近似字符串匹配和连接.
中图分类号: