摘要: 现有的垃圾网站检测方法主要针对自建的垃圾网站,对于通过入侵正常网站注入垃圾网络链接的检测效率不高.本文提出一种基于网页结构与文本多维特征的检测框架,该框架将网页进行分块处理.通过计算优势率的方法提取内容特征,根据标签数、属性键和属性值利用独热率的方法提取结构特征.使用机器学习算法进行训练并得到检测模型,进而有效地检测垃圾网站链接.同时,将本文的检测方法与基于内容分析的检测算法和黑名单匹配算法进行对比,本文提出的方法检测准确率最高有13%的提高.
中图分类号:
杨望, 江咏涵, 张三峰. 基于网页结构与语言特征的垃圾网页链接检测方法[J]. 东北大学学报:自然科学版, 2020, 41(8): 1091-1096.
YANG Wang, JIANG Yong-han, ZHANG San-feng. A Web Spam Link Detection Method Based on Web Page Structure and Text Features[J]. Journal of Northeastern University Natural Science, 2020, 41(8): 1091-1096.