机器学习中最重要的是特征选择。只有选择合适的特征,训练有素的分类器才能具有良好的分类效果。
特征集合是网页挂马特征值的集合,当网页被挂马之后,将网页源码中一处或者多处挂马特征提取出来,作为网页漏洞的特征,加入待检测特征知识库便于后续模块的检测。
特征提取模板是整个系统的核心,它的实现由两部分组成,分别是HTML unit和Rhino,特征提取是由Rhino模块负责进行提取。然后对提取到的HTML页面中的脚本代码进行解析,是通过HTML unit模块实现对DOM树形结构的访问,将提取的待检测网页的所有特征,形成完整的特征记录,并加入待检测特征知识库中,为检测模块提供使用。