构建属性值特征词典是为了提升商品被对应搜索引擎检索以及收率的概率,以上文设计为基础,通过分词可以有效的将标题转换为商品的属性值。
但问题在于,每个网站的名称在电子商务网页中都会重复多次的出现,若将其填写到属性值特征词典的构建中,会影响到后面的分析环节中增加噪声。
因此,在构建属性值特征词典时,首先要获取到网页中相关的商品内容,利用匹配算法,对网页中去掉标题后的内容进行比对,并将获取到的结果看作新的标题。再对新标题进行分词处理,并在其中加入词性标注,将最终获取到的标题中的名词、形容词、数量词等词性的序列视为属性特征词典。