面向商品领域的类别树半自动化构建方法研究

发布时间：2018-01-01 20:31

本文关键词：面向商品领域的类别树半自动化构建方法研究　出处：《华东师范大学》2017年硕士论文　论文类型：学位论文

【摘要】：随着电子商务的迅速发展,T2O(TV to Online)商业模式,即电子商务与媒体间合作的商业模式受到广泛关注。这种商业模式实时向用户推荐视频中出现的商品。目前的推荐主要是人工给出商品购买链接,不标注商品的相应属性和属性值,为观看者了解商品带来不便。如果应用开发者可以构建来自不同电商的商品资源库,利用商品类别树对来源不同的商品进行类别及相应属性的标注,则用户了解商品信息将更加方便。基于此,本文研究面向商品领域的类别树半自动化构建。目前类别树以人工构建方法为主。人工构建通常需要耗费大量时间、精力和财力,且目前人工构建的类别树没有商品的具体属性。半自动化构建包含商品属性的类别树将更符合应用的需求。半自动化构建类别树的关键在于知识融合和类别聚类这两个步骤。知识融合是指对异构数据库中相同概念的不同表达形式进行融合,在类别树构建中主要用于融合类别的属性;类别聚类是指自动将同类类别进行聚类,减少构建类别树时需要的时间和人力成本,其关键工作在于类别相似度的计算。本文主要针对半结构化文本属性的融合和类别聚类进行研究,具体贡献如下:(1)本文提出一种基于Word2Vector和结构信息的属性匹配方法,以计算属性间的相似度用于融合属性。传统基于知识库或语义词典的知识融合方法通过计算属性相似度进行属性融合,但是同种类别的不同属性之间存在强相关性,且知识库或语义词典会出现未登录词的情况,所以传统方法效果不佳。本文通过分析半结构化数据,观察到属性值可以用于描述属性,且相同属性的属性值存在强相关性的结构信息。根据文本结构信息,提出两种基于Word2Vector计算属性相似度的方法,以提高匹配的准确率。(2)提出语义扩充和语义补全的语义增益预处理方法,加强半结构化文本的上下文联系,更好地发现属性值之间的语义关系用于属性匹配。利用Word2Vector可以计算属性值之间的相似度,但是半结构化数据通常以属性-属性值的键值对方式出现,文本的上下文联系较弱,用Word2Vector直接对半结构化文本进行训练,得到的词向量结果不佳。为解决这一问题,本文提出了一种加强半结构化文本上下文语义联系的预处理方法:语义扩充,通过文本的结构信息对属性的属性值进行扩充,加强属性值的上下文联系;语义补全,针对"双值"属性的属性值,如"是"、"否",根据属性与属性值的联系,对属性值进行补全,进一步加强文本的上下文联系。(3)提出了一种基于混合相似度的类别聚类算法。传统的基于编辑距离的类别聚类算法,只考虑到类别名称的字面特征,不能挖掘类别的语义特征、属性特征等。本文提出了基于改进编辑距离的类别相似度计算方法、基于属性的类别相似度计算方法、基于关键词的类别相似度计算方法和基于相关信息的类别相似度计算方法,并将其融合,表达了词形特征、语义特征、属性特征、关键词特征和相关信息特征,提高了类别聚类的准确率。(4)提出了一种基于编辑距离的评测指标。融合结果和聚类结果,需要人工判断结果的准确率。但是对每个实验结果都以人工的方式判断需要花费大量的人力和时间,所以本文提出一种基于编辑距离的评测指标——类编辑距离,基于编辑距离的思想计算实验结果通过移动、删除和添加操作变成人工得到的标准结果所要花费的代价,来评测实验结果,节省了大量的人力和时间。本文在三个不同领域的数据集上设计了多组实验,实验结果验证了本文提出的基于结构和语义信息的知识融合算法和基于混合相似度的类别聚类算法的有效性。同时,作者在本文提出的两个算法基础上设计并实现了商品领域类别树管理系统CCTM。
[Abstract]:This paper studies semi - structured text attributes . The key of this paper is to construct a kind of attribute matching method based on Word2Vector and structure information . The key work of this paper is to construct the semantic gain preprocessing method based on Word2Vector and structure information . The key work of this paper is to improve the accuracy of the matching . This paper proposes a kind of clustering algorithm based on the editing distance , which is based on the classification similarity calculation method , the semantic feature , the attribute characteristic , the keyword characteristic and the classification similarity calculation method based on the editing distance .

【学位授予单位】：华东师范大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP391.1

【参考文献】