电子商务中针对产品的摘要挖掘技术研究
发布时间:2017-03-28 21:06
本文关键词:电子商务中针对产品的摘要挖掘技术研究,,由笔耕文化传播整理发布。
【摘要】:随着互联网的迅速发展,网上购物由于其便利节时越来越受到人们的欢迎,电子商务时代已经来临。目前购物网站中存在海量的商品供人们进行选购,然而由于商品量巨大且卖家对商品的描述信息量非常大,因此给买家选购需要的商品造成了不便。 事实上很多商品其实是同一款产品,生产厂家相同只是卖家不同而已,因此在商品基础上构建出虚拟的产品节点,并根据产品对应的商品描述信息挖掘出产品相关的信息,比如产品的图文描述、产品摘要、产品属性、产品评论、产品价格趋势等,以一种简洁友好的方式全面详细的展示产品的信息,是很有必要的。 本文着眼于产品的摘要,提出了一种面向电子商务领域的产品摘要挖掘方法。产品摘要是用最简短的语言,由3-5个短语组成,主要突出产品的卖点和特色。产品摘要希望能从用户角度出发,在用户选购产品的时候提供一个有特色的描述,让用户对产品有一个整体的印象,更好的帮助用户做选择,减少用户选购产品的时间。 产品摘要挖掘是一种多文档自动文摘,与传统自动文摘选取句子来组成摘要不同,产品摘要由短语组成。本文方法涉及到的关键部分,一是对产品描述的句子进行聚类,形成子主题;二是从子主题中抽取重要短语,作为摘要短语。对于句子聚类形成子主题,本文探讨了句子的特征表示、相似度计算方法、聚类方法等,采用层次聚类和划分聚类(K-中心聚类)相结合的方法对句子聚类形成子主题,来从多个侧面描述产品。最后根据子主题中描述句子的多少来对子主题的重要性进行排序。 对于产品摘要短语的获取,本文采用基于分类的方法,处理时以一个子主题为处理单元。首先利用指示词对子主题中的句子进行切分,得到候选短语,然后利用最大熵分类器对短语进行分类,得到可以作为摘要的短语,最后对短语进行打分,并根据得分排序,将得分最高的短语作为子主题的摘要短语。最终的产品摘要由多个子主题摘要短语组成,子主题根据其重要性来选择。 本文提出方法的评价,采用专家人工评价方式,以产出的前M个短语成功编辑出产品摘要的比例作为指标。实验表明在前10个结果短语中编辑产品摘要成功的比例在85%以上,因此本文提出的方法是可行有效的,能够大大提高编辑人员的工作效率。
【关键词】:产品摘要 聚类 短语判别 最大熵模型
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-9
- 第1章 绪论9-16
- 1.1 课题背景及研究内容和意义9-11
- 1.1.1 课题背景9
- 1.1.2 课题研究内容9-10
- 1.1.3 课题研究意义10-11
- 1.2 多文档文摘研究现状11-14
- 1.2.1 多文档文摘主要方法11-13
- 1.2.2 多文档文摘的自动评测13-14
- 1.2.3 相关国际评测14
- 1.3 本文组织结构14-16
- 第2章 基于句子聚类的子主题生成研究16-24
- 2.1 引言16-18
- 2.1.1 子主题的定义16-17
- 2.1.2 句子聚类形成子主题总体思路17-18
- 2.2 句子聚类18-22
- 2.2.1 特征表示18-19
- 2.2.2 相似度计算方法19-20
- 2.2.3 聚类方法20-22
- 2.3 子主题形成及重要性排序22-23
- 2.4 本章小结23-24
- 第3章 基于分类的摘要短语抽取研究24-35
- 3.1 最大熵模型介绍24-29
- 3.1.1 条件最大熵模型25-26
- 3.1.2 最大熵最优解26-27
- 3.1.3 模型训练算法27-29
- 3.2 候选短语获取29-31
- 3.2.1 指示词表的构建29-30
- 3.2.2 候选短语获取方法30-31
- 3.3 短语识别31-33
- 3.4 短语打分与摘要生成33
- 3.5 本章小结33-35
- 第4章 产品摘要挖掘系统实现35-42
- 4.1 系统介绍35-37
- 4.2 主要模块介绍37-41
- 4.2.1 文本预处理37-39
- 4.2.2 句子聚类形成子主题39-40
- 4.2.3 短语识别与抽取40-41
- 4.3 本章小结41-42
- 第5章 实验结果及分析42-47
- 5.1 引言42
- 5.2 短语识别实验42-44
- 5.2.1 数据43
- 5.2.2 评价指标43-44
- 5.2.3 实验结果与分析44
- 5.3 摘要生成实验44-46
- 5.3.1 数据资源44-45
- 5.3.2 评价指标45
- 5.3.3 实验结果与分析45-46
- 5.4 本章小结46-47
- 结论47-48
- 参考文献48-52
- 攻读硕士学位期间发表的论文及其它成果52-54
- 致谢54
【参考文献】
中国期刊全文数据库 前10条
1 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
2 张sソ
本文编号:273013
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/273013.html