产品属性挖掘及应用
本文关键词:产品属性挖掘及应用,由笔耕文化传播整理发布。
【摘要】:基于互联网发展起来的电子商务引领了消费的新潮流,致使网络中产品评论数据骤然增长,由于这些消费者评论中包含用户对产品功能属性、部件属性等有价值的评价信息,因此产品属性挖掘技术应运而生。目前已有产品属性挖掘技总结为人工定义和机器自动识别两种。人工定义的方法,是由领域专家归纳总结出属性,方法虽然很准确,但只能针对该领域进行产品属性提取,没有通用性,可移植性不强,无监督的机器自动识别方法,主要是利用自然语言处理技术,但会增加品属性的冗余度,降低准确率。 本文针对以上研究存在的不足,以电子商务网站中的产品评论信息为研究对象,提出并实现了一种基于词性模板的产品属性挖掘方法,并将该方法针对复杂观点句加以改进。第一,通过分析电子商务网站的标签规则,爬取消费者产品评论,建立原始评论数据库,得到产品属性挖掘的数据语料库;第二,通过分句处理、词性标注对产品评论进行预处理;第三,深入分析已完成词性序列标注的产品评论,利用词性模板进行特征归类,最终得到“候选产品评论”、“无属性评论”、“无观点评论”、“非候选标签”四类词性序列特征;第四,通过窗口临近原则,比较属性值距属性的距离向量大小,识别出候选产品评论的属性和属性值,得到正确的搭配关系;第五,对识别出的属性进行置信度计算,置信度越高是正确属性的准确率越大;第六,通过设置停用词,进一步降低地候选产品属性的冗余度,提高属性识别的准确度。 本文对识别出的产品属性的应用进行研究,首先,从消费者的角度出发,通过识别出的属性以及属性占比可得出产品最受消费者关注的热门属性,已达到帮助潜在消费者做出购买决策的目的;其次,从企业的角度出发,通过从已成交的消费者评论中识别出的产品属性,明确该类产品的优势属性和劣势属性,从而帮助企业改进产品、提高质量,及时修复潜在可能恶化的客户关系。再次,从运营商的角度出发,通过识别出第三方电子商务网站的属性,可提高客户对电商网站的依赖性,增加电商网站的用户群。 本文的主要研究贡献:第一,通过改进属性提取分类器架构,与基于名词词性模板得到候选产品评论的方法相比,提高了候选产品评论的有效度;第二,基于COAE2009提供的数据包,对词性模板窗口阈值设置进行分析,选取合适窗口值,降低候选产品属性冗余度;第三,新增置信度计算模块,根据属性在文本中上下文的信息、频率等特征,进行置信度计算,提高品属性识别的准确度;第四,对识别出的产品属性的应用进行研究,提高了产品属性挖掘的研究价值。
【关键词】:属性 模板 置信度 应用
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要3-4
- Abstract4-8
- 1 引言8-14
- 1.1 研究背景和意义8
- 1.2 国内外研究现状8-10
- 1.3 主要的研究内容10-11
- 1.4 难点及解决方案11-12
- 1.5 论文的组织结构12-14
- 2 技术综述14-18
- 2.1 产品属性挖掘14
- 2.2 HtmlParser技术14-15
- 2.3 信息抽取技术15-16
- 2.4 Html DOM树16-17
- 2.5 本章小结17-18
- 3 词性模板的产品属性挖掘方法研究18-29
- 3.1 网页文本抽取解析18-20
- 3.1.1 网页URL采集18-19
- 3.1.2 网页文本提取19-20
- 3.2 网页文本抽取算法20-22
- 3.2.1 URL信息采集算法20-21
- 3.2.2 网页文本抽取算法21
- 3.2.3 网页文本内容去噪21-22
- 3.3 基于词性模的产品属性挖掘22-26
- 3.3.1 产品属性挖掘整体架构22-23
- 3.3.2 产品属性提取模板23-24
- 3.3.3 模板窗口阈值设置24-25
- 3.3.4 产品属性置信度25-26
- 3.4 基于词性模板的产品属性挖掘算法26-27
- 3.5 本章小结27-29
- 4 产品属性的应用29-33
- 4.1 热论商品榜29-30
- 4.2 电子邮件营销30-31
- 4.3 商品定位分析31-32
- 4.4 本章小结32-33
- 5 系统设计与实现33-48
- 5.1 需求分析33-34
- 5.1.1 需求概述33
- 5.1.2 目标概述33
- 5.1.3 行环境33
- 5.1.4 可行性分析33-34
- 5.2 系统设计34-38
- 5.2.1 系统框架设计34-35
- 5.2.2 系统功能设计35-38
- 5.3 系统实现38-46
- 5.3.1 系统框架搭建38-40
- 5.3.2 文本抽取系统实现40-42
- 5.3.3 产品属性挖掘系统42-46
- 5.4 本章小结46-48
- 6 实验结果和分析48-53
- 6.1 实验数据48
- 6.2 产品属性挖掘实验48-52
- 6.2.1 网页文抽取实验与结果48-49
- 6.2.2 产品属性挖掘实验与结果49-50
- 6.2.3 实验性能评价50-52
- 6.3 本章小结52-53
- 7 总结与展望53-55
- 参考文献55-58
- 申请学位期间的研究成果及发表的学术论文58-59
- 致谢59
【共引文献】
中国期刊全文数据库 前10条
1 李向阳,苗壮;自由文本信息抽取技术[J];情报科学;2004年07期
2 耿爱丽;孙建红;;商务信息系统数据结构和数据库设计[J];情报科学;2006年09期
3 严建援;张丽;张蕾;;电子商务中在线评论内容对评论有用性影响的实证研究[J];情报科学;2012年05期
4 郑彦宁;邓擘;;信息抽取技术在情报学中的应用分析[J];情报理论与实践;2008年05期
5 耿焕同;宋庆席;何宏强;;一种基于视觉分块的Web信息抽取方法研究[J];情报理论与实践;2009年03期
6 李向阳,张亚非;一种军用文图自动转换方案[J];情报指挥控制系统与仿真技术;2004年05期
7 陈金鑫;罗立群;;基于主体知识库的Web主体信息抽取系统[J];软件导刊;2007年19期
8 孙文俊;薛博召;;图书领域消费者在线评论的有用性影响因素研究[J];江苏商论;2011年05期
9 彭岚;;电子口碑传播:一个研究框架[J];西南农业大学学报(社会科学版);2011年06期
10 熊明锋,张宁,程世军,许卓群;一种半自动化安全数据交换模型[J];计算机工程与设计;2004年01期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
6 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 马玉涛;在线客户评论的产品族设计与加工方法研究[D];华中科技大学;2012年
9 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
10 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
5 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
6 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
7 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
8 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
9 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
10 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年
本文关键词:产品属性挖掘及应用,,由笔耕文化传播整理发布。
本文编号:344205
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/344205.html