基于中文知识图谱的电商领域问答算法设计与系统实现
发布时间:2017-05-15 19:08
本文关键词:基于中文知识图谱的电商领域问答算法设计与系统实现,,由笔耕文化传播整理发布。
【摘要】:随着互联网语义数据的不断产生和大规模积累,问答应用因为可以提供给用户智能的知识服务而受到青睐。典型地,基于知识图谱的问答应用不断产生。然而,目前大多数问答系统和这些系统的研究都面向英文的,而中英文之间的语义表述区别很大,因此中文问答系统还存在很多新的挑战。近年来,由于电子商务的快速发展和全面流行,直接推动了机器客服的庞大需求。本文从电子商务领域的角度出发,针对用户的多样性和不确定性,对领域中文知识库进行优化,提出了一个基于中文知识图谱的自动问答框架(CEQA),并尝试提高用户体验和缓解人工客服的压力。主要研究内容如下:1.出于电子商务的特殊性考虑,提出了商品特征的条件随机场实体识别算法,该算法能够对电商环境下问句中品牌、型号和单品实体进行有效识别;2.针对用户问句的多样性和不确定性,本文引入依赖缩减算法,该算法利用语义依存分析和基于图的缩减算法来降低用户问句噪声,从而提高语义解析的准确性;3.为了克服用户表达的多样性,即多词一意现象,提出实体链接算法,该算法先对自然语言粗分类后混合word2vec相似特征排序,从而将问句解析结果以URL的形式链接到知识库。实验结果表明,在加入了实体识别,依赖缩减和链接后,提升了问答的准确性,并在开放的电商问答数据上得到了验证。为验证CEQA框架的可行性、运行效率和用户友好等方面,本文设计并实现了一个问答系统(CEQA Live)。真实系统的良好运行,为框架的性能验证提供了良好的环境,也证明本研究的应用潜力。
【关键词】:电子商务 知识图谱 问答系统 问句多样性 依赖缩减
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52;TP391.1
【目录】:
- 摘要6-7
- ABSTRACT7-12
- 第一章 引言12-19
- 1.1 研究背景与研究意义12-14
- 1.2 国内外研究现状14-15
- 1.3 现有研究的重点和难点15-17
- 1.4 本文研究目标和内容17-18
- 1.5 本文的组织结构18-19
- 第二章 相关技术19-31
- 2.1 实体识别技术19-21
- 2.2 实体链接技术21-23
- 2.3 语义提取技术23-26
- 2.3.1 基于统计学习的语义提取技术23-24
- 2.3.2 基于语法树的语义提取技术24-25
- 2.3.3 其它语义提取技术25
- 2.3.4 各种语义提取技术对比分析25-26
- 2.4 SPARQL技术26
- 2.5 主流系统26-29
- 2.5.1 IBM Watson26-28
- 2.5.2 JIMI28-29
- 2.6 CEQA框架与现有框架异同29-30
- 2.7 本章小结30-31
- 第三章 CEQA算法框架和基本模块31-37
- 3.1 CEQA算法框架结构31-36
- 3.1.1 问题分类器33-35
- 3.1.2 SPARQL构造35-36
- 3.2 本章小结36-37
- 第四章 CEQA识别、链接和依赖缩减算法37-52
- 4.1 基于电商领域内的实体识别算法37-40
- 4.1.1 实体定义37-38
- 4.1.2 模型与特征38-39
- 4.1.3 算法与流程39-40
- 4.2 基于Word2Vec的链接算法40-43
- 4.2.1 Word2Vec训练41-42
- 4.2.2 链接算法流程42-43
- 4.3 基于语义依存分析的依赖缩减算法43-46
- 4.4 实验46-51
- 4.4.1 实验设计46-47
- 4.4.2 实验数据准备47-48
- 4.4.3 实验分析48-51
- 4.5 本章小结51-52
- 第五章 CEQA-Live系统实现52-60
- 5.1 系统开发和部署环境52
- 5.2 系统设计与实现52-56
- 5.2.1 系统整体设计与方案52-53
- 5.2.2 数据缓存的设计与实现53-54
- 5.2.3 View层设计与实现54-55
- 5.2.4 CEQA-Live-Service的设计与实现55-56
- 5.3 系统性能分析56-57
- 5.3.1 测试环境56
- 5.3.2 性能指标56-57
- 5.3.3 实验及结果评价57
- 5.4 系统结果展示57-59
- 5.5 本章小结59-60
- 第六章 总结和展望60-62
- 6.1 本文工作总结60
- 6.2 下一步工作和展望60-62
- 参考文献62-65
- 附录一65
- 附录二 作者攻读硕士学位期间参与科研项目65-66
- 后记66
【相似文献】
中国期刊全文数据库 前10条
1 毛先领;李晓明;;问答系统研究综述[J];计算机科学与探索;2012年03期
2 莫丽萍,王树西,姜吉发,雷雨霞;问答系统和浅层结构模式推理[J];广西师范大学学报(自然科学版);2004年01期
3 卢志坚,张冬茉;中文问答系统中的问句理解[J];计算机工程;2004年18期
4 王树西;问答系统:核心技术、发展趋势[J];计算机工程与应用;2005年18期
5 林晓庆;;问答系统中基于列表类问题的研究[J];电脑知识与技术(学术交流);2007年07期
6 张积宾;徐志明;王恒;潘启树;;面向大规模网络数据的社会化问答系统[J];哈尔滨工业大学学报;2008年12期
7 贾君枝;毛海飞;;汉语框架网络问答系统问句处理研究[J];图书情报工作;2008年10期
8 胡小华;刘轩;刘丹;陆伟;;基于冗余的仿真问答系统的轻量级局部文本分析[J];图书情报知识;2009年01期
9 张中峰;李秋丹;;社区问答系统研究综述[J];计算机科学;2010年11期
10 陈玉;;基于“为什么”问句的中文问答系统研究[J];农业网络信息;2010年11期
中国重要会议论文全文数据库 前10条
1 何靖;陈
本文编号:368612
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/368612.html