基于Word2Vec的中文问句检索技术研究及系统实现
本文选题:交互式智能客服 + 词向量 ; 参考:《哈尔滨工业大学》2016年硕士论文
【摘要】:随着电子商务等互联网服务的快速发展,为了提高线上服务质量,企业、单位对客服的需求日益增长。而在人口老龄化的趋势下人工客服成本不断增加,交互式智能客服技术的发展为企业、单位提供了新的解决思路。智能客服的目标是提供如人工客服般的交互体验,在与用户的交互过程中,自动地完成对用户问句的识别、检索与回答。本文利用中文词向量等工具,研究基于企业实际的客服语料情境下的用户问句分类、问句检索等问题。本文研究内容主要有如下三方面:(1)为了提供更好的用户体验,本文在检索用户问句前,对用户问句的分类方法进行研究。首先本文收集了大量中文语料实现中文词向量的训练,其次提出了一个面向智能客服场景的两层分类体系。最后研究了在不同参数词向量特征基础上增量组合词汇特征与句法特征的分类效果。(2)在问句分类的基础上,本文将词向量信息引入到问句检索中。利用词向量中隐含的语义信息间接计算两个句子的相似度,对Lucene检索出的候选结果进行重排序,从而实现检索效果的优化。针对一些语义不全的问句,利用基于依存句法分析方法以及Text Rank方法的关键词抽取方法识别出问句中的关键词,并利用自定义同义词词典、中文词向量以及局部相关性反馈信息对其进行查询扩展。(3)实现了一个基于本文提出的问句分类方法及问句检索方法的中文问句检索系统,实现对用户问句的分类与检索。同时针对一些语料缺失的场景,系统中集成了爬虫处理模块,可以结构化地抽取互联网中存在的问答对信息。
[Abstract]:With the rapid development of electronic commerce and other Internet services, in order to improve the quality of online service, the demand of enterprises and units for customer service is increasing day by day. Under the trend of aging population, the cost of artificial customer service is increasing. The development of interactive intelligent customer service technology provides a new solution for enterprises and units. The goal of intelligent customer service is to provide interactive experience such as artificial customer service. In the process of interaction with users, the identification, retrieval and answer of user questions are accomplished automatically. In this paper, we use Chinese word vector and other tools to study the classification and retrieval of user questions in the context of customer service corpus. The main contents of this paper are as follows: (1) in order to provide a better user experience, this paper studies the classification method of user question before retrieving user question. Firstly, a large number of Chinese corpus is collected to train Chinese word vectors, and then a two-layer classification system for intelligent customer service scene is proposed. Finally, the classification effect of incremental combination of lexical and syntactic features based on different parameter word vector features is studied. (2) on the basis of question sentence classification, this paper introduces word vector information into question retrieval. The similarity between the two sentences is calculated indirectly by using the semantic information implied in the word vector, and the candidate results retrieved by Lucene are reordered to optimize the retrieval effect. For some questions with incomplete semantics, keyword extraction method based on dependency syntactic analysis and text Rank method is used to identify the keywords in question sentences, and a custom synonym dictionary is used. The Chinese word vector and local relevance feedback information are extended. (3) A Chinese question retrieval system based on the question classification method and question retrieval method proposed in this paper is implemented to achieve the classification and retrieval of user questions. At the same time, the crawler processing module is integrated to extract the information of question and answer pairs in the Internet.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 阳小华;蒋辉;马家宇;;基于任务上下文的查询扩展方法[J];郑州大学学报(理学版);2010年01期
2 吴煈;张奇;黄萱菁;;基于整数线性规划的查询扩展[J];计算机研究与发展;2013年08期
3 何燕;;基于用户反馈的查询扩展研究[J];情报理论与实践;2013年08期
4 黄伟群;;基于用户视角的交互式查询扩展研究[J];图书情报工作;2014年05期
5 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期
6 林国俊;叶飞跃;耿冬;郑国良;;基于语义的概念查询扩展[J];计算机工程与设计;2009年06期
7 巩玉玺;王大玲;;一种改进的基于伪相关反馈的查询扩展[J];微计算机信息;2009年15期
8 黄名选;张师超;严小卫;;基于查询行为和关联规则的相关反馈查询扩展[J];计算机工程;2009年10期
9 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期
10 罗小聪;;基于专用双语词典的查询扩展[J];现代计算机(专业版);2009年10期
相关会议论文 前10条
1 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年
2 吕碧波;赵军;;基于相关文档池建模的查询扩展[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 林建方;李生;郑德权;;基于词语搭配关系的查询扩展方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
7 王秉卿;张奇;吴立德;黄萱菁;;机器学习的查询扩展在博客检索中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 王秉卿;黄萱菁;;基于线性模型的查询扩展方法[A];第五届全国信息检索学术会议论文集[C];2009年
9 晋松;林鸿飞;苏绥;;基于标签共现的查询扩展研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 郭文;史晓东;陈毅东;;跨语言信息检索中的查询扩展[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
相关重要报纸文章 前1条
1 钟威 何拥军;数字档案信息扩展查询功能需求分析及实现方式[N];中国档案报;2011年
相关博士学位论文 前3条
1 郭晓黎;煤矿安全事件本体及其在查询扩展中的应用研究[D];中国矿业大学(北京);2016年
2 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
3 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年
相关硕士学位论文 前10条
1 吴德钰;基于标签筛选的文档排序方法研究[D];华中师范大学;2015年
2 李维银;基于有监督学习的查询扩展技术研究[D];北京理工大学;2015年
3 钟廷伟;生物医学文本的标注与检索研究[D];电子科技大学;2015年
4 王宇;煤矿安全事件本体构建及其查询扩展的研究与应用[D];北京工业大学;2015年
5 崔倩倩;基于文档重构的查询扩展[D];北京工业大学;2015年
6 陈建荣;基于用户反馈的智能查询扩展技术研究[D];哈尔滨工业大学;2014年
7 燕泽权;基于主题模型的查询扩展技术研究[D];哈尔滨工业大学;2014年
8 郑永军;基于DMLS的语音关键词检测技术研究[D];解放军信息工程大学;2014年
9 李云飞;基于查询日志的动态查询扩展研究[D];内蒙古大学;2016年
10 杨振瑜;基于概念语义相似度的长句查询扩展研究[D];山东理工大学;2013年
,本文编号:2066106
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2066106.html