基于深度学习的金融问答系统设计与实现
发布时间:2020-06-19 20:49
【摘要】:近年来,伴随着社会经济水平的显著提高,人们的投资热度也在不断增大,譬如基金,理财,股票,等投资产品越来越受消费者欢迎。但是每种投资产品包含多种不同的业务,致使产品和业务纷繁杂乱,这就需要投资者在购买产品前对产品有一个详尽的了解。但是目前了解产品信息的手段较少,投资者获取信息的方法通常是与业务人员进行交流,或者是借助互联网中的搜索引擎来获取相关信息。与业务人员交流需要预约时间等一系列繁琐操作,不如使用搜索引擎高效便捷。但是搜索引擎的一些缺点也不容忽视,它的范围广泛的特性决定它不能面面俱到,只能对一些基本的问题进行解答,并且答案对错真假难辨,质量参差不齐。因此人们需要一个能够精确理解用户意图,并且返回给用户一个正确客观答案的在线问答系统。传统的问答系统一般基于机器学习算法来设计实现,这样的模式有以下三个缺点:第一点是需要由人工生成词义和语义;第二点是模型的成长性不足;第三点是在理解用户语义方面也流于表面,不够深刻。因此改进上述三个问题,并设计实现出能精确理解用户意图的专业领域问答系统,具有重要的意义。本文的主要研究内容包括:第一,找到最契合金融问答系统的词向量模型。为了使词向量更准确的表达词义,选择Word2vec中的 CBOW(Continuous Bag-of-Words Model)模型来训练词向量,并与其他词向量表示方法进行实验比较,验证CBOW模型的优越性。第二,基于CBOW词向量模型提出金融问答模型。为了加深对核心问句的理解,减少冗余,将注意力机制(Attention)引入模型使得其最终得到的语义理解向量更加具有特征性,为了让模型可以对文本的上下文有很好的记忆功能,引入双向长短时记忆网络(Bi-LSTM)。为了整合信息量,保留关键信息,引入最大池化(Max-Pooling),再将这些技术整合并提出F-B模型。最后进行与支持向量机(Support Vector Machine,SVM),卷积神经网络(Convolutional Neural Networks,CNN)等模型的对比实验,验证F-B模型对金融领域的适用性。第三,基于F-B问答模型设计实现出完整的金融问答系统。该系统包含三个模块:数据处理模块,问句理解模块,迭代更新模块。
【学位授予单位】:陕西师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;F831;TP391.3
【图文】:
Word2vec[23]将词转变为计算机可识别的低维数学向量,如[0.241,邋0.756,逡逑0.563,邋0.319…]。如果语义相近的词映射在相同坐标系下,那么他们之间的距离逡逑也更加接近。如图2-1所示:逡逑中国逡逑我国逡逑国内逡逑陕西师范大竽逡逑3匕京师范大字逡逑甬京师范大字逡逑图2-1邋Word2vec平面效果图逡逑Fig.2-1邋Plan邋effect邋of邋word2vec逡逑利用w0rd2veC[24]训练得到的词向量,体现了词与词之间的相关性,从而提升逡逑了向量在语义层面上准确度,非常贴合问答系统的特点,利用\vord2vec训练效果逡逑如图2-2所示,当输入诺基亚时,可以找到与其语义相接近的词,例如微软,华逡逑为等。w0rd2VeC算法|25]是通过移除神经概率语言模型的隐含层来简化模型,它提逡逑出了两种模型训练方法,CBOW126](Continuous邋Bag-of-Words邋Model,邋CBOW)和逡逑skip-gram邋模型(Coninuous邋Skip-gram邋Model,邋Skip-gram)。CBOW邋是通过中心词的逡逑上下文语境词的词向量来预测中心词的概率|27]。例如“西安是历史悠久的城逡逑市”来得出“一个”。就可以推测出目标词西安
Word2vec[23]将词转变为计算机可识别的低维数学向量,如[0.241,邋0.756,逡逑0.563,邋0.319…]。如果语义相近的词映射在相同坐标系下,那么他们之间的距离逡逑也更加接近。如图2-1所示:逡逑中国逡逑我国逡逑国内逡逑陕西师范大竽逡逑3匕京师范大字逡逑甬京师范大字逡逑图2-1邋Word2vec平面效果图逡逑Fig.2-1邋Plan邋effect邋of邋word2vec逡逑利用w0rd2veC[24]训练得到的词向量,体现了词与词之间的相关性,从而提升逡逑了向量在语义层面上准确度,非常贴合问答系统的特点,利用\vord2vec训练效果逡逑如图2-2所示,当输入诺基亚时,可以找到与其语义相接近的词,例如微软,华逡逑为等。w0rd2VeC算法|25]是通过移除神经概率语言模型的隐含层来简化模型,它提逡逑出了两种模型训练方法,CBOW126](Continuous邋Bag-of-Words邋Model,邋CBOW)和逡逑skip-gram邋模型(Coninuous邋Skip-gram邋Model,邋Skip-gram)。CBOW邋是通过中心词的逡逑上下文语境词的词向量来预测中心词的概率|27]。例如“西安是历史悠久的城逡逑市”来得出“一个”。就可以推测出目标词西安
本文编号:2721325
【学位授予单位】:陕西师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;F831;TP391.3
【图文】:
Word2vec[23]将词转变为计算机可识别的低维数学向量,如[0.241,邋0.756,逡逑0.563,邋0.319…]。如果语义相近的词映射在相同坐标系下,那么他们之间的距离逡逑也更加接近。如图2-1所示:逡逑中国逡逑我国逡逑国内逡逑陕西师范大竽逡逑3匕京师范大字逡逑甬京师范大字逡逑图2-1邋Word2vec平面效果图逡逑Fig.2-1邋Plan邋effect邋of邋word2vec逡逑利用w0rd2veC[24]训练得到的词向量,体现了词与词之间的相关性,从而提升逡逑了向量在语义层面上准确度,非常贴合问答系统的特点,利用\vord2vec训练效果逡逑如图2-2所示,当输入诺基亚时,可以找到与其语义相接近的词,例如微软,华逡逑为等。w0rd2VeC算法|25]是通过移除神经概率语言模型的隐含层来简化模型,它提逡逑出了两种模型训练方法,CBOW126](Continuous邋Bag-of-Words邋Model,邋CBOW)和逡逑skip-gram邋模型(Coninuous邋Skip-gram邋Model,邋Skip-gram)。CBOW邋是通过中心词的逡逑上下文语境词的词向量来预测中心词的概率|27]。例如“西安是历史悠久的城逡逑市”来得出“一个”。就可以推测出目标词西安
Word2vec[23]将词转变为计算机可识别的低维数学向量,如[0.241,邋0.756,逡逑0.563,邋0.319…]。如果语义相近的词映射在相同坐标系下,那么他们之间的距离逡逑也更加接近。如图2-1所示:逡逑中国逡逑我国逡逑国内逡逑陕西师范大竽逡逑3匕京师范大字逡逑甬京师范大字逡逑图2-1邋Word2vec平面效果图逡逑Fig.2-1邋Plan邋effect邋of邋word2vec逡逑利用w0rd2veC[24]训练得到的词向量,体现了词与词之间的相关性,从而提升逡逑了向量在语义层面上准确度,非常贴合问答系统的特点,利用\vord2vec训练效果逡逑如图2-2所示,当输入诺基亚时,可以找到与其语义相接近的词,例如微软,华逡逑为等。w0rd2VeC算法|25]是通过移除神经概率语言模型的隐含层来简化模型,它提逡逑出了两种模型训练方法,CBOW126](Continuous邋Bag-of-Words邋Model,邋CBOW)和逡逑skip-gram邋模型(Coninuous邋Skip-gram邋Model,邋Skip-gram)。CBOW邋是通过中心词的逡逑上下文语境词的词向量来预测中心词的概率|27]。例如“西安是历史悠久的城逡逑市”来得出“一个”。就可以推测出目标词西安
【参考文献】
相关期刊论文 前8条
1 熊富林;邓怡豪;唐晓晟;;Word2vec的核心架构及其应用[J];南京师范大学学报(工程技术版);2015年01期
2 奉国和;郑伟;;国内中文自动分词技术研究综述[J];图书情报工作;2011年02期
3 蒋昌金;彭宏;马千里;林正春;王成;;受限领域中文问答系统问句分析研究[J];计算机工程与设计;2010年11期
4 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
5 余正涛,樊孝忠,康海燕;基于自然语言理解的受限领域自动应答系统[J];计算机工程;2004年18期
6 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期
7 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
8 杨思春;陈家骏;;中文自动问答中旬子相似度计算研究[J];情报学报;2008年01期
相关硕士学位论文 前2条
1 王银丽;限定领域内智能问答系统的研究与实现[D];内蒙古大学;2008年
2 汤赛丽;常识知识问答系统中知识库构建的研究与设计[D];河南大学;2005年
本文编号:2721325
本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/2721325.html