基于深度学习与主题模型的问句相似度计算
本文关键词:基于深度学习与主题模型的问句相似度计算,由笔耕文化传播整理发布。
【摘要】:近年来,随着互联网的高速发展,互联网上的数据正在爆炸式地增加,传统的搜索引擎已经很难满足用户多方面的需求,自动问答系统应运而生,成为了一种新的更为有效的信息获取方式。问句相似度计算作为其中关键的技术,受到了广泛的关注。本文在“大数据”背景下,研究了如何高效计算问句相似度的问题,针对问句的特点,提出了使用向量表示句子,进而通过计算向量间距离来度量相似度的方法。论文的主要工作和创新点包括:(1)分析了现有方法的不足之处,研究了神经网络语言模型和主题模型,并分析了它们在语义表示方面各自的优点;(2)为了更好地表示句子的语义,提出了两个基于深度学习与主题模型的主题句子向量模型,并给出了模型的训练算法。其中,第二个模型对第一个模型进行了改进,去除了“词袋”假设。这两个模型结合了句子向量模型所提供的局部上下文词语共现信息和主题模型所提供的全局词语共现信息;(3)为验证所提模型的有效性,在IMDB电影评论数据上,进行了句子分类实验,对比了所提模型与已有先进模型。实验结果表明,融入了主题信息的句子向量模型,超越了传统的句子向量模型,能够更好地表示句子的语义;(4)设计实现了基于句子向量的问句相似度计算方法,在大量真实的Yahoo!Answers数据上,基于前面提出的两个主题句子向量模型,并通过部分标注的数据进行了验证对比实验。实验结果表明,该方法能够在大规模的问答数据上有效地计算问句相似度。
【关键词】:问句相似度 深度学习 主题模型 句子向量
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-9
- 第1章 绪论9-16
- 1.1 研究背景和意义9-10
- 1.2 国内外研究现状与发展趋势10-13
- 1.2.1 深度学习在NLP中的应用10-11
- 1.2.2 主题模型简介11-12
- 1.2.3 问句相似度计算12-13
- 1.3 论文主要工作和结构安排13-16
- 1.3.1 论文主要工作13-14
- 1.3.2 论文结构安排14-16
- 第2章 相关理论及方法16-29
- 2.1 LDA主题模型16-19
- 2.1.1 LDA模型概述16-17
- 2.1.2 Gibbs采样算法17-18
- 2.1.3 LDA参数求解18-19
- 2.2 神经网络语言模型与词向量19-25
- 2.2.1 神经网络概率语言模型19-21
- 2.2.2 word2vec模型21-25
- 2.3 基于深度学习的文档向量化表示25-27
- 2.3.1 句子向量化方法25-26
- 2.3.2 文档向量化方法26-27
- 2.4 本章小结27-29
- 第3章 基于CBOW的主题句子向量模型29-43
- 3.1 主题句子向量模型的基本思想29-30
- 3.2 基于CBOW的神经网络模型30-32
- 3.3 基于Hierarchical Softmax的模型求解算法32-37
- 3.3.1 梯度及Hierarchical Softmax参数计算32-36
- 3.3.2 基于Hierarchical Softmax的训练算法36-37
- 3.4 基于Negative Sampling的模型求解算法37-40
- 3.4.1 梯度及Negative Sampling参数计算37-39
- 3.4.2 基于Negative Sampling的训练算法39-40
- 3.5 实现细节与优化40-41
- 3.5.1 实现细节40
- 3.5.2 近似计算与优化40-41
- 3.6 相关实验41-42
- 3.7 本章小结42-43
- 第4章 基于SKIP-GRAM的主题句子向量模型43-50
- 4.1 基于Skip-gram的神经网络模型43-44
- 4.2 基于Hierarchical Softmax的模型求解算法44-47
- 4.3 基于Negative Sampling的模型求解算法47-48
- 4.4 相关实验48-49
- 4.5 本章小结49-50
- 第5章 基于主题句子向量模型的问句相似度计算50-55
- 5.1 基于句子向量计算问句相似度计算50
- 5.2 实验环境与数据集50-52
- 5.2.1 实验环境51
- 5.2.2 数据集介绍51-52
- 5.3 问句相似度计算实验结果52-54
- 5.3.1 评价指标52-53
- 5.3.2 实验方法53
- 5.3.3 实验结果53-54
- 5.4 本章小结54-55
- 结论55-57
- 参考文献57-62
- 攻读学位期间发表的论文与研究成果清单62-63
- 致谢63
【相似文献】
中国期刊全文数据库 前10条
1 王钧;赵曰利;;浙大中药指纹图谱相似度计算软件在烟用香精香料色谱分析中的引入应用[J];现代仪器;2007年03期
2 单建芳;刘宗田;周文;;事件相似度计算[J];小型微型计算机系统;2010年04期
3 刘文剑;郭宁;金天国;;制造资源本体的相似度计算模型[J];计算机集成制造系统;2010年11期
4 邸书灵;刘晓飞;李欢;;基于分词的语句相似度计算的改进[J];石家庄铁道大学学报(自然科学版);2011年04期
5 秦学勇;张润梅;;两级相似度计算在主观题机器阅卷中的应用[J];计算机工程;2012年11期
6 田卫东;强继朋;;基于问句类型的问句相似度计算[J];计算机应用研究;2014年04期
7 周凯波,冯珊,李锋;基于案例属性特征的相似度计算模型研究[J];武汉理工大学学报(信息与管理工程版);2003年01期
8 易丽萍,竹勇 ,雷小春;知网在词语相似度计算方面的应用[J];信息技术与信息化;2005年01期
9 廉站俊;吕学强;张玉杰;施水才;;基于句子相似度计算的信息抽取[J];现代图书情报技术;2007年06期
10 李伟;;中文语句相似度计算的方法初探[J];兰州工业高等专科学校学报;2009年04期
中国重要会议论文全文数据库 前10条
1 刘磊;张桂平;蔡东风;季铎;;基于语义预测的双语术语相似度计算[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
5 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 郭文宏;范学峰;;基于语义词典和本体知识的概念相似度计算[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 关毅;王晓龙;王强;;论系统相似的度量[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前1条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
中国博士学位论文全文数据库 前4条
1 冯晓文;基于GPU的相似度计算关键技术研究[D];华中科技大学;2014年
2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
3 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
4 任磊;推荐系统关键技术研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 梁韬;中文微博新词与热点话题发现技术研究[D];湖南工业大学;2015年
2 汪建成;汉越双语新闻话题分析方法研究[D];昆明理工大学;2015年
3 唐海燕;基于全文的教育资源检索模型研究[D];四川师范大学;2015年
4 舒佳根;中文实体链接研究[D];苏州大学;2015年
5 孔行;基于主题推荐的辅助写作系统[D];哈尔滨工业大学;2015年
6 孙润志;基于语义理解的文本相似度计算研究与实现[D];中国科学院研究生院(沈阳计算技术研究所);2015年
7 刘敏;基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用[D];北京理工大学;2015年
8 康毅;面向客服的自动问答系统关键技术研究[D];东北大学;2014年
9 吴宇浩;南海档案数字化半自动校勘中的底本推荐探讨[D];南京大学;2015年
10 吐尔逊阿依·阿不来提;小学维吾尔语文教材中的单句相似度研究[D];新疆师范大学;2015年
本文关键词:基于深度学习与主题模型的问句相似度计算,由笔耕文化传播整理发布。
,本文编号:301307
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/301307.html