基于统计特征的语义搜索引擎的研究与实现
发布时间:2017-09-18 23:36
本文关键词:基于统计特征的语义搜索引擎的研究与实现
更多相关文章: 神经网络语言模型 CBOW模型 Skip-Gram模型 词向量 语义搜索
【摘要】:资源搜索是资源管理中不可或缺的关键技术,其根据用户请求返回相应资源集。传统的资源搜索采用基于关键字匹配的方法,通过匹配的结果返回精确的资源。但是,自然语言中存在多词同义、一词多义等不确定性因素,相同概念可以有多种不同的表述方式,因此传统的资源搜索存在以下两个问题:一是用户很难用关键词或者关键词串来表达真正需要查询的内容;二是简单依据包含相同词的多少来判断两篇文档的语义相似度可信度低。 本文基于神经网络语言模型从统计特征角度挖掘词和文档的潜在语义特征,在词方面提出基于词向量的中文同义词提取算法,在文档方面引入文档语义特征训练模型,结合NBSVM-bi算法在情感分析领域提高了准确率。针对由于查询输入偏差而导致信息丢失的问题,本文提出基于神经网络语言模型中的CBOW和Skip-Gram模型提取词向量,结合随机森林分类器算法实现中文同义词提取的算法,通过同义词拓展有效解决了由于用户查询输入偏差导致信息丢失的问题。针对文档相似度计算问题,本文引入文档向量改进CBOW模型和Skip-Gram模型,将文档向量和词向量联合输入神经网络模型进行训练,最终得到的文档向量可视为文档的语义特征。基于语义特征的文档相似度计算解决了基于共同出现词个数的文档相似度计算方法可信度低的问题。 最后,本文在词向量和文档特征向量的研究基础上,实现了针对电视节目的语义搜索引擎。利用同义词提取算法得到同义词及其相似度,用于查询拓展,提高了文档的查全率;利用基于离线数据训练得到的文档语义特征作为离线特征,改进文档的搜索排序,将语义相关度更高的文档优先返回给用户。
【关键词】:神经网络语言模型 CBOW模型 Skip-Gram模型 词向量 语义搜索
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-15
- 1.1 课题研究的背景和意义9-10
- 1.2 课题的研究内容10-12
- 1.2.1 基于词向量的中文同义词自动提取10-11
- 1.2.2 文档向量表示模型研究及基于文档特征向量的情感分类器应用11-12
- 1.3 论文的主要研究成果12-13
- 1.4 本文的组织结构13-15
- 第二章 研究基础综述15-25
- 2.1 搜索引擎研究现状15-17
- 2.2 搜索引擎相关技术综述17-20
- 2.2.1 搜索引擎的原理17-18
- 2.2.2 信息获取18
- 2.2.3 索引技术18-19
- 2.2.4 用户接口设计19
- 2.2.5 排序技术19-20
- 2.3 统计特征研究综述20-24
- 2.3.1 特征提取概述20
- 2.3.2 浅层次统计特征提取20-22
- 2.3.3 深层次统计特征提取22-24
- 2.4 总结24-25
- 第三章 基于词向量的中文同义词自动提取25-36
- 3.1 中文同义词自动提取研究总结25-27
- 3.1.1 基于语义词典的方法26
- 3.1.2 基于网络资源的方法26-27
- 3.2 词向量研究27-32
- 3.2.1 Skip-Gram模型28-29
- 3.2.2 CBOW模型29
- 3.2.3 Skip-Gram和CBOW对比29-31
- 3.2.4 模型训练中的参数学习技巧31-32
- 3.3 随机森林算法32-33
- 3.3.1 随机森林算法原理简介32
- 3.3.2 随机森林生成流程32-33
- 3.4 中文同义词自动提取实验33-35
- 3.5 总结35-36
- 第四章 基于文档特征的情感分析研究36-43
- 4.1 文档特征学习算法研究36-38
- 4.1.1 基于CBOW模型改进的文档特征学习算法36-37
- 4.1.2 基于Skip-Gram模型改进的文档特征学习算法37-38
- 4.2 模型集成算法38
- 4.3 情感分析实验38-42
- 4.3.1 情感分析的研究现状38-39
- 4.3.2 基于文档语义特征的情感分析实验39-41
- 4.3.3 本文提出算法与其他算法的结果对比41-42
- 4.4 总结42-43
- 第五章 语义搜索引擎设计与实现43-58
- 5.1 系统架构设计43-44
- 5.2 数据获取系统44-47
- 5.3 消息系统47-48
- 5.4 线上系统48-54
- 5.4.1 索引构建流程48-52
- 5.4.2 检索流程52-53
- 5.4.3 线上系统打分算法53-54
- 5.5 离线系统54-55
- 5.5.1 节目的语义特征向量55
- 5.5.2 节目的质量值55
- 5.6 演示系统55-56
- 5.7 总结56-58
- 第六章 总结与展望58-59
- 参考文献59-62
- 附录1 论文使用缩写说明62-63
- 致谢63-64
- 攻读学位期间发表或已录用的学术论文64
【参考文献】
中国期刊全文数据库 前3条
1 石晶,龚震宇,裘杭萍,张毓森;一种更稳定的链接分析算法——子空间HITS算法[J];吉林大学学报(理学版);2003年01期
2 李铃;搜索引擎发展方向[J];科技情报开发与经济;2005年21期
3 于江生 ,俞士汶;中文概念词典的结构[J];中文信息学报;2002年04期
,本文编号:878224
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/878224.html