面向领域的智能搜索研究

发布时间:2021-09-29 09:20
  进入信息时代后各个领域的数据出现了爆炸性的增长,高效的知识搜索和发现成为日益迫切的需要。在许多面向领域的搜索场景中,由于数据保密性的原因通用的搜索引擎没有帮助,实现的搜索功能往往只是基于数据库查询的条件匹配,只能捕获有限的查询语句的语义信息。因此如何做到语义理解查询语句以实现面向领域的智能搜索具有非常重要的意义。针对智能搜索中核心的查询语句实体链接,传统的方法都是先识别出语句中的命名实体,然后再链接到知识图谱的实体,这需要大量的数据处理(如实体指称标注)和特征选择工作,而且容易造成错误累积,降低链接效果。针对这种情况,本文提出基于注意力机制的查询语句实体链接模型。该模型使用双向的长短期记忆网络对问句进行编码,经过注意力机制解码,生成对应的实体指称和消歧信息输出,最后再链接到知识图谱中的实体。在有关汽车领域车系产品问句和实体的数据集上进行实验,结果表明该模型仅利用很少的上下文信息便取得良好的效果,为实体链接提供了新的思路。结合自然语言处理的知识图谱、文本分类、实体链接、表示学习等技术,经过实践和总结,本文提出了一种面向限定领域的智能搜索框架,该框架由网络层、查询语句分类层、实体链接层、服... 

【文章来源】:西南交通大学四川省 211工程院校 教育部直属院校

【文章页数】:72 页

【学位级别】:硕士

【图文】:

面向领域的智能搜索研究


Google知识图谱辅助搜索

函数图像,函数图像


要介绍论文涉及到的相关知识和技术。理论介绍后文使用到的相关理论知识做一个简要介绍,主要是涉及到识。函数数是模拟神经细胞在网络中设置的非线性函数,如果没有激活就是输入的各维度特征乘以不同权值后的线性组合,其拟合能的激活函数主要包括 sigmoid、tanh 和 softmax 函数,这里将id 函数 函数是一种提出较早、目前广泛使用的激活函数,在本文中中间隐藏层细胞的激活。其计算公式为:( )11zf ze =+如图 2-1 所示,可以看到 sigmoid 函数值域为(0,1)。

函数图像,函数图像


图 2-2 tanh 函数图像ax 函数神经网络多分类时,通常输出层的激活函数选择为 softmax 函数( )1jkzjKzkee == z 经元激活前的输出,K 为输出层神经元的数量。出,softmax 函数将原来的 K 维输出归一化,并且它们之和为作分类为 i 的得分或概率。函数数是评估算法预测值与实际值之间差别大小的方法,后文涉及ftmax 函数对应的多分类对数损失函数(Categorical Cross Ent( ), ,logi i j i jjL = t p数据点,j 表示类别,p 表示预测结果的得分,t 表示实际的得

【参考文献】:
期刊论文
[1]基于词向量的实体链接方法[J]. 齐爱芹,徐蔚然.  数据采集与处理. 2017(03)
[2]基于词向量的中文微博实体链接方法[J]. 毛二松,王波,唐永旺,梁丹.  计算机应用与软件. 2017(04)
[3]基于词向量语义分类的微博实体链接方法[J]. 冯冲,石戈,郭宇航,龚静,黄河燕.  自动化学报. 2016(06)
[4]一种基于概率主题模型的命名实体链接方法[J]. 怀宝兴,宝腾飞,祝恒书,刘淇.  软件学报. 2014(09)
[5]自然语言处理在信息检索中的应用综述[J]. 王灿辉,张敏,马少平.  中文信息学报. 2007(02)



本文编号:3413466

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3413466.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户98452***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com