基于深度学习的文本检索系统的设计与实现

发布时间：2021-09-03 14:25

　　随着互联网数据量的增加,不同的文本检索系统应用到了不同的产品当中。同时,数据量的增加使得神经网络与深度学习技术得到的长足的发展。但现有的文本检索系统却很少应用深度学习技术。因此本论文设计并实现了文本检索系统,用户可以通过本系统搜索文本,获取与自己目标最相近的一些文本。本论文以文本检索以及文本检索中的深度学习算法为主要研究内容,并使用分布式操作系统构建了文本检索系统,论文完成了一下三方面的工作:使用基于Master/Slave架构的分布式爬虫爬取数据,并对爬取的数据进行数据清洗。并根据爬取的数据构建模型样本,并将构建的模型样本与TREC数据集进行合并。为了提升深度文本匹配效果,本论文研究了多种深度学习模型,并着重描述了两种通用文本匹配模型:基于单语义特征抽取的孪生语义网络模型与直接进行语义建模的空间金字塔模型。同时根据这两种模型提出新的语义网络模型:基于孪生语义网络模型和空间金字塔模型的融合模型,该模型将孪生语义网络模型与空间金字塔模型抽取出的新特征进行融合。实验表明,以MAP值作为评价指标,使用该模型进行文本检索,能够比传统检索方法效果好8%以上,比现有的深度学习算法高3%以上。本文设...

【文章来源】：北京邮电大学北京市 211工程院校教育部直属院校

【文章页数】：65 页

【学位级别】：硕士

【部分图文】：

基于深度学习的文本检索系统的设计与实现

图２－１文本检索系统??２．１．２倒排索引??

相关分布,系统检索,文档集

图２－２检索相关分布??到的与用户查询相关的文档集合，Ｂ合，Ｃ表示未检索到的与用户查询相询无关的文档集合。早期常用的评测用来表示检索出来的相关文档总数Ｐｒｅｃｉｓｉｏｎ），用来表示检索出来的相示的是精确率与召回率的调和平均？?系统检索到的相关文件数?ａｌｌ?＝?＝?－相关文件数?４．．?系统检索到的相关文件数ｓｉｏｎ?＝?＝?系统返回的文件综述?１?２?＊?Ｐｒｅｃｉｓｉｏｎ?＊?Ｒ１?．?１?Ｐｒｅｃｉｓｉｏｎ?＋?Ｒｅｃｃｉｓｉｏｎ?＋?Ｒｅｃａｌｌ）??

分布式文件系统,生态系统

Ｈａｄｏｏｐ生态系统系列有很多，有底层的ＨＤＦＳ分布式文件系统，有基于??Ｈａｄｏｏｐ的类似关系型数据库的Ｈｉｖｅ，也有基于Ｈａｄｏｏｐ的内存计算框架Ｓｐａｒｋ，??还有分布式数据库Ｈｂａｓｅ等等，Ｈａｄｏｏｐ生态系统如图２－３所示。??Ａｍｂａｒｉ??（安装部署工具》??■?Ｉ??霸Ｈｉｖｅ?Ｐｉｇ?Ｈｉｖｅ２?Ｐｉｇ２?Ｓｈａｒｋ?…??圓關。—Ｅｆｆｌｉ…圓??／孓Ｉ?ＢＳｔＳＴＩＩ?ＫｊＪ??國■?ｎｍｍｉｉｉｉｉ?ＳＴ??＇＾８１—ｉ?闕??ＨＩ??图２－３?Ｈａｄｏｏｐ生态系统??２．４．２分布式文件系统ＨＤＦＳ??ＨＤＦＳ?（ＨａｄｏｏｐＤｉｓｔｒｉｂｕｔｅＦｉｌｅ?Ｓｙｓｔｅｍ，分布式文件系统）是一个被设计运行??于商业硬件上的分布式文件系统。它与现有的分布式文件系统有许多相似之处，??但与其他分布式文件系统的区别是显著的。ＨＤＦＳ具有高度的容错性，可部署在??低成本硬件上。ＨＤＦＳ提供对应用程序数据的高吞吐量访问，适用于需要访问大??型数据集的应用程序。ＨＤＦＳ放宽了一些ＰＯＳＩＸ标准，以实现对文件系统数据??的流式访问。ＨＤＦＳ最初的诞生是作为Ａｐａｃｈｅ?Ｎｕｔｃｈ?Ｗｅｂ搜索引擎项目的基础??设施构建的，ＨＤＦＳ现在己经成为了?Ａｐａｃｈｅ?Ｈａｄｏｏｐ的子项目。??２．４．３并行处理框架ＭａｐＲｅｄｕｃｅ??Ｈａｄｏｏｐ?ＭａｐＲｅｄｕｃｅ是一个易于编写应用程序的软件框架，它以可靠、容错??的方式在大规模商业集群上（数百到数千个节点）并行化处理大规模数据。??一个ＭａｐＲｅｄｕｃｅ任务分成两步：分为Ｍａｐ和Ｒｅｄｕｃｅ

【参考文献】：
期刊论文
[1]面向短文本分析的分布式表示模型[J]. 梁吉业,乔洁,曹付元,刘晓琳.  计算机研究与发展. 2018(08)
[2]深度学习研究综述[J]. 尹宝才,王文通,王立春.  北京工业大学学报. 2015(01)
[3]个性化推荐系统的研究进展[J]. 刘建国,周涛,汪秉宏.  自然科学进展. 2009(01)
[4]Web结构挖掘及HITS算法分析[J]. 黄英铭.  计算机与现代化. 2007(07)
[5]基于倒排索引的文本相似搜索[J]. 杨建武,陈晓鸥.  计算机工程. 2005(05)
[6]三种检索模型的比较分析研究——布尔、概率、向量空间模型[J]. 王娟琴.  情报科学. 1998(03)
[7]RNN神经网络的应用研究[J]. 朱群雄,孙锋.  北京化工大学学报(自然科学版). 1998(01)
[8]概率检索模型[J]. 景玉峰,王能琴,刘琪.  现代图书情报技术. 1987(01)

本文编号：3381281

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3381281.html

上一篇：高校网络舆情监控系统设计与实现
下一篇：基于逆向工程及机器学习的Android应用漏洞检测技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|