基于深度学习的文本检索系统的设计与实现
发布时间:2021-09-03 14:25
随着互联网数据量的增加,不同的文本检索系统应用到了不同的产品当中。同时,数据量的增加使得神经网络与深度学习技术得到的长足的发展。但现有的文本检索系统却很少应用深度学习技术。因此本论文设计并实现了文本检索系统,用户可以通过本系统搜索文本,获取与自己目标最相近的一些文本。本论文以文本检索以及文本检索中的深度学习算法为主要研究内容,并使用分布式操作系统构建了文本检索系统,论文完成了一下三方面的工作:使用基于Master/Slave架构的分布式爬虫爬取数据,并对爬取的数据进行数据清洗。并根据爬取的数据构建模型样本,并将构建的模型样本与TREC数据集进行合并。为了提升深度文本匹配效果,本论文研究了多种深度学习模型,并着重描述了两种通用文本匹配模型:基于单语义特征抽取的孪生语义网络模型与直接进行语义建模的空间金字塔模型。同时根据这两种模型提出新的语义网络模型:基于孪生语义网络模型和空间金字塔模型的融合模型,该模型将孪生语义网络模型与空间金字塔模型抽取出的新特征进行融合。实验表明,以MAP值作为评价指标,使用该模型进行文本检索,能够比传统检索方法效果好8%以上,比现有的深度学习算法高3%以上。本文设...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
图2-1文本检索系统??2.1.2倒排索引??
图2-2检索相关分布??到的与用户查询相关的文档集合,B合,C表示未检索到的与用户查询相询无关的文档集合。早期常用的评测用来表示检索出来的相关文档总数Precision),用来表示检索出来的相示的是精确率与召回率的调和平均??系统检索到的相关文件数?all?=?=?-相关文件数?4..?系统检索到的相关文件数sion?=?=?系统返回的文件综述?1?2?*?Precision?*?R1?.?1?Precision?+?Reccision?+?Recall)??
Hadoop生态系统系列有很多,有底层的HDFS分布式文件系统,有基于??Hadoop的类似关系型数据库的Hive,也有基于Hadoop的内存计算框架Spark,??还有分布式数据库Hbase等等,Hadoop生态系统如图2-3所示。??Ambari??(安装部署工具》??■?I??霸Hive?Pig?Hive2?Pig2?Shark?…??圓關。—Effli…圓??/孓I?BStSTII?KjJ??國■?nmmiiiii?ST??'^81—i?闕??HI??图2-3?Hadoop生态系统??2.4.2分布式文件系统HDFS??HDFS?(HadoopDistributeFile?System,分布式文件系统)是一个被设计运行??于商业硬件上的分布式文件系统。它与现有的分布式文件系统有许多相似之处,??但与其他分布式文件系统的区别是显著的。HDFS具有高度的容错性,可部署在??低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于需要访问大??型数据集的应用程序。HDFS放宽了一些POSIX标准,以实现对文件系统数据??的流式访问。HDFS最初的诞生是作为Apache?Nutch?Web搜索引擎项目的基础??设施构建的,HDFS现在己经成为了?Apache?Hadoop的子项目。??2.4.3并行处理框架MapReduce??Hadoop?MapReduce是一个易于编写应用程序的软件框架,它以可靠、容错??的方式在大规模商业集群上(数百到数千个节点)并行化处理大规模数据。??一个MapReduce任务分成两步:分为Map和Reduce
【参考文献】:
期刊论文
[1]面向短文本分析的分布式表示模型[J]. 梁吉业,乔洁,曹付元,刘晓琳. 计算机研究与发展. 2018(08)
[2]深度学习研究综述[J]. 尹宝才,王文通,王立春. 北京工业大学学报. 2015(01)
[3]个性化推荐系统的研究进展[J]. 刘建国,周涛,汪秉宏. 自然科学进展. 2009(01)
[4]Web结构挖掘及HITS算法分析[J]. 黄英铭. 计算机与现代化. 2007(07)
[5]基于倒排索引的文本相似搜索[J]. 杨建武,陈晓鸥. 计算机工程. 2005(05)
[6]三种检索模型的比较分析研究——布尔、概率、向量空间模型[J]. 王娟琴. 情报科学. 1998(03)
[7]RNN神经网络的应用研究[J]. 朱群雄,孙锋. 北京化工大学学报(自然科学版). 1998(01)
[8]概率检索模型[J]. 景玉峰,王能琴,刘琪. 现代图书情报技术. 1987(01)
本文编号:3381281
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
图2-1文本检索系统??2.1.2倒排索引??
图2-2检索相关分布??到的与用户查询相关的文档集合,B合,C表示未检索到的与用户查询相询无关的文档集合。早期常用的评测用来表示检索出来的相关文档总数Precision),用来表示检索出来的相示的是精确率与召回率的调和平均??系统检索到的相关文件数?all?=?=?-相关文件数?4..?系统检索到的相关文件数sion?=?=?系统返回的文件综述?1?2?*?Precision?*?R1?.?1?Precision?+?Reccision?+?Recall)??
Hadoop生态系统系列有很多,有底层的HDFS分布式文件系统,有基于??Hadoop的类似关系型数据库的Hive,也有基于Hadoop的内存计算框架Spark,??还有分布式数据库Hbase等等,Hadoop生态系统如图2-3所示。??Ambari??(安装部署工具》??■?I??霸Hive?Pig?Hive2?Pig2?Shark?…??圓關。—Effli…圓??/孓I?BStSTII?KjJ??國■?nmmiiiii?ST??'^81—i?闕??HI??图2-3?Hadoop生态系统??2.4.2分布式文件系统HDFS??HDFS?(HadoopDistributeFile?System,分布式文件系统)是一个被设计运行??于商业硬件上的分布式文件系统。它与现有的分布式文件系统有许多相似之处,??但与其他分布式文件系统的区别是显著的。HDFS具有高度的容错性,可部署在??低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于需要访问大??型数据集的应用程序。HDFS放宽了一些POSIX标准,以实现对文件系统数据??的流式访问。HDFS最初的诞生是作为Apache?Nutch?Web搜索引擎项目的基础??设施构建的,HDFS现在己经成为了?Apache?Hadoop的子项目。??2.4.3并行处理框架MapReduce??Hadoop?MapReduce是一个易于编写应用程序的软件框架,它以可靠、容错??的方式在大规模商业集群上(数百到数千个节点)并行化处理大规模数据。??一个MapReduce任务分成两步:分为Map和Reduce
【参考文献】:
期刊论文
[1]面向短文本分析的分布式表示模型[J]. 梁吉业,乔洁,曹付元,刘晓琳. 计算机研究与发展. 2018(08)
[2]深度学习研究综述[J]. 尹宝才,王文通,王立春. 北京工业大学学报. 2015(01)
[3]个性化推荐系统的研究进展[J]. 刘建国,周涛,汪秉宏. 自然科学进展. 2009(01)
[4]Web结构挖掘及HITS算法分析[J]. 黄英铭. 计算机与现代化. 2007(07)
[5]基于倒排索引的文本相似搜索[J]. 杨建武,陈晓鸥. 计算机工程. 2005(05)
[6]三种检索模型的比较分析研究——布尔、概率、向量空间模型[J]. 王娟琴. 情报科学. 1998(03)
[7]RNN神经网络的应用研究[J]. 朱群雄,孙锋. 北京化工大学学报(自然科学版). 1998(01)
[8]概率检索模型[J]. 景玉峰,王能琴,刘琪. 现代图书情报技术. 1987(01)
本文编号:3381281
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3381281.html