基于主题排序与推荐的智能全文检索系统研究与实现

发布时间：2020-08-11 07:21

【摘要】：随着互联网信息技术的飞速发展,各个门户站点井喷式爆发,网络数据呈爆炸式增长。从信息过载时代进入信息爆炸时代,人们从海量数据信息和门户站点中检索获取自己需要知识的需求愈加迫切。对于个人来说,如何从海量的信息中快速、准确地搜寻到目的信息页面是关键;对于各个拥有庞大数量页面的网站站点来说,如何快速构建一个准确化、个性化的检索系统成为当务之急。本论文在上述背景下,跟据信息检索的实际需求情况,提出了一种基于主题排序与推荐的智能全文检索系统。本文的主要工作内容有如下几点:第一,对系统的研究背景、目的及意义进行分析,介绍了国内外全文搜索引擎和排序技术的发展现状。同时对本全文搜索引擎系统具体架构和推荐模型建模进行了分析,明确了业务需求和流程,并提出构建本智能化全文搜索引擎的具体流程。第二,本文将系统分为了四层模块结构实现,首先针对检索结果进行排序,运用距离频度相关算法和LDA主题模型进行内容匹配,使用PageRank算法计算链接重要度,运用BP神经网络和用户日志对排序进行反馈学习与优化。最后使用几种算法结果的加权进行综合排序,使检索结果更加合理。同时对个性化推荐的理论技术进行探究,结合主题分析与检索系统的特点,提出了基于主题的混合推荐算法HRT。发掘用户主要偏好主题与潜在偏好主题,并采用两种方式相结合的混合推荐,也可以有效地解决推荐算法在搜索引擎应用中的冷启动问题。最后,系统的设计实现,主要采用Python进行各个模块的实现,同时设计有出错设计和提供多套方案供系统稳定运行。详细分析了系统各功能的实现效果以及结果指标,并运用黑盒测试方法和LoadRunner负载测试工具对系统进行了测试。各项结果表明,该系统基本达到了智能检索的需求。此外,本系统模块化的设计与灵活的优化算法组合为用户提供合理页面排序,并在实际功能的基础上保证了系统的稳定性,准确性与智能化以及高可扩展性,帮助用户从海量信息中最方便快速地找到自己需要的信息。有效地解决了用户智能信息检索问题和网站站点快速个性化部署的需求。
【学位授予单位】：郑州大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP391.3
【图文】：

如何快速构建一个准确化、个性化的检索系统成为迫切要解决的问题。随着深度神经网络和文本主题技术的成熟使机器自动从信息中提取信息和学到人们的偏好，从而进行自主学习成为可能，传统意义上的的搜索引擎已经足不了人们对于搜索页面的主题化和个性化偏好的需求。因此一个能实现快部署的智能学习页面内容信息的全文搜索引擎在人们日常生活学习中有着重的现实意义。.1 研究背景及意义随着因特网的迅猛发展，大量的网站如雨后春笋般出现，网络信息大量增。根据第 41 次《中国互联网发展状况统计报告》统计数据显示[1]，截至 2017 12 月，中国网站的数量为 533 万个，半年增长 4.8% 。海量信息数据的涌入便利人们生活的同时，也必然会导致信息过载（information overload）问题—人们在大量的、质量参差不齐的数据中找到自己需要搜寻的数据，如同大海针。2012-2017 年中国网站数量如图 1.1 所示。

搜索引擎,使用率,增长率,互联网

1 绪论搜索引擎(Search Engine)正是为了解决这种信息过载问题而出现的技术。它运用一定的策略使人们可以根据自己的需要在互联网中搜集、发现知识信息，并对信息进行采集、提取和有序地组织，从而起到信息检索的目的。毫无疑问，搜索引擎已经成为人们从互联网中获取信息的最重要手段之一。作为基础应用，搜索引擎在人们的互联网生活中一直占据着重要地位，用户规模稳定增长，使用率保持高位[2]。据统计，截至 2015 年 6 月，我国搜索引擎使用数到达 5.36 亿，占网民数量的 80.3%，是网民第三大应用。中国用户搜索引擎用户规模、半年增长率与使用率如图 1.2 所示。

过程图,文档生成,主题,过程

够在批量文档中发现其隐含主题分布的生语料的特征知识发现与语义挖掘，被广泛取和信息检索等领域。LDA 由概率隐性语alysis, pLSA)改进而来，能够更真实地描类和检索，现已成为信息抽取、挖掘分成模型是一种“文档-主题-词”的三层贝叶斯概隐含主题词的混合，文本中的词汇代表，为文本主题建模的方法是将主题视为随机混合[26]，从而按照概率分布进行随大规模文档集或语料库中潜在的主题信息.1 所示。

【参考文献】