基于主题排序与推荐的智能全文检索系统研究与实现
发布时间:2020-08-11 07:21
【摘要】:随着互联网信息技术的飞速发展,各个门户站点井喷式爆发,网络数据呈爆炸式增长。从信息过载时代进入信息爆炸时代,人们从海量数据信息和门户站点中检索获取自己需要知识的需求愈加迫切。对于个人来说,如何从海量的信息中快速、准确地搜寻到目的信息页面是关键;对于各个拥有庞大数量页面的网站站点来说,如何快速构建一个准确化、个性化的检索系统成为当务之急。本论文在上述背景下,跟据信息检索的实际需求情况,提出了一种基于主题排序与推荐的智能全文检索系统。本文的主要工作内容有如下几点:第一,对系统的研究背景、目的及意义进行分析,介绍了国内外全文搜索引擎和排序技术的发展现状。同时对本全文搜索引擎系统具体架构和推荐模型建模进行了分析,明确了业务需求和流程,并提出构建本智能化全文搜索引擎的具体流程。第二,本文将系统分为了四层模块结构实现,首先针对检索结果进行排序,运用距离频度相关算法和LDA主题模型进行内容匹配,使用PageRank算法计算链接重要度,运用BP神经网络和用户日志对排序进行反馈学习与优化。最后使用几种算法结果的加权进行综合排序,使检索结果更加合理。同时对个性化推荐的理论技术进行探究,结合主题分析与检索系统的特点,提出了基于主题的混合推荐算法HRT。发掘用户主要偏好主题与潜在偏好主题,并采用两种方式相结合的混合推荐,也可以有效地解决推荐算法在搜索引擎应用中的冷启动问题。最后,系统的设计实现,主要采用Python进行各个模块的实现,同时设计有出错设计和提供多套方案供系统稳定运行。详细分析了系统各功能的实现效果以及结果指标,并运用黑盒测试方法和LoadRunner负载测试工具对系统进行了测试。各项结果表明,该系统基本达到了智能检索的需求。此外,本系统模块化的设计与灵活的优化算法组合为用户提供合理页面排序,并在实际功能的基础上保证了系统的稳定性,准确性与智能化以及高可扩展性,帮助用户从海量信息中最方便快速地找到自己需要的信息。有效地解决了用户智能信息检索问题和网站站点快速个性化部署的需求。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:
如何快速构建一个准确化、个性化的检索系统成为迫切要解决的问题。随着深度神经网络和文本主题技术的成熟使机器自动从信息中提取信息和学到人们的偏好,从而进行自主学习成为可能,传统意义上的的搜索引擎已经足不了人们对于搜索页面的主题化和个性化偏好的需求。因此一个能实现快部署的智能学习页面内容信息的全文搜索引擎在人们日常生活学习中有着重的现实意义。.1 研究背景及意义随着因特网的迅猛发展,大量的网站如雨后春笋般出现,网络信息大量增。根据第 41 次《中国互联网发展状况统计报告》统计数据显示[1],截至 2017 12 月,中国网站的数量为 533 万个,半年增长 4.8% 。海量信息数据的涌入便利人们生活的同时,也必然会导致信息过载(information overload)问题—人们在大量的、质量参差不齐的数据中找到自己需要搜寻的数据,如同大海针。2012-2017 年中国网站数量如图 1.1 所示。
1 绪论搜索引擎(Search Engine)正是为了解决这种信息过载问题而出现的技术。它运用一定的策略使人们可以根据自己的需要在互联网中搜集、发现知识信息,并对信息进行采集、提取和有序地组织,从而起到信息检索的目的。毫无疑问,搜索引擎已经成为人们从互联网中获取信息的最重要手段之一。作为基础应用,搜索引擎在人们的互联网生活中一直占据着重要地位,用户规模稳定增长,使用率保持高位[2]。据统计,截至 2015 年 6 月,我国搜索引擎使用数到达 5.36 亿,占网民数量的 80.3%,是网民第三大应用。中国用户搜索引擎用户规模、半年增长率与使用率如图 1.2 所示。
够在批量文档中发现其隐含主题分布的生语料的特征知识发现与语义挖掘,被广泛取和信息检索等领域。LDA 由概率隐性语alysis, pLSA)改进而来,能够更真实地描类和检索,现已成为信息抽取、挖掘分成模型是一种“文档-主题-词”的三层贝叶斯概隐含主题词的混合,文本中的词汇代表,为文本主题建模的方法是将主题视为随机混合[26],从而按照概率分布进行随大规模文档集或语料库中潜在的主题信息.1 所示。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:
如何快速构建一个准确化、个性化的检索系统成为迫切要解决的问题。随着深度神经网络和文本主题技术的成熟使机器自动从信息中提取信息和学到人们的偏好,从而进行自主学习成为可能,传统意义上的的搜索引擎已经足不了人们对于搜索页面的主题化和个性化偏好的需求。因此一个能实现快部署的智能学习页面内容信息的全文搜索引擎在人们日常生活学习中有着重的现实意义。.1 研究背景及意义随着因特网的迅猛发展,大量的网站如雨后春笋般出现,网络信息大量增。根据第 41 次《中国互联网发展状况统计报告》统计数据显示[1],截至 2017 12 月,中国网站的数量为 533 万个,半年增长 4.8% 。海量信息数据的涌入便利人们生活的同时,也必然会导致信息过载(information overload)问题—人们在大量的、质量参差不齐的数据中找到自己需要搜寻的数据,如同大海针。2012-2017 年中国网站数量如图 1.1 所示。
1 绪论搜索引擎(Search Engine)正是为了解决这种信息过载问题而出现的技术。它运用一定的策略使人们可以根据自己的需要在互联网中搜集、发现知识信息,并对信息进行采集、提取和有序地组织,从而起到信息检索的目的。毫无疑问,搜索引擎已经成为人们从互联网中获取信息的最重要手段之一。作为基础应用,搜索引擎在人们的互联网生活中一直占据着重要地位,用户规模稳定增长,使用率保持高位[2]。据统计,截至 2015 年 6 月,我国搜索引擎使用数到达 5.36 亿,占网民数量的 80.3%,是网民第三大应用。中国用户搜索引擎用户规模、半年增长率与使用率如图 1.2 所示。
够在批量文档中发现其隐含主题分布的生语料的特征知识发现与语义挖掘,被广泛取和信息检索等领域。LDA 由概率隐性语alysis, pLSA)改进而来,能够更真实地描类和检索,现已成为信息抽取、挖掘分成模型是一种“文档-主题-词”的三层贝叶斯概隐含主题词的混合,文本中的词汇代表,为文本主题建模的方法是将主题视为随机混合[26],从而按照概率分布进行随大规模文档集或语料库中潜在的主题信息.1 所示。
【参考文献】
相关期刊论文 前7条
1 陶永才;李俊艳;石磊;卫琳;;基于地理位置的个性化新闻混合推荐研究[J];小型微型计算机系统;2016年05期
2 张才琼;;现有搜索引擎使用缺陷与未来发展趋势分析[J];内蒙古科技与经济;2015年14期
3 俞庆生;;基于云平台的逻辑回归模型构建算法的设计与实现[J];科技通报;2013年06期
4 刘春艳;凌建春;寇林元;仇丽霞;武俊青;;GA-BP神经网络与BP神经网络性能比较[J];中国卫生统计;2013年02期
5 许冶冰;刘超;;基于主题的文档与代码间关联关系的提取研究[J];计算机工程与应用;2013年05期
6 李群;袁津生;;基于DBSCAN的最优密度文本聚类算法[J];计算机工程与设计;2012年04期
7 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[J];计算机学报;2010年08期
相关硕士学位论文 前10条
1 刘冬冬;基于感知上下文的交互推荐算法研究[D];山东师范大学;2017年
2 代成雷;基于逻辑回归的在线广告CTR优化和预测[D];浙江大学;2016年
3 董亚东;面向不平衡分类的逻辑回归算法[D];郑州大学;2015年
4 蔡观洋;个性化推荐中协同过滤算法的改进研究[D];吉林大学;2013年
5 冯竣O
本文编号:2788773
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2788773.html