垂直搜索引擎在校园网中的研究与应用
发布时间:2021-04-08 12:16
随着互联网的迅猛发展,从海量数据信息中搜索有效信息已经成为一个重要的问题。目前虽然己经有google、百度这些优秀的通用搜索引擎,但这些搜索引擎对于局域网内信息无法完全、准确的获取,同时信息的实时性也无法保证,所以它们并不能很好的准确检索具有行业背景的信息。目前高校校园网的建设已经比较成熟,校园网内部的公有信息大幅增长,例如本科及研究生的招生及宣传信息。如果使用通用搜索引擎,用户无法获取较为有效的校园网相关信息。因此,为了提高信息检索的效率,本文设计并实现了适用于高校校园网的垂直搜索引擎系统。本文研究并实现了一个应用于高校校园网的垂直搜索引擎系统。首先阐述了通用搜索引擎的工作原理和主要组成部分,进而分析了垂直搜索引擎的实现原理。论文设计并完成了网页抓取模块、预处理模块、索引和查询模块等搜索引擎系统的4个核心模块。其中在网页抓取模块中实现了网页下载以及将已访问过的URL过滤的功能;在预处理模块中比较了两种方案,选择较优的一种进行了网页去噪,同时完成了中文分词、网页去重工作。针对Lucene中文分词效果比较弱这一特点,对中文分词技术进行了研究,针对最大匹配法的缺陷对中文分词进行了改进,提高...
【文章来源】:西安科技大学陕西省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
本系统垂直搜索引擎的总体设计框架
Lucene组织结构图
动作称为爬取,下载网页是一个能够自动采集网页据网页上大量存在的超链的内容,找到在该网页一个网页,这样一直循环页的自动下载。互联网中,网页之间的链么它将会遇到无数多的能“壮士一去兮不复还略是是基于离散数学中
【参考文献】:
期刊论文
[1]基于Bloom Filter的大规模网页去重策略研究[J]. 丁振国,吴宝贵,辛友强. 现代图书情报技术. 2008(03)
[2]WNBTE网页正文抽取方法研究[J]. 李纲,戴强斌. 情报科学. 2008(03)
[3]基于WPF的UI自动化测试[J]. 张永革. 软件世界. 2007(18)
[4]搜索引擎综合分析[J]. 方志坚,张瑞林,童小素. 计算机工程与设计. 2007(16)
[5]新一代搜索引擎的智能化特征及技术进展[J]. 乔东枝. 高校图书馆工作. 2007(04)
[6]具有时间反馈的PageRank改进算法[J]. 戚华春,黄德才,郑月锋. 浙江工业大学学报. 2005(03)
[7]基于信息挖掘的智能决策支持系统的结构设计[J]. 苏占东,杨炳儒,游福成. 计算机应用研究. 2005(03)
硕士论文
[1]垂直搜索引擎关键技术研究及应用[D]. 王玉辉.华北电力大学(河北) 2009
[2]中文自动分词法在全文检索中的研究及应用[D]. 刘婷.南京航空航天大学 2007
[3]面向特定领域的专业搜索引擎的架构与实现方法[D]. 胡晓博.哈尔滨工程大学 2007
[4]分布式Web挖掘与搜索的研究与实现[D]. 姚勇.西安电子科技大学 2006
[5]搜索引擎及其相关性排序研究[D]. 王亮.武汉大学 2004
本文编号:3125534
【文章来源】:西安科技大学陕西省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
本系统垂直搜索引擎的总体设计框架
Lucene组织结构图
动作称为爬取,下载网页是一个能够自动采集网页据网页上大量存在的超链的内容,找到在该网页一个网页,这样一直循环页的自动下载。互联网中,网页之间的链么它将会遇到无数多的能“壮士一去兮不复还略是是基于离散数学中
【参考文献】:
期刊论文
[1]基于Bloom Filter的大规模网页去重策略研究[J]. 丁振国,吴宝贵,辛友强. 现代图书情报技术. 2008(03)
[2]WNBTE网页正文抽取方法研究[J]. 李纲,戴强斌. 情报科学. 2008(03)
[3]基于WPF的UI自动化测试[J]. 张永革. 软件世界. 2007(18)
[4]搜索引擎综合分析[J]. 方志坚,张瑞林,童小素. 计算机工程与设计. 2007(16)
[5]新一代搜索引擎的智能化特征及技术进展[J]. 乔东枝. 高校图书馆工作. 2007(04)
[6]具有时间反馈的PageRank改进算法[J]. 戚华春,黄德才,郑月锋. 浙江工业大学学报. 2005(03)
[7]基于信息挖掘的智能决策支持系统的结构设计[J]. 苏占东,杨炳儒,游福成. 计算机应用研究. 2005(03)
硕士论文
[1]垂直搜索引擎关键技术研究及应用[D]. 王玉辉.华北电力大学(河北) 2009
[2]中文自动分词法在全文检索中的研究及应用[D]. 刘婷.南京航空航天大学 2007
[3]面向特定领域的专业搜索引擎的架构与实现方法[D]. 胡晓博.哈尔滨工程大学 2007
[4]分布式Web挖掘与搜索的研究与实现[D]. 姚勇.西安电子科技大学 2006
[5]搜索引擎及其相关性排序研究[D]. 王亮.武汉大学 2004
本文编号:3125534
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3125534.html