分类学术文献搜索引擎的应用和研究
本文关键词:分类学术文献搜索引擎的应用和研究
更多相关文章: 网络信息处理 分类搜索引擎 网页学术性判断 网页分类算法
【摘要】:随着互联网上信息数量的指数式增加,与学术信息相关的网站也在随着增长。在日常对学术信息进行检索时,我们发现,常用的学术搜索引擎在检索的方式上,基本上都是对全文的关键字进行检索,但是网页中的大部分关键字并不是文章的主题关键字,所以检索结果中就会出现很多与检索关键字相关度不高的结果,并且在学术搜索引擎中,关于学术网站的分类,大多数都是粗略、非专业的分类,并不能给予用户很好的指导作用,这些都会大大的降低用户的使用体验。为了解决上述问题,本文设计了一个基于中图法分类的学术文献搜索引擎。在网页学术性判定方面,提出了基于贝叶斯算法的网页学术性判断算法,该算法通过对网页内容特征、格式特征和结构特征的分析,实现了网页学术性的判定;在分类方面,以中图法的分类大纲作为分类目录,提出了基于改进空间向量模型的学术网页分类算法,该算法通过利用网页主题关键字构建网页向量空间,最后实现了网页的正确分类。结合上述两个关键算法,在系统中的网页主题提取部分,采用Html Parser技术与正则表达式相结合的网页主题提取算法,实现对抓取的网页主题内容的获取。分词部分使用的是基于正向最大匹配算法。最后对抓取的网页链接建立有效的索引,使用了开源的Lucene技术,利用Lucene构建高效的索引库以满足用户查询功能。最后结合以上技术,实现了一个分类学术文献搜索引擎。
【关键词】:网络信息处理 分类搜索引擎 网页学术性判断 网页分类算法
【学位授予单位】:长安大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要4-5
- Abstract5-9
- 第一章 绪论9-14
- 1.1 课题研究背景及意义9-10
- 1.2 国内外的研究现状10-11
- 1.3 目前存在的问题11-12
- 1.4 研究的目标和内容12-14
- 1.4.1 研究目标12-13
- 1.4.2 研究内容13-14
- 第二章 分类学术文献搜索引擎总体设计14-20
- 2.1 系统需求分析14-15
- 2.2 系统设计要求15-16
- 2.3 系统功能模块设计16-19
- 2.3.1 系统工作原理16
- 2.3.2 系统功能模块设计结构图16-19
- 2.4 本章小结19-20
- 第三章 网页学术性判断算法设计与实现20-32
- 3.1 网页学术性判断现状20-22
- 3.1.1 网页学术性20
- 3.1.2 网页学术性判断依据20-21
- 3.1.3 网页学术性判断算法研究现状21-22
- 3.1.4 现有网页学术性判断算法存在的问题22
- 3.2 基于贝叶斯算法的网页学术性判断算法设计与实现22-31
- 3.2.1 贝叶斯定理22-23
- 3.2.2 网页特征提取23-24
- 3.2.3 网页学术性判别算法24-25
- 3.2.4 K值计算25-28
- 3.2.5 基于贝叶斯算法的网页学术性判断算法的实现28-31
- 3.3 本章小结31-32
- 第四章 学术网页分类算法设计与实现32-52
- 4.1 学术网页分类需求32-36
- 4.1.1 学术网页分类现状32-33
- 4.1.2 中图法分类33-36
- 4.2 关键词与中图法分类的关系36-38
- 4.3 常用的分类算法38-39
- 4.4 基于改进向量空间模型的学术网页分类算法设计39-51
- 4.4.1 基于改进向量空间模型的学术网页分类学术网页分类算法40-46
- 4.4.2 基于改进向量空间模型的学术网页分类算法实现46-51
- 4.5 本章小结51-52
- 第五章 分类学术文献搜索引擎的设计与实现52-65
- 5.1 网络爬虫子系统的设计与实现52-54
- 5.1.1 网络爬子系统的技术分析52-53
- 5.1.2 网络爬子系统的系统流程图53-54
- 5.2 网页内容提取模块54-59
- 5.2.1 网页提取模块技术分析54-55
- 5.2.2 网页提取算法设计55-57
- 5.2.3 网页提取模块的实现57-59
- 5.3 中文分词模块设计59-62
- 5.3.1 中文分词技术分析59-60
- 5.3.2 分词算法的设计60-61
- 5.3.3 中文分词算法的实现61-62
- 5.4 索引模块设计62-64
- 5.4.1 索引模块技术分析62-63
- 5.4.2 索引模块系统实现63-64
- 5.5 本章小结64-65
- 第六章 学术文献搜索引擎测试65-74
- 6.1 系统测试平台65
- 6.2 网页抓取模块实验65-66
- 6.3 中文分词模块实验66
- 6.4 网页学术性判别模块试验66-68
- 6.5 网页分类模块试验68-70
- 6.6 索引模块建立试验结果70-71
- 6.7 程序的运行结果及界面信息71-73
- 6.8 本章小结73-74
- 第七章 结论与工作展望74-76
- 7.1 结论74
- 7.2 工作展望74-76
- 参考文献76-78
- 攻读硕士学位期间取得的研究成果78-79
- 致谢79
【相似文献】
中国期刊全文数据库 前10条
1 张东准;网页减肥工具大观[J];电脑技术;2001年04期
2 黄家贞;弹指间网页内码随心换[J];电脑知识与技术;2004年22期
3 黄家贞;弹指间网页内码随心换[J];网络与信息;2004年09期
4 宏伟;巧妙抓取防滚屏网页[J];电脑爱好者;2005年20期
5 启动;;浅谈网页文件引用[J];网络与信息;2006年05期
6 小丛;;教你轻松抓取无法滚屏的网页[J];计算机与网络;2006年08期
7 花的神明;;追寻网页上闪动的音乐[J];电脑迷;2007年12期
8 秋思;;收藏一个网页只需一个文件[J];电脑爱好者(普及版);2009年05期
9 唐永明;;浅议网页设计与制作[J];科技信息;2009年20期
10 蒋伟;徐义平;;个性化网页浅析[J];魅力中国;2009年35期
中国重要会议论文全文数据库 前7条
1 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
2 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 隋春明;郭志丰;;网页防篡改技术在电力信息网中的应用[A];二○○九年全国电力企业信息化大会论文集[C];2009年
5 王海源;石睿智;;高校网页恶意代码的检测、清理与预防[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年
6 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 范德生 邓亚玲;守住网页的秘密[N];电脑报;2005年
2 贞;网页特效与瘦身专家[N];中国电脑教育报;2002年
3 网天;在自己的电脑上发布网页[N];大众科技报;2000年
4 杨兴平 六子;我的网页你别动[N];电脑报;2004年
5 杨耀祥;简繁网页批量互转有妙法[N];中国电脑教育报;2003年
6 河北 李永波;网页底图显个性[N];电脑报;2004年
7 ;让你的网页绽放最美丽的特效[N];中国电脑教育报;2004年
8 刘成富;编辑网页有妙法[N];计算机世界;2004年
9 绵阳南山 iled;让 Frontpage 2000 给我们“一了百了”[N];电脑报;2001年
10 陈宗伟;妙用查找替换功能编辑网页[N];电脑报;2004年
中国博士学位论文全文数据库 前4条
1 李浩;基于眼动特征的小屏幕设备网页内容适配研究[D];华中师范大学;2013年
2 计华;Web Spam特征分析及其检测技术研究[D];山东师范大学;2015年
3 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 杜明明;基于关键词的垃圾网页判别研究[D];哈尔滨工业大学;2015年
2 刘慕凡;基于主题与语义的作弊网页检测方法研究[D];北京化工大学;2015年
3 贺知义;基于关键词的搜索引擎网页去重算法研究[D];华中师范大学;2015年
4 李小娟;基于分类技术的网页去噪方法的研究[D];贵州师范大学;2015年
5 李亚东;网页取证若干关键问题研究[D];合肥工业大学;2014年
6 孙健;基于程序切片的网页过滤技术[D];南京邮电大学;2015年
7 肖蒙;基于多示例学习的网络毒品信息检索[D];北京交通大学;2016年
8 朱华丽;集成网页质量特征的垃圾网页检测特征模型及模型验证[D];西南交通大学;2016年
9 孟庆飞;基于统计的Web网页分类算法研究[D];中国地质大学(北京);2016年
10 李杨;分类学术文献搜索引擎的应用和研究[D];长安大学;2016年
,本文编号:1098297
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1098297.html