当前位置:主页 > 科技论文 > 搜索引擎论文 >

分类学术文献搜索引擎的应用和研究

发布时间:2017-10-26 10:31

  本文关键词:分类学术文献搜索引擎的应用和研究


  更多相关文章: 网络信息处理 分类搜索引擎 网页学术性判断 网页分类算法


【摘要】:随着互联网上信息数量的指数式增加,与学术信息相关的网站也在随着增长。在日常对学术信息进行检索时,我们发现,常用的学术搜索引擎在检索的方式上,基本上都是对全文的关键字进行检索,但是网页中的大部分关键字并不是文章的主题关键字,所以检索结果中就会出现很多与检索关键字相关度不高的结果,并且在学术搜索引擎中,关于学术网站的分类,大多数都是粗略、非专业的分类,并不能给予用户很好的指导作用,这些都会大大的降低用户的使用体验。为了解决上述问题,本文设计了一个基于中图法分类的学术文献搜索引擎。在网页学术性判定方面,提出了基于贝叶斯算法的网页学术性判断算法,该算法通过对网页内容特征、格式特征和结构特征的分析,实现了网页学术性的判定;在分类方面,以中图法的分类大纲作为分类目录,提出了基于改进空间向量模型的学术网页分类算法,该算法通过利用网页主题关键字构建网页向量空间,最后实现了网页的正确分类。结合上述两个关键算法,在系统中的网页主题提取部分,采用Html Parser技术与正则表达式相结合的网页主题提取算法,实现对抓取的网页主题内容的获取。分词部分使用的是基于正向最大匹配算法。最后对抓取的网页链接建立有效的索引,使用了开源的Lucene技术,利用Lucene构建高效的索引库以满足用户查询功能。最后结合以上技术,实现了一个分类学术文献搜索引擎。
【关键词】:网络信息处理 分类搜索引擎 网页学术性判断 网页分类算法
【学位授予单位】:长安大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第一章 绪论9-14
  • 1.1 课题研究背景及意义9-10
  • 1.2 国内外的研究现状10-11
  • 1.3 目前存在的问题11-12
  • 1.4 研究的目标和内容12-14
  • 1.4.1 研究目标12-13
  • 1.4.2 研究内容13-14
  • 第二章 分类学术文献搜索引擎总体设计14-20
  • 2.1 系统需求分析14-15
  • 2.2 系统设计要求15-16
  • 2.3 系统功能模块设计16-19
  • 2.3.1 系统工作原理16
  • 2.3.2 系统功能模块设计结构图16-19
  • 2.4 本章小结19-20
  • 第三章 网页学术性判断算法设计与实现20-32
  • 3.1 网页学术性判断现状20-22
  • 3.1.1 网页学术性20
  • 3.1.2 网页学术性判断依据20-21
  • 3.1.3 网页学术性判断算法研究现状21-22
  • 3.1.4 现有网页学术性判断算法存在的问题22
  • 3.2 基于贝叶斯算法的网页学术性判断算法设计与实现22-31
  • 3.2.1 贝叶斯定理22-23
  • 3.2.2 网页特征提取23-24
  • 3.2.3 网页学术性判别算法24-25
  • 3.2.4 K值计算25-28
  • 3.2.5 基于贝叶斯算法的网页学术性判断算法的实现28-31
  • 3.3 本章小结31-32
  • 第四章 学术网页分类算法设计与实现32-52
  • 4.1 学术网页分类需求32-36
  • 4.1.1 学术网页分类现状32-33
  • 4.1.2 中图法分类33-36
  • 4.2 关键词与中图法分类的关系36-38
  • 4.3 常用的分类算法38-39
  • 4.4 基于改进向量空间模型的学术网页分类算法设计39-51
  • 4.4.1 基于改进向量空间模型的学术网页分类学术网页分类算法40-46
  • 4.4.2 基于改进向量空间模型的学术网页分类算法实现46-51
  • 4.5 本章小结51-52
  • 第五章 分类学术文献搜索引擎的设计与实现52-65
  • 5.1 网络爬虫子系统的设计与实现52-54
  • 5.1.1 网络爬子系统的技术分析52-53
  • 5.1.2 网络爬子系统的系统流程图53-54
  • 5.2 网页内容提取模块54-59
  • 5.2.1 网页提取模块技术分析54-55
  • 5.2.2 网页提取算法设计55-57
  • 5.2.3 网页提取模块的实现57-59
  • 5.3 中文分词模块设计59-62
  • 5.3.1 中文分词技术分析59-60
  • 5.3.2 分词算法的设计60-61
  • 5.3.3 中文分词算法的实现61-62
  • 5.4 索引模块设计62-64
  • 5.4.1 索引模块技术分析62-63
  • 5.4.2 索引模块系统实现63-64
  • 5.5 本章小结64-65
  • 第六章 学术文献搜索引擎测试65-74
  • 6.1 系统测试平台65
  • 6.2 网页抓取模块实验65-66
  • 6.3 中文分词模块实验66
  • 6.4 网页学术性判别模块试验66-68
  • 6.5 网页分类模块试验68-70
  • 6.6 索引模块建立试验结果70-71
  • 6.7 程序的运行结果及界面信息71-73
  • 6.8 本章小结73-74
  • 第七章 结论与工作展望74-76
  • 7.1 结论74
  • 7.2 工作展望74-76
  • 参考文献76-78
  • 攻读硕士学位期间取得的研究成果78-79
  • 致谢79

【相似文献】

中国期刊全文数据库 前10条

1 张东准;网页减肥工具大观[J];电脑技术;2001年04期

2 黄家贞;弹指间网页内码随心换[J];电脑知识与技术;2004年22期

3 黄家贞;弹指间网页内码随心换[J];网络与信息;2004年09期

4 宏伟;巧妙抓取防滚屏网页[J];电脑爱好者;2005年20期

5 启动;;浅谈网页文件引用[J];网络与信息;2006年05期

6 小丛;;教你轻松抓取无法滚屏的网页[J];计算机与网络;2006年08期

7 花的神明;;追寻网页上闪动的音乐[J];电脑迷;2007年12期

8 秋思;;收藏一个网页只需一个文件[J];电脑爱好者(普及版);2009年05期

9 唐永明;;浅议网页设计与制作[J];科技信息;2009年20期

10 蒋伟;徐义平;;个性化网页浅析[J];魅力中国;2009年35期

中国重要会议论文全文数据库 前7条

1 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

2 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

3 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 隋春明;郭志丰;;网页防篡改技术在电力信息网中的应用[A];二○○九年全国电力企业信息化大会论文集[C];2009年

5 王海源;石睿智;;高校网页恶意代码的检测、清理与预防[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年

6 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

7 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

中国重要报纸全文数据库 前10条

1 范德生 邓亚玲;守住网页的秘密[N];电脑报;2005年

2 贞;网页特效与瘦身专家[N];中国电脑教育报;2002年

3 网天;在自己的电脑上发布网页[N];大众科技报;2000年

4 杨兴平 六子;我的网页你别动[N];电脑报;2004年

5 杨耀祥;简繁网页批量互转有妙法[N];中国电脑教育报;2003年

6 河北 李永波;网页底图显个性[N];电脑报;2004年

7 ;让你的网页绽放最美丽的特效[N];中国电脑教育报;2004年

8 刘成富;编辑网页有妙法[N];计算机世界;2004年

9 绵阳南山 iled;让 Frontpage 2000 给我们“一了百了”[N];电脑报;2001年

10 陈宗伟;妙用查找替换功能编辑网页[N];电脑报;2004年

中国博士学位论文全文数据库 前4条

1 李浩;基于眼动特征的小屏幕设备网页内容适配研究[D];华中师范大学;2013年

2 计华;Web Spam特征分析及其检测技术研究[D];山东师范大学;2015年

3 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年

4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

中国硕士学位论文全文数据库 前10条

1 杜明明;基于关键词的垃圾网页判别研究[D];哈尔滨工业大学;2015年

2 刘慕凡;基于主题与语义的作弊网页检测方法研究[D];北京化工大学;2015年

3 贺知义;基于关键词的搜索引擎网页去重算法研究[D];华中师范大学;2015年

4 李小娟;基于分类技术的网页去噪方法的研究[D];贵州师范大学;2015年

5 李亚东;网页取证若干关键问题研究[D];合肥工业大学;2014年

6 孙健;基于程序切片的网页过滤技术[D];南京邮电大学;2015年

7 肖蒙;基于多示例学习的网络毒品信息检索[D];北京交通大学;2016年

8 朱华丽;集成网页质量特征的垃圾网页检测特征模型及模型验证[D];西南交通大学;2016年

9 孟庆飞;基于统计的Web网页分类算法研究[D];中国地质大学(北京);2016年

10 李杨;分类学术文献搜索引擎的应用和研究[D];长安大学;2016年



本文编号:1098297

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1098297.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dd938***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com