学术论文垂直搜索引擎的架构与实现
发布时间:2017-05-10 00:13
本文关键词:学术论文垂直搜索引擎的架构与实现,,由笔耕文化传播整理发布。
【摘要】:论文的多年累积加之以越来越多的人投身于学术研究,导致论文数量激增,这为学术研究带来了新的挑战。搜索引擎成为人们获得及时有效的论文信息的重要途径。但目前的通用搜索引擎存在着信息重复率高、检索功能单一等缺点,使得用户为获取有效信息在网上驻留时间不断增长。所以作为通用搜索引擎的补充,垂直搜索引擎更能做到符合用户个性化的需求。本文的目的便是构建一个面向学术研究领域的学术论文垂直搜索引擎,满足用户在检索论文方面的需求。 在对垂直搜索引擎进行了理论性研究的基础之上,设计并实现了学术论文垂直搜索引擎。首先给出了系统的需求分析,然后设计了系统的整体架构。系统共分为信息采集、网页预处理、索引、查询服务和聚类推荐五个功能模块,本文详细说明了各个模块的设计方案。在详细设计的基础上,完成了这整个系统的代码实现和测试。 本文特点包括:使用聚焦网络机器人获取源论文信息;针对网页预处理模块中结构化信息抽取问题,设计了基于模板匹配的结构化信息抽取技术;在垂直搜索引擎的基础上增加了聚类推荐模块,使得用户既可以检索论文信息,也可以浏览选择自己喜欢的主题以及此主题中的论文;增加了最新发表论文模块,用户可以浏览选择最新发表的论文。
【关键词】:学术论文 垂直搜索 信息抽取 聚类推荐
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.52
【目录】:
- 摘要10-11
- ABSTRACT11-12
- 第1章 绪论12-19
- 1.1 课题研究背景及意义12-13
- 1.1.1 课题背景12
- 1.1.2 研究意义12-13
- 1.2 搜索引擎与垂直搜索引擎的研究现状13-17
- 1.2.1 搜索引擎基本架构13-14
- 1.2.2 搜索引擎的分类14-15
- 1.2.3 垂直搜索引擎的产生及其特点15-16
- 1.2.4 典型的垂直搜索引擎16-17
- 1.3 本文的研究内容17
- 1.4 论文的组织17-19
- 第2章 垂直搜索引擎技术19-26
- 2.1 信息采集19
- 2.2 网页结构化信息抽取19-21
- 2.3 Lucene框架21-23
- 2.3.1 全文检索工具Lucene框架21-23
- 2.3.2 文档建立索引23
- 2.3.3 检索机制23
- 2.4 聚类算法23-25
- 2.5 本章小结25-26
- 第3章 需求分析26-32
- 3.1 系统概述26
- 3.2 系统的功能性需求26-30
- 3.3 系统的非功能性需求30
- 3.4 系统的开发环境30-31
- 3.5 本章小结31-32
- 第4章 学术论文垂直搜索引擎概要设计32-55
- 4.1 系统设计的目标和原则32
- 4.2 系统的功能架构设计32-33
- 4.3 信息采集模块的分析与设计33-41
- 4.4 网页预处理模块的分析与设计41-42
- 4.5 索引模块的分析与设计42-47
- 4.6 查询服务模块的分析与设计47-51
- 4.6.1 中文分词器的选择47-48
- 4.6.2 信息检索模块分析与设计48-51
- 4.7 聚类推荐模块的分析与设计51-53
- 4.8 用户界面及接口分析与设计53
- 4.9 本章小结53-55
- 第5章 学术论文垂直搜索引擎的实现55-72
- 5.1 网页爬取模块的实现55-56
- 5.2 结构化信息抽取的实现56-58
- 5.3 信息索引和检索模块的实现58-61
- 5.3.1 信息索引模块的实现59-60
- 5.3.2 信息检索模块的实现60-61
- 5.4 聚类模块的实现61-67
- 5.5 快速排序的实现67-68
- 5.6 用户界面的实现68-71
- 5.7 本章小结71-72
- 第6章 总结与展望72-74
- 6.1 论文工作总结72
- 6.2 本文主要工作和贡献72-73
- 6.3 论文的不足73
- 6.4 展望进一步的工作73-74
- 参考文献74-77
- 致谢77-78
- 学位论文评阅及答辩情况表78
【参考文献】
中国期刊全文数据库 前10条
1 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期
2 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
3 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
4 冯永;李华;钟将;叶春晓;;基于自适应中文分词和近似SVM的文本分类算法[J];计算机科学;2010年01期
5 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[J];计算机工程;2007年19期
6 刘丹;方卫国;周泓;;基于贝叶斯网络的二元语法中文分词模型[J];计算机工程;2010年01期
7 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
8 何国斌;赵晶璐;;基于最大匹配的中文分词概率算法研究[J];计算机工程;2010年05期
9 张晓卫;朱巧明;;一种基于Lucene的Web全文信息检索系统的设计与实现[J];计算机与现代化;2006年12期
10 李寿山;黄居仁;;基于词边界分类的中文分词方法[J];中文信息学报;2010年01期
本文关键词:学术论文垂直搜索引擎的架构与实现,由笔耕文化传播整理发布。
本文编号:353607
本文链接:https://www.wllwen.com/wenshubaike/lwzy/353607.html