个人文献服务平台研究与实现
发布时间:2018-04-09 06:36
本文选题:引文分析 切入点:网络爬虫 出处:《中南大学》2013年硕士论文
【摘要】:学术界常通过文献被引用情况衡量论文与作者的影响力,传统的搜索引擎提供的检索服务不能跟踪用户信息,学者需要定期搜索来了解个人发表文献的被引用情况,引文服务的出现即是为了满足这一需求。但目前的引文服务系统多针对某一个或某几个文献库进行检索,用户往往需要同时使用多个引文服务系统才能获得较全面的信息,且所采集的信息不具有优先级区分,用户需要进行繁琐的甄别工作,才能获得具有针对性的信息;引文服务系统的优化升级问题亟待解决。 本文针对引文服务系统存在的问题,设计出了个人文献服务的综合解决框架,按照框架实现了个人文献服务平台,由文献采集、文献排序、数据持久、文献跟踪和更新等模块组成;并对个人文献服务平台进行了测试。本文的研究内容为: 首先,设计开发了主题网络爬虫,对不同文献数据库进行了整合抓取,扩展了不同文献资源库的采集范围。同时,为了提高成果确认的工作效率,提出了基于潜在语义分析的文献排序算法,实现按相关性进行文献排序,有效地减少了文献误采。最后,对优化系统提供了数据层支持,包括相关文献数据的更新与维护等,进而实现了整个个人文献服务平台。测试结果说明,本文提出的个人文献服务平台能够实现预期功能,可以有效提供文献引用信息采集、更新和维护等服务。图22副,表4个,参考文献60篇。
[Abstract]:Academic circles often measure the influence of papers and authors through the citation of documents. Traditional search engines can not track user information. Scholars need to search regularly to understand the citations of individual published documents.Citation services are available to meet this need.However, most of the current citation service systems search for one or several document libraries. Users often need to use multiple citation service systems simultaneously to obtain more comprehensive information, and the information collected does not have priority.Users need to carry out tedious screening work to obtain targeted information, and the optimization and upgrading of citation service system need to be solved.Aiming at the problems of citation service system, this paper designs a comprehensive solution framework of personal document service. According to the framework, a personal document service platform is implemented, which is collected by documents, sorted by documents, and sustained by data.The module of document tracking and updating is made up, and the personal document service platform is tested.The contents of this thesis are as follows:Firstly, the theme web crawler is designed and developed, and the collection range of different document resource database is expanded.At the same time, in order to improve the efficiency of literature validation, a document sorting algorithm based on latent semantic analysis is proposed, which can sort documents according to correlation, and effectively reduce document miscollection.Finally, it provides the data layer support for the optimization system, including the update and maintenance of the related literature data, and then realizes the whole personal document service platform.The test results show that the personal document service platform proposed in this paper can achieve the expected function, and can effectively provide information collection, update and maintenance services.There are 22 pairs of figs, 4 tables and 60 references.
【学位授予单位】:中南大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期
2 胡江奕;基于SQL Server的数据库应用系统性能的优化鍌[J];计算机工程与应用;2001年02期
3 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
4 尹江;尹治本;黄洪;;网络爬虫效率瓶颈的分析与解决方案[J];计算机应用;2008年05期
5 盖杰,王怡,武港山;潜在语义分析理论及其应用[J];计算机应用研究;2004年03期
6 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
7 康瑞华,尹帆,薛胜军;基于B/S模式和分布式数据库技术的物流信息系统[J];武汉理工大学学报(交通科学与工程版);2003年06期
8 梁永霞;刘则渊;杨中楷;王贤文;;引文分析领域前沿与演化知识图谱[J];科学学研究;2009年04期
9 冯磊;;个人文献管理软件在科研工作中的应用[J];农业图书情报学刊;2010年06期
10 林鸿飞,姚天顺;基于潜在语义索引的文本浏览机制[J];中文信息学报;2000年05期
,本文编号:1725303
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1725303.html