基于学术社区的学术搜索引擎设计
本文选题:学术社区 + 学术搜索引擎 ; 参考:《计算机科学》2011年08期
【摘要】:学术社区和学术搜索引擎在科研活动中日趋重要。给出了一个基于学术社区的学术搜索引擎的设计方案,指出了它应具备的功能,提出了应着重解决的关键问题,并对部分问题提出了实现思路。给出了系统的架构设计,并讨论了文献资料的整合算法,将分散在不同位置、提供不同内容的学术信息组合为一个整体,有效地解决了文献提取问题。针对普通中文分词组件在对姓名进行分词时准确率较低的问题,设计了一个专门针对姓名进行分词的高效的算法。在开源框架Nutch和HBase的基础上,实现了一个学术搜索引擎,并在实验中验证了设计的有效性。
[Abstract]:Academic community and academic search engine are becoming more and more important in scientific research activities. This paper presents a design scheme of academic search engine based on academic community, points out its function, puts forward some key problems that should be solved emphatically, and puts forward some realization ideas for some problems. The architecture design of the system is given, and the algorithm of document data integration is discussed. The academic information, which is scattered in different places and provides different contents, is combined into a whole, which effectively solves the problem of document extraction. In order to solve the problem that the accuracy of the common Chinese word partitioning component is low when the name is partitioned, an efficient algorithm is designed to deal with the name segmentation. Based on the open source frameworks Nutch and HBase, an academic search engine is implemented, and the effectiveness of the design is verified in the experiment.
【作者单位】: 中山大学信息科学与技术学院;华南师范大学计算机学院;
【基金】:国家自然科学基金时态角色关系模型及协同感知技术研究(60970044) 广东自然科技计划项目面向学术信息服务领域的协同软件平台(2010B010600031)资助
【分类号】:TP391.3
【二级参考文献】
相关期刊论文 前3条
1 王丽娟;关守义;王晓龙;王熙照;;基于属性权重的Fuzzy C Mean算法[J];计算机学报;2006年10期
2 朱恒民;王宁生;;一种改进的相似重复记录检测方法[J];控制与决策;2006年07期
3 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
【相似文献】
相关期刊论文 前10条
1 张岚;金涛;;学术搜索引擎Google Scholar与Scirus使用技巧[J];江西图书馆学刊;2008年03期
2 于宁;庞海燕;;科学搜索引擎与学术搜索工具——Scirus与Google Scholar比较研究[J];现代情报;2009年06期
3 苏建华;汪洋;;学术搜索引擎的特点及发展趋势——从OJOSE与CNKI知识搜索的比较谈起[J];图书馆学刊;2008年02期
4 张蔷;;学术搜索引擎的特点及发展趋势——基于Google Scholar、百度国学、CNKI、Scirus的比较研究[J];软件导刊;2010年09期
5 陈红勤;;学术隐蔽网络和学术搜索引擎[J];现代情报;2008年07期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关博士学位论文 前1条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
,本文编号:1873425
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1873425.html