一种论文时间与引用兼顾的科研论文排序算法
本文关键词:一种论文时间与引用兼顾的科研论文排序算法
更多相关文章: 论文时间排序算法 科研论文 引用网 引用索引 排序算法 论文年限
【摘要】:互联网包含数量巨大的文件信息,从而搜索引擎所返回的搜索结果可能包含上千或者上百万条的记录。这样就必然需要一种排序算对搜索结果进行排序,使得人们能够在第一时间看到最符合要求的结果。一般的搜索引擎只会采用一种排序算法来对所有情况的搜索结果进行排序,导致所有的返回结果将以同样的规则排列。这样的排序方式可能不利于一些特殊类型的文章,比如一些科学研究论文。虽然人们创造了一些专门的搜索引擎用来搜索、索引和排序那些特殊类型的搜索对象,但这些搜索引擎仍然使用与通用搜索引擎相类似的排序算法。 在本论文中,我们将专门为科学研究论文构造一种新的、容易实现的排序算法。Paper time ranking algorithm (PTRA)是一种新的排序算法,它根据三个因素来对结果进行排序:发表年份、引用频次、所属刊物。这三个因素会对PTRA带来不同的影响。我们考虑到这三个因素出自以下三个原因:首先,国际会议或期刊在业界的影响力在一定程度上表明了论文的质量;其次,论文发表年份能决定该文章的主题是否会成为热门主题;第三,论文的引用频次能够说明该文章的含金量、受关注程度以及其对相应研究方向的影响力。鉴于科学研究者们倾向于对最新的科学文献投入更多的关注,我们将在算法中提高发表年分的影响比例。 为了构建和证实PTRA算法,我们做了一个网络爬虫,它会遍历世界上不同的科研论文数据库以收集PTRA所需的信息。遗憾的是,起初有些信息缺失或难以收集,比如一些学术期刊的影响力因子。为了收集这些信息,我们构造了另一个网络爬虫,专门用来提取和计算期刊的影响力因子。时至今日,我们的网络爬虫已经可以收集到PTRA所需的全部数据。为了证明我们的排序算法结果的准确性以及各个参数对排序算法的影响,我们将PTRA与谷歌学术搜索的排序算法进行了对比。我们参考谷歌学术搜索有三个原因:首先,谷歌学术上已有超过了五千万篇的论文。第二,谷歌的网络爬虫比较先进,可以以较快的方式在世界范围内收集最新发表的作品。第三,谷歌在搜索引擎和排序算法上拥有非常丰富的经验。 经过比较我们可以得知,在谷歌排序算法中,论文的引用频次对排序结果的影响程度度最大。PTRA则不一样,它把论文的发表年份放在最重要的位置。另外我们也了解到,谷歌网络搜索引擎的搜索排序算法并不考虑论文发表年分,而PTRA则是会考虑到论文的引用频次,只是其相对于发表年份的影响力稍小。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【相似文献】
中国期刊全文数据库 前10条
1 杨宪泽;长记录位置不变的排序算法[J];软件学报;1993年02期
2 黄干平;并行“冒泡”排序算法的改进[J];武汉大学学报(自然科学版);1994年01期
3 黄橡丽,,王兵;2-路插入排序的一种新算法[J];天津纺织工学院学报;1996年01期
4 刘文浩 ,张威;多线程技术实现排序算法[J];电脑编程技巧与维护;2005年08期
5 李强,李会容,张雪峰;关于冒泡排序的改进算法的分析与比较[J];攀枝花学院学报;2005年04期
6 徐金雷;杨晓江;;专业搜索引擎的排序算法研究[J];现代图书情报技术;2006年07期
7 陈先红;;基于VB的排序算法比较[J];科技信息;2009年35期
8 王永刚;;排序算法综述[J];电脑知识与技术(学术交流);2006年29期
9 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
10 朱容波;;基于用户偏好的个性化网页排序算法(英文)[J];Journal of Southeast University(English Edition);2008年03期
中国重要会议论文全文数据库 前10条
1 周晓方;金志权;;寻找最佳分布式排序算法[A];第九届全国数据库学术会议论文集(上)[C];1990年
2 张志强;梁婷婷;谢晓芹;;一种基于用户标记的搜索结果排序算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 刘春阳;叶君峰;母海龙;陆秋霞;陈沧;高莺;;一种商品标题主题词的重要性排序算法[A];第五届全国信息检索学术会议论文集[C];2009年
4 刘凯鹏;方滨兴;;一种基于社会性标注的网页排序算法[A];第五届全国信息检索学术会议论文集[C];2009年
5 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 黄毅;李剑;祁金才;张锦雄;;线性阵列上的奇偶归拆排序并行算法的MPI实现[A];广西计算机学会2004年学术年会论文集[C];2004年
7 吴志彬;陈义华;;ANP中超矩阵排序算法研究[A];2006中国控制与决策学术年会论文集[C];2006年
8 陈丛丛;石冰;陈健;;面向主题的查询相关网页排序算法[A];第三届中国智能计算大会论文集[C];2009年
9 王少帅;汤庆新;姚路;;并行独立集排序算法的改进与实现[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
10 史亚维;张茹;杨义先;钮心忻;;一种改进的用于GIF图像的脆弱水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 记者 陈灏 吴书光;论文代写明码标价[N];新华每日电讯;2011年
2 武汉大学信息管理学院出版系教授 沈阳;斩断论文市场的畸形需求[N];人民日报;2011年
3 本报首席记者 任荃;“论文抄袭率31%”震荡波[N];文汇报;2010年
4 本报驻鄂记者 钱忠军;谁在“论文产业链”上分利[N];文汇报;2011年
5 陶短房;异化的成果和被异化的论文[N];经济观察报;2011年
6 本报记者 赵文学 实习生 李丹萍;论文造假:斩不断的黑色产业链[N];甘肃经济日报;2011年
7 见习记者 孙永剑;论文产业 被“文盲”养活的产业[N];中华工商时报;2011年
8 新华社记者 孙志平 王晖余;2万人花钱“发表”论文的背后[N];新华每日电讯;2011年
9 瞿方业;终结论文发表的商业化模式[N];西安日报;2008年
10 江苏省淮安市教育局教研室 严宝明;教师职评应以“教主文辅”为原则[N];中国教育报;2009年
中国博士学位论文全文数据库 前10条
1 郝凡昌;有向基因组复合操作重组排序算法研究[D];山东大学;2011年
2 农庆琴;在线排序与路由安排[D];郑州大学;2006年
3 尹晓;基因组重组排序问题的算法研究[D];山东大学;2010年
4 王灿;基于半监督流形学习的Web信息检索技术研究[D];浙江大学;2009年
5 程凡;基于排序学习的信息检索模型研究[D];中国科学技术大学;2012年
6 刘旭;基于图剖分和图排序的负载平衡算法研究[D];中国工程物理研究院;2008年
7 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
8 杨远;MIMO系统中的检测算法研究[D];西安电子科技大学;2009年
9 周金娉;开放存取期刊学术影响力研究[D];吉林大学;2013年
10 冯松鹤;面向感知的图像检索及自动标注算法研究[D];北京交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 Mushtaq AbdulMutalib Hasson;一种论文时间与引用兼顾的科研论文排序算法[D];华中科技大学;2012年
2 申大明;带到达时间的单位工件在线排序[D];浙江大学;2007年
3 彭聪;一种在移动网络环境下的网页排序算法的研究[D];湖南大学;2010年
4 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年
5 田志章;流水型CONWIP生产控制系统研究[D];武汉理工大学;2007年
6 程建;一种网页搜索引擎原型系统的设计与实现[D];北京邮电大学;2009年
7 李连江;个性化搜索引擎模型的研究与改进[D];哈尔滨工程大学;2008年
8 陈辉;金融领域的博客信息采集与排序算法研究[D];哈尔滨工业大学;2009年
9 郑悦浩;一种基于随机梯度下降的ListNet排序算法[D];中山大学;2011年
10 张建英;稀疏正则化最小二乘排序算法[D];湖北大学;2011年
本文编号:1233142
本文链接:https://www.wllwen.com/wenshubaike/gxjt/1233142.html