当前位置:主页 > 科技论文 > 搜索引擎论文 >

网络原创文章优先的搜索引擎排序算法研究

发布时间:2016-10-17 10:09

  本文关键词:网络原创文章优先的搜索引擎排序算法研究,由笔耕文化传播整理发布。


《重庆大学》 2007年

网络原创文章优先的搜索引擎排序算法研究

郝金隆  

【摘要】: 随着网络规模的扩大,搜索引擎正在现代网络竞争中占据越来越重要的地位,而搜索引擎的核心——排序算法正在对网络竞争能否公平方面产生着巨大的影响。与此同时,网络文章轻易的被转载这一现实情况正使得原创站点在网络竞争中处于很不利的地位。通过改进搜索引擎排序算法,提高网络原创文章的搜索引擎排名无疑能使得现代网络竞争更为公平,具有很重要的现实意义和社会效益。 本文提出了一种适用于专业搜索引擎的新型排序算法,此算法在排序时优先考虑了网络原创文章,可以使原创文章的搜索排名得到提高,有助于新兴原创网站的发展,从而能提高现代网络社会竞争的公平性。 论文的主要工作有: ①分析了现有的搜索引擎排序算法,对其进行了优缺点的比较,指出了它们对于原创文章的不利之处,提出了要通过改进搜索引擎排序算法来提高网络原创文章的搜索引擎排名,以提高搜索引擎的公平合理性。 ②构建了网络原创文章判定算法,通过网络上可见的信息,对网络文章的原创可能性进行量化。 ③说明了网络原创文章判定算法在搜索引擎中的应用方法,指出了如何利用网络原创文章的判定结果对原有搜索引擎排名结果进行修正。 ④综合网页关键词相关度计算方法、PageRank算法以及原创文章的判定算法,构造了搜索引擎的综合排序模型,使之可以应用到实际的搜索引擎之中。 ⑤构建原型系统,应用原创优先的搜索引擎排序模型,提高了网络原创文章的搜索引擎排名,实验统计结果良好。

【关键词】:
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3
【目录】:

  • 摘要3-4
  • ABSTRACT4-8
  • 1 绪论8-18
  • 1.1 搜索引擎的现状8-10
  • 1.1.1 搜索引擎的发展历史8-9
  • 1.1.2 搜索引擎的分类9-10
  • 1.2 典型搜索引擎介绍10-12
  • 1.2.1 Google10-11
  • 1.2.2 Baidu11
  • 1.2.3 Yahoo11
  • 1.2.4 Sogou11-12
  • 1.3 SEO 技术12-16
  • 1.3.1 SEO 技术的主要方法和策略12-13
  • 1.3.2 SEO 技术的发展趋势13-14
  • 1.3.3 网页作弊的几种方式14-16
  • 1.4 本文的主要工作16-17
  • 1.5 本章小结17-18
  • 2 经典排序算法及其比较18-28
  • 2.1 PageRank 算法18-21
  • 2.2 HITS 算法21-23
  • 2.3 Hilltop 算法23
  • 2.4 收费排名23-25
  • 2.5 经典算法评价25-27
  • 2.5.1 PageRank 算法的缺点与改进25-26
  • 2.5.2 HITS 算法的缺点与改进26
  • 2.5.3 经典排序算法对网络原创文章的不公平之处26-27
  • 2.6 本章小结27-28
  • 3 网络原创文章的判定算法28-32
  • 3.1 网络文章的分类28
  • 3.2 网站的三个“信用度”28-29
  • 3.3 文章原创可能性的确定29-30
  • 3.4 文章原创可能性对网站信用度的修正30-31
  • 3.5 本章小结31-32
  • 4 原创优先的搜索引擎排序算法32-42
  • 4.1 内容重复网页的确定32-36
  • 4.1.1 网页的重复特点32
  • 4.1.2 现有网页去重的方法简介32-33
  • 4.1.3 基于特征串重复网页判定方法33-36
  • 4.2 原创文章判定结果对网页权威度的修正36-38
  • 4.3 综合排序模型38-41
  • 4.3.1 基于网页内容的相关度算法38-39
  • 4.3.2 最终检索排名方法39-41
  • 4.4 本章小结41-42
  • 5 原型系统研究42-57
  • 5.1 技术选型42-43
  • 5.1.1 数据库选择42
  • 5.1.2 搜索引擎平台选择42
  • 5.1.3 开发平台选择42-43
  • 5.2 Nutch43-48
  • 5.2.1 Lucene43-46
  • 5.2.2 Nutch 爬虫46-48
  • 5.3 系统设计与实现48-55
  • 5.3.1 系统用例48-49
  • 5.3.2 系统构建流程49-50
  • 5.3.3 系统结构分析50
  • 5.3.4 主要数据表定义50-52
  • 5.3.5 程序设计52-54
  • 5.3.6 程序运行效果54-55
  • 5.4 算法验证55
  • 5.4.1 算法验证方法55
  • 5.4.2 结果分析55
  • 5.5 本章小结55-57
  • 6 结论与展望57-59
  • 6.1 总结57
  • 6.2 展望57-59
  • 致谢59-60
  • 参考文献60-62
  • 附录62
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【相似文献】

    中国期刊全文数据库 前10条

    1 王巧玲;彭静;王春红;;中文分词技术的研究及在Nutch中的实现[J];科技信息;2011年19期

    2 ;李彦宏论搜索引擎三个定律[J];新电子;2001年02期

    3 相春雷;;2009年中国搜索引擎市场趋势分析[J];软件世界;2010年02期

    4 ;揭秘搜索引擎收录网站的秘密[J];计算机与网络;2010年Z1期

    5 杨超;李杰;李浩宇;;基于PageRank的页面排序算法研究[J];电脑编程技巧与维护;2011年16期

    6 刘荷花;;搜索引擎技术的研究——基于后缀数组的搜索技术[J];中国教育信息化;2011年07期

    7 詹圣君;邵雄凯;刘建舟;;一种考虑用户行为的改进N—PageRank算法[J];计算机技术与发展;2011年08期

    8 马玥;;王小川:绝境之外[J];中国经济和信息化;2011年12期

    9 魏蕾如;;基于搜索引擎的网络中文信息检索工具评价[J];数字技术与应用;2011年06期

    10 ;创新工业搜索引擎[J];中国制造业信息化;2011年12期

    中国重要会议论文全文数据库 前10条

    1 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    2 郭鸿志;陈清才;康永燕;王晓龙;;一种基于网站特征识别的搜索引擎排序算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

    3 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

    4 梁婷婷;张志强;谢晓芹;;搜索引擎评估算法综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

    5 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

    6 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

    7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

    8 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

    9 杨磊;束罡;牛振东;;基于引力模型的链接分析(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    10 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

    中国重要报纸全文数据库 前10条

    1 主持人 本报记者 姜晨怡 本报实习生 冯志云;[N];科技日报;2011年

    2 王立群;[N];中国计算机报;2005年

    3 主持人 陈建栋;[N];光明日报;2005年

    4 本报记者 陈建栋;[N];光明日报;2005年

    5 曾正乐;[N];经济日报;2005年

    6 本报记者 秦海波;[N];经济日报;2005年

    7 FN记者 柳立;[N];金融时报;2005年

    8 闫辉;[N];计算机世界;2005年

    9 本报记者 李剑;[N];通信信息报;2005年

    10 华夏;[N];江苏科技报;2008年

    中国博士学位论文全文数据库 前10条

    1 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

    2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

    3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

    4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

    5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

    6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

    7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

    8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

    9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

    10 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年

    中国硕士学位论文全文数据库 前10条

    1 李连江;个性化搜索引擎模型的研究与改进[D];哈尔滨工程大学;2008年

    2 程建;一种网页搜索引擎原型系统的设计与实现[D];北京邮电大学;2009年

    3 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

    4 刘青伟;搜索引擎中的Pagerank排序算法研究分析[D];电子科技大学;2010年

    5 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年

    6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

    7 崔顷顷;基于个性化搜索的系统研究与设计[D];北京交通大学;2011年

    8 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年

    9 金祖旭;基于用户反馈的搜索引擎排名算法研究[D];复旦大学;2010年

    10 刘辉;搜索引擎联邦算法设计与系统实现[D];清华大学;2004年


      本文关键词:网络原创文章优先的搜索引擎排序算法研究,,由笔耕文化传播整理发布。



    本文编号:142603

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/142603.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户79105***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com