主题WEB搜索引擎优化与实现研究
本文关键词:主题WEB搜索引擎优化与实现研究,由笔耕文化传播整理发布。
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得金目巴』些太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
学位论文作者签字.知p签字嗍2巾吖,心日
学位论文版权使用授权书
本学位论文作者完全了解金旦旦王些太堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权盒胆王些盘!L可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
(保密的学位论文在解密后适用本授权书)
学位论文者签名:五1血、l导师签名
签字日期:≯胡年,1月2S日
J签字日期:
学位论文作者毕业后去向:
工作单位:
通讯地址:电话:邮编:D哆%7刁7衫
致谢
在这里我衷心地感谢我的导师胡学钢教授。在攻读学位期间,自始至终得到了胡老师无微不至的关怀,感谢他将丰富的科研经验和学术思想传授给我。他严谨的治学态度,勤奋认真、刻苦耐劳、忘我的工作精神,严以律己、宽以待人的处事原则都使我受益非浅。通过胡老师的言传身教,使我在攻取学位期间,不仅在学到了知识,更重要的是我学会如何学习和钻研一个新的知识,一个新的领域,如何进行科研的一套方法,这将让我在以后的工作学习中终身受益。
还要感谢攻读学位期间,本校的所有的任课老师,我从他们那里吸取了丰富的知识营养和分析、解决问题的思路和方法。
最后,还要感谢工大给了我们在职人员一次学习和提高自己的机会,让我们在以后的人生道路上走的更好,更踏实。谢谢你们!
刘兵二oo九年九月
第一章引言
1.1本课题的研究背景
随着科技的发展,通信和网络技术的进步,信息化已经是现代社会发展的一个方向,互联网络已经成为人们获取信息、传递信息的最重要途径,但随之伴随着的是造成了WEB信息的爆炸性增长。2009年7月16只,中国互联网络信息中心(CNNIC)发布《第24次中国互联两络发展状况统计报告》I】1显示,截至2009年6月30只,我国网民规模(338亿)、宽带网民数(3.2亿)、国家顶级域名注册量(1296万)三项指标仍然稳居世界第一,互联网普及率稳步提升,网络信息的容量呈海量增长的态势。
万人“
35000
28000
21000
14000
7000
O
200512200662006珊矾耄协毒薹豫嗽
一阿民数斗互联阿昔爰军1220076200T.122008.620081220096
图卜12009年历次上同总人数和互联阿普及率调查结果
在现代社会中,毫无疑问通过互联网进行信息的获取,是人们获取信息的最重要方式之一。人们在使用互联网时,电子邮件是最多的服务项目,而搜索引擎则是仅次于电子邮件的互联网网络服务项目。随着互联网络中信息容量的海量增长.而网络环境却叉日趋复杂。这样以Google、Baidu等为代表的,以所有页面为搜索目的的通用性搜索引擎正面临着巨大的挑战。首先,网站的页面内容随着时间的变化是不断更新的,而通用搜索引擎数据库的更新是需要一段时间的,如Google,其更新数据库大概要一个月的时间;其次,通用搜索引肇还无法完成对所有的页面的索引,比如目前全球最大的搜索引擎Google,其索引也仅占Web所有页面的762%”1;另外,通用型的搜索引擎无法满足现代社会人们所需要的个性化搜索要求,比如不同的专业、兴趣的人们需要通过个性化的搜索快速得到所需的信息。
针对通用搜索引擎的现状和存在的问题,促使人们试图寻找到一种更为有效的Internet信息检索方法,从而在瀚如烟海的信息海洋中,尽可能的搜索到需要的网页内容,而对无关页面进行最大限度的过滤。正是由于这样的检索需
要,同时为满足一些高级或专业性领域的Web信息检索,产生了为获得一个面向特定主题(或者特写领域)的全面的Web页面集合,这就是信息检索领域的新方向一一主题Web搜索uJ。
主题Web搜索的任务是首先根据搜索对象所确定的目标主题,以智能的主题爬虫¨巧1在Internet上进行自动爬行(Crawl),下载网页,然后再对下载的页面集通过一定的分析算法进行智能的分析和处理,保留符合要求的页面,抛弃不符合要求的页面,并按照一定的格式进行保存,按照类别建立索引,以便用户可以方便地进行检索和使用。它的核心技术主要有:主题网络蜘蛛的搜索策略、文档的分类与索引技术、查询结果的表现技术等。
主题WEB搜索引擎发展现状分析
目前,在国内的主题搜索引擎已经有所发展,但就整个发展来说,还是比较缓慢,远远不能满足社会需求和用户的专业搜索需要,还有待更进一步的发展。目前常见的主题型搜索引擎所涉及的领域包括专利检索、工程、化学、物理和医学和商机等。例如,网上电子期刊的检索工具(中华期刊网)【7】、中国专利信息网、国家标准(CNS)搜索系统等。1.2
而国外的主题搜索引擎相对来说发展较快,数量上也比较多is】。比如:博客搜索引擎,Blogdex(http://blogdex.media.mit.edu/)、BloggingHeadlineNews(http://blogging—news.info);化学物质信息搜索,,CheraFinder(http://chem.Frnder.camsoft.com)CambridgeSofi公司开发的面向化学工作者的检索;杂志、期刊搜索,eLibrary(http://ask.elibrary.corn/)、FindArticles.com(http://www.find.articles.com/)和MagPortal(http://www.magportal.corn/)。还有图像/音频/视频搜索AllTheWeb(http://www.alltheweb.com/)、AltaVista(http://www.altavista.-corn)和Ditto(imagesonly)(http:Hwww.ditto.com/)等。
在国外,现在主要有以下几个有代表性的系统【9。1l】:
(1)Elsevier的Scirus系统(http://www.scirus.tom/)
SCIRUS是由爱思唯尔科学公司(ElsevierScience)于2001年4月推出的迄今为止国际互联网上最全面的科技信息专用搜索引擎。它以自身拥有的资源为主体,对网上具有科学价值的资源进行整合,集聚了带有科学内容的网站及与科学相关的网页上的科学论文、科技报告、会议论文、专业文献、预印本等。其目的是力求在科学领域内做到对信息全面深入的收集,以统一的检索模式面向用户提供检索服务。SCIRUS高级检索支持逻辑检,如使用
等逻辑语言进行逻辑检索。“and’’、“or"
Scirus到目前为止是互联网上最全面、综合性最强的科技文献门户网站之
一。曾被《搜索引擎观察》评为“最佳专业搜索引擎"。
(2)NEC研究院的Researchlndex(http://citeseer.ist.psu.edu/)2
本文关键词:主题WEB搜索引擎优化与实现研究,由笔耕文化传播整理发布。
本文编号:109148
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/109148.html