当前位置:主页 > 科技论文 > 搜索引擎论文 >

互联网中实时信息获取与索引技术研究

发布时间:2021-04-10 00:32
  互联网技术的飞速发展使得网络上的信息越来越多,人们虽然可以使用传统的搜索引擎找到自己感兴趣的内容,但是搜索得到结果却往往是过时的信息。这是因为,传统搜索引擎为了使搜索结果的覆盖面广,内容更丰富,在信息获取阶段也即网络爬虫抓取网页的时候,会耗费大量的时间。另外,把最终抓取到的大量的信息加入索引库中也会带来一笔不小的时间开销。因此,当用户从传统搜索引擎得到搜索结果时,互联网上的原始信息可能已经产生了较大的变动。本论文主要针对传统搜索引擎中搜索结果时效性低的现象,对互联网上实时信息的获取和索引技术进行了深入的研究。主要内容有:首先,在对传统搜索引擎的基本框架和工作原理进行研究的基础上,针对搜索结果中信息过时这个现象,确定了本文对网络爬虫和索引进行研究和改进的技术方案。然后,文本介绍并分析了目前互联网上实时信息的种类,并对新闻类的实时信息进行了研究。由于新闻类信息每时每刻都会产生,并且需要网络爬虫从新闻网站上获取,因此,本论文分析了新闻类信息的网址特点,并提出了使用网络爬虫定向获取新闻类信息的方案,通过定制Heritrix开源网络爬虫,对新闻类实时信息获取进行了实验,验证该方案的可行性。之后,... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:82 页

【学位级别】:硕士

【部分图文】:

互联网中实时信息获取与索引技术研究


Google搜索引擎的实时搜索功能国内的主流搜索引擎厂商也相继推出了自己的实时搜索引擎服务,其中,做得比较好的当数有道搜索

社交,搜索引擎,功能


图1-2所示,从图中可以看出,有道搜索也可以如Google—样对新闻事件进行按时间排序,为用户带来满意的搜索结果。m m m m m mm m m m舰从I艱雪 ~~^ . .-. . a.. 、.,? ’ ? ___i , _ :满命SI陽I 額W* 书茨鲕霧響齋人餐噩女藤*a*a?iSKwarS 芝 jgiia 来入冬囊大鋒雪大 mmmm zmmmmMmtt?关费讀? 卿__寧 - -慕8??^艾优进屯(ghm 赚大_mmm ? x |g腦■:厚票:?.???丨教十多人R亡长安发布翁?连?但!ic天气att-a* tz图1-2有道搜索引擎实时搜索功能针对社交网络的实时搜索则主要由相应的社交网络自己来提供。例如国内比较著名的社交网络平台新浪微博为用户提供了搜索的功能。与搜索引擎先建立索引再搜索的流程不同,社交网络可以对自己的数据库进行检索,返回更加精确的搜索结果。例如,对于“美国暴风雪”的搜索结果,新浪微博搜索功能返回的结果如图1-3所示。从图中可以看出,新浪微博的搜索结果中,实时性最强,用户甚至可以看到最近的几秒钟内发生的事情。但社交网络上的信息是由用户发布的,因此实时搜索结果可能包含各类信息

功能图,功能,暴风雪,社交


例如,对于“美国暴风雪”的搜索结果,新浪微博搜索功能返回的结果如图1-3所示。从图中可以看出,新浪微博的搜索结果中,实时性最强,用户甚至可以看到最近的几秒钟内发生的事情。但社交网络上的信息是由用户发布的,因此实时搜索结果可能包含各类信息,需要用户去飄选有价值的信息。4

【参考文献】:
期刊论文
[1]基于Heritrix的增量式网络爬虫研究[J]. 张皓,周学广.  软件导刊. 2013(11)
[2]基于Heritrix的网络爬虫研究与应用[J]. 刘高军,夏景隆.  软件导刊. 2013(05)
[3]基于Heritrix的网页内容过滤抓取[J]. 陈锦伟,徐勇.  现代计算机(专业版). 2012(21)
[4]基于Heritrix的web信息抽取优化与实现[J]. 吴伟,陈建峡.  湖北工业大学学报. 2012(02)
[5]基于Heritrix的面向特定主题的聚焦爬虫研究[J]. 朱敏,罗省贤.  计算机技术与发展. 2012(02)
[6]基于网页结构特征的网页主要文本信息抽取策略[J]. 火善栋.  现代计算机(专业版). 2008(04)
[7]基于Lucene的中文字典分词模块的设计与实现[J]. 向晖,郭一平,王亮.  现代图书情报技术. 2006(08)
[8]基于Lucene的全文检索系统研究与开发[J]. 郎小伟,王申康.  计算机工程. 2006(04)
[9]Servlet技术与应用方法[J]. 池亚平,方勇.  北京邮电大学学报. 2003(S1)
[10]基于LUCENEAPI的中文全文数据库设计与实现[J]. 赵汀,孟祥武.  计算机工程与应用. 2003(20)

硕士论文
[1]数据仓库查询优化方法及索引技术研究[D]. 郭峻峰.合肥工业大学 2010
[2]垂直搜索引擎数据分析技术的研究与实现[D]. 江娟.华北电力大学(北京) 2008
[3]Web信息获取技术研究[D]. 吴东华.南京理工大学 2004



本文编号:3128598

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3128598.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7bc7a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com