当前位置:主页 > 科技论文 > 搜索引擎论文 >


发布时间:2018-03-22 12:16

  本文选题:实时搜索引擎 切入点:页面时间信息 出处:《吉林大学》2012年硕士论文 论文类型:学位论文

【摘要】:近年来,社会化网络(SNS)以及微博(MicroBlog)从现代互联网技术中脱颖而出,在很短的时间内以极快的速度发展着。这些网络社区吸引了数量庞大的用户群体,用户在社区当中可以自由的、随时随地的发表信息。另一方面,传统新闻报纸媒体也逐渐开始向电子新闻媒体转型,所发生事件的相关新闻报道也通过网络越来越及时的出现在互联网上。 对于这两种类型的信息,用户如何能够及时的、快速的、准确的去获取到呢?我们知道,用户获取网络上信息的最常用的方式是通过搜索引擎来进行检索,用户输入所需要获取信息的关键词(KeyWord),搜索引擎会在索引数据库中查找那些相关的网页信息,并将查询得到的结果按照一定的规则经过排序之后取其中的Top-K返回给用户。那么用户是否可以通过传统的搜索引擎来获取SNS信息、微博信息以及最新的新闻报道信息呢?由于这些类型的信息都是每时每刻实时产生的,当这些信息在网络上出现时,传统的搜索引擎并不能够及时的对这些新产生的信息进行索引并加入到索引数据库中,所以传统的搜索引擎无法满足用户对这些实时信息进行检索的需求。这种对实时类信息进行检索的需求,就促进了实时搜索引擎的快速发展。实时搜索引擎是近年来迅速发展起来的,它就是为检索SNS信息、微博信息、新闻类信息提供实时检索服务的。 在实时搜索当中,如何获得页面的时间要素信息是其提供实时检索服务的关键。这些时间要素信息主要包括:网页页面的创建时间,网页页面的更新时间,以及网页内容的更新周期。而要获得网页页面的这些时间信息,就必须对网页页面进行一些处理,以去除页面上的与页面主要内容无关的部分,然后从页面所包含的主要内容当中或者页面当中的链接关系来获得该页面的相关的时间信息。 文中在对这些类型的实时信息页面进行分析的过程中,发现了这类信息页面的主要内容一般只由一个独立的内容块构成,而且这些页面的主要内容在经过自然语言处理技术处理之后,还在语义上表现出很有规律的词性特征。在W3C提出的DOM树模型的基础上,本文利用页面内容在语义上所表现出来的这些词性特征,以及HTML标记本身的可视化信息,提出了一种提取页面的主要内容、对页面进行重构的算法SemV。相关实验表明,SemV算法能有有效的、准确的识别出新闻页面的主要内容,而且还可以有效地减少保存页面所需要的存储空间,节约了硬件资源。 在提取出页面的主要内容、对页面进行重构的基础上,根据表示页面的时间信息的词汇或者短语的分布情况以及时间信息出现的模式特征,提取得到页面内容当中所包含的表示时间信息的词汇和短语,然后依据这些表示时间信息的词汇和短语来估计获得页面的相关时间信息。在对新闻报道信息之间的联系进行语义分析的过程中,文中发现关于同一事件的新闻报道信息具有很强的联系,它们都以事件为中心。在对它们之间的这种联系进行分析的基础上,文中提出了新闻事件对象模型以及基于该模型对页面时间要素信息进行估计的方法EOM。相关的试验验证了该模型的可行性和准确性,,对于新闻报道类信息以及和新闻报道相关的微博、社交网络信息,该模型和方法都具有较好的效果。 在获得页面的时间要素信息之后,文中对比分析了实时搜索引擎当中爬虫对页面进行重新爬行以获取页面更新信息内容的两种方法:基于自然顺序的方法和基于网页重要性程度的方法。最后结合页面的更新时间、更新周期以及页面的重要性程度,提出了一种基于贪心策略的方法:根据页面的更新时间和更新周期信息来指导爬虫爬行更新信息。贪心策略体现在具有最短更新周期的页面爬虫优先进行爬行。该调度策略方法,可以高效的分配爬虫的有限的硬件和网络带宽资源,及时的获取得到页面上的更新信息内容,有效的提高爬虫的工作效率,降低爬虫和服务器的负载。 最后,由于实时搜索引擎是最近一段时间才发展起来的,所以其中还存在很多的需要我们去解决的问题,文中给出了一些需要进行进一步研究解决的问题并指出了后续研究工作的方向。
[Abstract]:In recent years, social networking (SNS) and micro-blog (MicroBlog) from the modern Internet technology talent shows itself, in a very short period of time in order to speed the development of the network. The community has attracted a huge number of user groups, users can freely in the community, everywhere published information. On the other hand, the traditional newspaper media are also beginning to transition to the electronic news media, news events through the network more and more timely appear on the Internet.
For the two types of information, how users can timely, fast, accurate to get to? We know that the user access to the network information is the most common way is through the search engine to search keywords, the user input needed to obtain information (KeyWord), the search engine will search for relevant web pages in the index database, and the query results according to certain rules sorted after the Top-K to return to the user. Then the user can SNS information is acquired through the traditional search engine, micro-blog information and latest news information? These types of information are generated in real time all the time and when these messages appear on the network, the traditional search engine can not be timely for these new information are indexed and added to the index database, the In the traditional search engine cannot meet user retrieval needs of these real-time information. The retrieval needs of real-time information, will promote the rapid development of real-time search engine. A real-time search engine is developed rapidly in recent years, it is for the retrieval of SNS information, micro-blog information, news information to provide real-time retrieval service.
In real-time search, how to get the information of the time factor is the key to provide real-time page retrieval service. These factors include: time information web page creation time, update time of web page, update cycle and content on the web. The time information and to obtain the web page, there must be some processing on the web page in order to remove the page, page and page main content independent parts, main contents and from the page contains links among pages or to obtain relevant information of the time of the page.
In this paper, in the process of real-time information page for these types of analysis, found the main content of this kind of information page only by an independent content blocks, and the main content of these pages after Natural Language Processing technology, still shows some semantic and POS features are based on W3C rules. The DOM tree model, the page content displayed in the meaning out of these speech features and HTML labeled visual information itself, and put forward the main content of a page extraction algorithm of SemV., shows that the related experiments in page reconstruction, SemV algorithm can effectively and accurately identify the the main content of news pages, but also can effectively reduce the storage space needed to save the page, save the hardware resources.
To extract the main content of the page, based on the reconstruction of the page, according to the distribution characteristics of time mode information page words or phrases and time information, extracted from the page content contains time information representing words and phrases, and then on the basis of the time information representing words and phrases. The estimated time information page. The process of semantic analysis in the relationship between news report information, this paper found that the news reports on the same event information has strong ties, they are event centered. Based on the analysis of the relationship between them, is proposed in this paper. The news event object model and based on the time information of the page elements model test EOM. estimation method to verify the feasibility of the model and accurate Sex, for news reports and news reports related to micro-blog, social network information, the model and methods have good results.
After the information time factor of the page, the comparative analysis of the real-time search engine crawler on page re crawling two methods to obtain the page update content: a method based on the natural order and method based on "the importance. Finally, the update time of the page, the update cycle and the degree of importance of the page, put forward a method based on greedy strategy: according to page update time and update cycle information to guide the crawler crawl to update the information. The greedy strategy is showed in the shortest period to update the page crawl crawl. The priority scheduling strategy, the crawler can be assigned efficiently with limited hardware and network bandwidth resources, to get the update the information content on the page in a timely manner, effectively improve the crawler work efficiency, reduce the load crawler and the server.
Finally, due to the fact that the real-time search engine has been developing for a long time, there are still many problems that we need to solve. In this paper, some problems that need further research and solutions are pointed out, and the direction for further research is pointed out.



相关期刊论文 前10条

1 ;关键词搜索[J];每周电脑报;2000年38期

2 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期

3 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期

4 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期

5 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期

6 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期

7 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期

8 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期

9 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期

10 凤元杰,刘正春,王坚毅;搜索引擎主要性能评价指标体系研究[J];情报学报;2004年01期

相关会议论文 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

相关重要报纸文章 前10条

1 李一鑫;搜索排名的红与黑[N];财经时报;2007年

2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年

5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年

相关博士学位论文 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年

9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

相关硕士学位论文 前10条

1 张朝斌;企业级搜索引擎的优化设计与实现[D];华南理工大学;2010年

2 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

3 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

4 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

5 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年

10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年




Copyright(c)文论论文网All Rights Reserved | 网站地图 |
