当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向房产领域的垂直搜索引擎研究与实现

发布时间:2018-11-06 08:00
【摘要】:伴随着互联网的高速发展,网络信息呈指数级增长。在如此海量的信息当中需要搜索引擎定位所需的信息。虽然通用搜索引擎在一定程度上能解决资源定位问题,但是其效果并不理想,对于专业领域的信息检索,很难达到用户的搜索需求。垂直搜索引擎的出现就是为了解决通用搜索引擎在专业领域的不足,其对特定领域信息的深度挖掘弥补了通用搜索引擎信息泛而不精的缺点。 论文从理论和实践两个方面对垂直搜索引擎中关键技术做了深入研究。 本文首先介绍了研究背景及意义、搜索引擎的分类和垂直搜索引擎在国内外的发展现状。其次介绍了垂直搜索引擎的基本工作原理、系统构成和关键技术。接下来,详细介绍了网页的主题表示,构造了本文的主题特征向量,分析了主题网页的分布特征。深入研究了基于内容的主题相关度判定和基于链接结构的主题相关度判定,分析了各自的缺点和不足。在基于内容的主题相关度判定的基础上引入网页重要度,设计了一个基于网页内容和基于网页链接结构的主题爬虫算法。对于主题爬虫中的主题孤岛问题,设计了一个基于动态调整最大深度的隧道穿越算法,该算法一定程度上缓解了网络孤岛问题。随后,设计了一个基于房产领域的垂直搜索引擎,对本系统进行了系统分析,设计了本系统的总体框架,详细介绍了各个子功能模块的设计与实现,并对本系统做了性能分析和功能测试。最后,对论文所做的工作进行相应的总结,并且提出需要进一步研究的工作。
[Abstract]:With the rapid development of the Internet, network information increases exponentially. In such a large amount of information needs search engine location needs information. Although the general search engine can solve the problem of resource location to a certain extent, its effect is not ideal, and it is difficult to reach the user's search demand for the information retrieval in the specialized field. The emergence of vertical search engine is to solve the shortcomings of general search engine in the professional field, and its deep mining of information in a specific field makes up for the shortcomings of general search engine information. In this paper, the key technologies of vertical search engine are studied in theory and practice. This paper first introduces the research background and significance, the classification of search engines and the development of vertical search engines at home and abroad. Secondly, the basic working principle, system structure and key technology of vertical search engine are introduced. Then, the theme representation of the web page is introduced in detail, the theme feature vector is constructed, and the distribution feature of the theme page is analyzed. In this paper, the content based topic correlation decision and the link structure based topic relevance judgment are studied in depth, and their shortcomings and shortcomings are analyzed. A topic crawler algorithm based on web content and web link structure is designed by introducing the importance of web pages on the basis of content-based topic correlation judgment. For the topic isolated island problem in the topic crawler, a tunnel crossing algorithm based on dynamic adjustment of maximum depth is designed, which to some extent alleviates the problem of network islanding. Then, a vertical search engine based on the real estate field is designed, the system is systematically analyzed, the overall framework of the system is designed, and the design and implementation of each sub-function module are introduced in detail. The performance analysis and function test of the system are also done. Finally, the work of the paper is summarized, and further research work is proposed.
【学位授予单位】:南昌大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 高琴;;HITS算法探究[J];信息安全与技术;2012年02期

2 张晓刚,李明树;智能搜索引擎技术的研究与发展[J];计算机工程与应用;2001年24期

3 赫建营;晏海华;金茂忠;刘超;;结合本体筛选和文本挖掘的垂直搜索引擎研究[J];计算机科学;2008年02期

4 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期

5 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期

6 苏成;潘云涛;袁军鹏;马峥;郭红;张玉华;俞征鹿;胡志宇;;基于PageRank的期刊评价研究[J];中国科技期刊研究;2009年04期

7 胡永锋;;浅谈垂直搜索引擎的工作原理[J];科学大众(科学教育);2011年06期

8 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期

9 何晓阳,吴强,吴治蓉;HITS算法与PageRank算法比较分析[J];情报杂志;2004年02期

10 刘琨,郑有才;搜索引擎剖析[J];微机发展;2004年03期

相关硕士学位论文 前8条

1 周源;基于本体的语义垂直搜索引擎研究[D];北京交通大学;2011年

2 李宜兵;基于搜索引擎网页排序算法研究[D];沈阳理工大学;2011年

3 冯运;信息检索中的查询算法研究[D];湖南大学;2007年

4 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年

5 张慧;旅游信息垂直搜索系统的设计与实现[D];北京邮电大学;2009年

6 孙逸雪;基于时态信息的主题搜索引擎的研究与实现[D];中国科学技术大学;2009年

7 贺晟;搜索引擎中主题网络爬虫的研究与设计[D];安徽大学;2010年

8 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年



本文编号:2313653

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2313653.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8d2e7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com