当前位置:主页 > 科技论文 > 搜索引擎论文 >

林业主题搜索引擎研究

发布时间:2019-04-19 09:40
【摘要】:搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文就中文Web主题信息获取与检索技术进行了一些研究,并设计和实现了一个以主题信息采集FRobot为核心的林业主题搜索引擎FIS(Forestry Information Search)。 本文首先介绍了目前综合型搜索引擎的发展、现状、分类、工作原理并指出其不足与发展方向。随之对主题型搜索引擎产生背景与工作方式作了概述,并重点探讨了信息检索模型、主题信息采集策略、Fish算法、加权索引及检索技术等搜索引擎关键技术。在此基础上,采用成熟的向量空间模型(Vector Space Model,VSM)和改进的Fish算法,并结合html文档分析、首页关联、内容预测、数据库全文索引等各种技术,给出了一种比较理想的主题搜索引擎设计方案并实现了一个林业主题搜索引擎系统FIS。该系统面向林业领域,保证了对林业信息的完全收录与及时更新,避免了强大的搜索噪音,提高了检索效率,能快、全、准地提供林业专题信息查询。 最后本文总结了林业主题搜索引擎系统的研究和开发经验,并指出了系统的应用前景以及下一步研究的方向。
[Abstract]:Search engine is the primary tool for people to obtain massive network information, and it is the key content of network research and application. At present, with the explosive growth of Internet information and the development of information diversification, topic search engine is becoming a research hotspot and development trend. In this paper, we do some research on Chinese Web subject information acquisition and retrieval technology, and design and implement a forestry topic search engine FIS (Forestry Information Search). With theme information collection FRobot as the core. This paper first introduces the development, current situation, classification and working principle of comprehensive search engine, and points out its deficiency and development direction. Then the background and working mode of thematic search engine are summarized, and the key technologies of search engine, such as information retrieval model, topic information collection strategy, Fish algorithm, weighted index and retrieval technology, are discussed in detail. On this basis, the mature vector space model (Vector Space Model,VSM (Vector Space Model) and the improved Fish algorithm are adopted, and various technologies such as html document analysis, home page association, content prediction, database full-text index and so on are combined. In this paper, an ideal design scheme of topic search engine is given and a forestry topic search engine system, FIS., is implemented. The system is oriented to the forestry field, ensures the complete collection and timely update of forestry information, avoids the strong search noise, improves the retrieval efficiency, and can provide forestry special information query quickly, completely and accurately. Finally, this paper summarizes the research and development experience of forestry subject search engine system, and points out the application prospect of the system and the future research direction.
【学位授予单位】:北京林业大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.09;S712

【引证文献】

相关期刊论文 前2条

1 张黎烁;李鑫;徐猛;;基于PageRank的网页主题相关性算法研究[J];光盘技术;2008年12期

2 王承君;;Web搜索引擎的关键技术分析[J];潍坊学院学报;2009年04期

相关博士学位论文 前1条

1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

相关硕士学位论文 前8条

1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年

2 胡晓博;面向特定领域的专业搜索引擎的架构与实现方法[D];哈尔滨工程大学;2007年

3 段雪英;基于.NET的气象主题搜索引擎系统的研究与实现[D];南京信息工程大学;2007年

4 客斌;经营分析系统信息检索平台[D];北京交通大学;2010年

5 高川;Deep Web数据源的发现与聚类研究[D];北京化工大学;2010年

6 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年

7 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年

8 张蓬飞;Deep Web数据源聚类与查询转换的研究[D];北京化工大学;2011年



本文编号:2460830

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2460830.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户47eec***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com