当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Nutch的图情博客搜索引擎的设计与实现

发布时间:2018-05-12 15:59

  本文选题:Lucene + Nutch ; 参考:《郑州大学》2011年硕士论文


【摘要】:随着Web2.0理念和技术的兴起,全球互联网用户享受到了丰富多样的交互性信息服务,博客正是这种交互性信息服务的典型代表。在这种时代背景下,图书情报学领域的学生、研究人员等纷纷开设博客进行信息交流。然而,图情博客分散、博文质量参差不齐的现状给界内人士的使用带来了不便,虽然Google博客搜索、百度博客搜索等相关的主题搜索引擎已经解决了一些问题,但是仍旧不能满足图情界用户的需求。本文就是针对这一问题尝试构建图情博客搜索引擎,以满足图情用户的需求。本文首先对搜索引擎相关技术和图情博客进行分析,其次引入Nutch这一开源搜索引擎并基于Nutch制定了图情博客搜索引擎的设计方案,再次依据该设计方案开发出相应的主题搜索引擎,最后以实验的方法对该主题搜索引擎的性能进行评估。本文各章节的主要内容如下: 1绪论。本章介绍了论文的选题背景、选题意义、国内外研究现状、所采用的研究方法和创新之处。 2搜索引擎相关技术及图情博客分析。本章首先分析了搜索引擎、主题搜索引擎的运行原理,指出二者的主要区别在于信息采集模块和网页内容解析模块两部分,主题搜索引擎改进了网络爬虫模块和并在网页内容解析模块增加了主题词库进行信息过滤。其次从博客站点结构、博客页面内容、博客之间链接结构三方面对图情博客进行分析,以增加对图情博客的全面认识。 3 Nutch简介及Nutch系统的运行环境配置与运行。本章首先介绍了开源搜索引擎Nutch的基本情况和框架结构,对Nutch有个初步的认识。然后配置Nutch系统的运行环境并详细阐释其运行流程,对Nutch的运行原理和详细结构有进一步的认识。 4基于Nutch的图情博客搜索引擎的设计。本章依据软件工程的思想,首先分析搜索引擎系统要实现的目标、要解决的问题以及可行性,然后通过用例图(Use Case Diagram)和序列图(Sequence Diagram)对系统的用户需求进行阐述,最后给出了系统的总体设计方案和详细设计方案。 5基于Nutch的图情博客搜索引擎的核心模块实现。本章对详细设计方案中的三个核心模块进行实现。首先是借助图书情报学的信息检索理论和实践对主题资源发现模块进行实现,其次是通过软件分析对爬虫模块的采集策略进行实现,最后是根据用户需求对检索模块进行改进。 6实验测试分析与结论。本章首先设定了一系列参数并依据这些参数进行了六轮实验测试,然后对测试结果进行了分析。最后,笔者总结了图情博客搜索引擎的特点及不足之处,并对以后的改进工作做出了展望。
[Abstract]:With the rise of Web2.0 concept and technology, Internet users worldwide enjoy a variety of interactive information services, blog is the typical representative of this interactive information service. Against this background, students and researchers in the field of library and information science have started blogs to exchange information. However, the scattered picture blog, the uneven quality of blog has brought inconvenience to the use of people in the field, although Google blog search, Baidu blog search and other related theme search engines have solved some problems. But still can not meet the needs of users. This paper attempts to build a blog search engine to meet the needs of users. In this paper, we first analyze the related technologies of search engine and map blog, then introduce Nutch, an open source search engine, and work out the design scheme of map blog search engine based on Nutch. At last, the performance of the theme search engine is evaluated by the experimental method. The main contents of each chapter are as follows: 1 introduction. This chapter introduces the background, significance, domestic and international research status, research methods and innovations. 2 search engine related technology and map blog analysis. This chapter first analyzes the operation principle of search engine and theme search engine, and points out that the main difference between them lies in two parts: information collection module and web page content analysis module. The topic search engine improves the web crawler module and adds the topic thesaurus to the web content parsing module for information filtering. Secondly, from the blog site structure, blog page content, blog links between the three aspects of the blog analysis, in order to increase the overall understanding of the picture blog. Introduction of Nutch and configuration and operation of Nutch system. This chapter first introduces the basic situation and framework of open source search engine Nutch, and has a preliminary understanding of Nutch. Then configure the running environment of Nutch system and explain its running flow in detail, and have a further understanding of the operation principle and detailed structure of Nutch. 4 the design of blog search engine based on Nutch. According to the idea of software engineering, this chapter first analyzes the goal, the problem and the feasibility of the search engine system, and then through use Case Diagrams and sequence Diagrams, the user needs of the system are expounded. Finally, the overall design scheme and detailed design scheme of the system are given. 5 the core module of blog search engine based on Nutch. In this chapter, three core modules in the detailed design scheme are implemented. Firstly, it implements the topic resource discovery module with the help of the information retrieval theory and practice of library and information science; secondly, it implements the crawler module's acquisition strategy through software analysis; finally, it improves the retrieval module according to the user's demand. 6 Experimental analysis and conclusion. In this chapter, a series of parameters are set up and six rounds of experimental tests are carried out according to these parameters, and then the test results are analyzed. Finally, the author summarizes the features and shortcomings of blog search engine, and makes a prospect for future improvement.
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:G250.73

【参考文献】

相关期刊论文 前10条

1 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期

2 张斌;周尔宁;;基于Nutch的分布式纺织垂直搜索引擎研究[J];电脑知识与技术;2009年21期

3 吴敏琦;丁岳伟;;基于Nutch的XML网站全文搜索引擎实现[J];计算机工程;2008年15期

4 徐飞;孙劲光;;中文分词切分技术研究[J];计算机工程与科学;2008年05期

5 申晋;;基于Lucene和Nutch的林业垂直搜索引擎的研建[J];农业网络信息;2008年04期

6 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期

7 刘高原;何伟娜;郑浩;刘觉夫;;Nutch0.9中二分法中文分词的实现[J];计算机时代;2009年04期

8 赵景明;张福学;;国外图书情报学博客的定量分析[J];图书馆理论与实践;2008年05期

9 刘高原;张国平;;基于Nutch的搜索引擎技术[J];平顶山学院学报;2008年05期

10 周鹏;吴华瑞;赵春江;杨宝祝;朱华吉;;基于Nutch农业搜索引擎的研究与设计[J];计算机工程与设计;2009年03期

相关硕士学位论文 前10条

1 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年

2 董祥千;搜索引擎设计分析与结果聚类改进[D];电子科技大学;2007年

3 刘强国;主题搜索引擎设计与研究[D];电子科技大学;2007年

4 叶勤勇;基于URL规则的聚焦爬虫及其应用[D];浙江大学;2007年

5 苏晓珂;基于Nutch的主题爬虫研究与实现[D];昆明理工大学;2007年

6 胡晓博;面向特定领域的专业搜索引擎的架构与实现方法[D];哈尔滨工程大学;2007年

7 黄波;主题搜索引擎的研究与应用[D];成都理工大学;2007年

8 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年

9 常庆;风险主题搜索引擎相关技术的研究与应用[D];西北大学;2008年

10 张弛;基于WEB服务的空间信息专业搜索引擎的应用研究[D];广西大学;2008年



本文编号:1879236

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1879236.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户781c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com