当前位置:主页 > 社科论文 > 图书档案论文 >

主题型搜索引擎的研究与实现

发布时间:2020-03-29 00:03
【摘要】: Tnternet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统中的应用,提出了将基于内容和基于链接的搜索技术相结合的思想,设计了一个面向主题的搜索引擎iRobot系统,阐述了它的结构和设计开发原理。 论文共分三个部分。第一部分(第一章)为总论,阐述了网络信息检索发展的现状和搜索引擎发展的不足,指出了主题型搜索引擎的概念和进行研究的必要性。第二部分(第二章)为设计iRobot系统所涉及的关键技术的研究。本文系统阐述了信息检索的原理和搜索引擎技术,并对网络信息索引、本体论、网络挖掘、信息过滤、智能代理、网络信息检索算法做了深入的剖析。第三部分(第三到第七章)为iRobot的具体实现部分,在上述理论分析的基础上给出了iRobot系统的设计思想和原则,分析了iRobot的工作流程,并详细的介绍了iRobot的结构和实现技术。 iRobot系统是一个面向主题的搜索系统,用于为专业人士或机构搜集信息。整个系统的核心分为三个部分:1、初始化部分:系统的初始化部分包括向导程序和待搜索种子站点集合的扩充。iRobot系统种子站点集合的扩充由简单元搜索引擎和超链分析实现,向用户推荐一些与主题相关的待搜索站点,为主题搜索系统的爬行部分提供一个良好的起始运行环境。2、搜索部分:iRobot系统从众多的实时搜索算法中选择了Fish算法作为实现的核心,并对Fish算法做了改进,加入了关键字的上下文分析能力。iRobot系统的搜索部分采用了多线程搜索的技术,提高了搜索速度。3、结果处理部分:iRobot将存到本地的网页进行处理,去除网页中的无关信息,将网页分类存入数据库并最终提交用户,获取用户反馈。 文章的最后总结了iRobot系统的研究和开发经验,并对未来的工作进行了展望。iRobot系统是一个较高效率的网络信息搜索系统,实现了面向主题的实时搜索功能,具有种子站点的自动扩充功能和友好的人机接口。
【图文】:

向导,微软公司,数据库


在退出向导程序后,系统会自动为用户建立后台数据库输入用户的配置信息。当用户选择使用向导工具配置系统时,系统会自动弹出画面(如图4.1),提示用户是否开始利用向导进行初始化配置。曰盈圈..口.曰臼.国麟豁蘸馨瓢黝稽甜轰口习!色。耐呻导吟砂咖抽咖钾,,是“在、’l〔:1菱二I一i棘J图4.1向导起始画面iR0bot系统后台采用SQLSERvER作数据库,程序用ODBC通用接口与数据库进行通信。开放数据库互联标准(ODBC)由微软公司制定,它不但定义了sQL语法规则,而且还定义了C语言与sQL数据库之间的编程接口。这样,经过编译的单个C或C一程序就可以对任何带有ODBC驱动程序的数据库管理系统(DBMS)进行访问了。不仅微软公司的数据库系统提供了ODBC驱动,其他的一些数据库公司

词表,网站,检索关键词,搜索网


针对于每一个主题的检索关键词以及该关键词对于主题的权重;第四部分为待搜索网站的输入,用户需要输入与搜索主题相关的网站网址,这些网站被作为iRobot爬行器的初始种子站点集。图4.2为系统的主题词表配置界面。
【学位授予单位】:中国科学院研究生院(文献情报中心)
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:G354

【引证文献】

相关期刊论文 前5条

1 朱华;浅谈网络信息资源采集技术[J];国家图书馆学刊;2004年02期

2 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期

3 庞孝梅;;网络信息资源开发实现方式的探讨[J];产业与科技论坛;2008年11期

4 张秋惠;谢延华;;一种主题型Web爬行器的设计和实现[J];漯河职业技术学院学报(综合版);2006年03期

5 李思达;;探析当前计算机网络信息检索技术[J];无线互联科技;2012年02期

相关博士学位论文 前1条

1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年

相关硕士学位论文 前10条

1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年

2 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年

3 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

4 陈必坤;基于Nutch的图情博客搜索引擎的设计与实现[D];郑州大学;2011年

5 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年

6 李娟;高校数字图书馆中基于Agent的智能信息采集与服务原型系统的研究[D];武汉理工大学;2005年

7 胡一俊;web超链分析应用研究[D];武汉大学;2005年

8 杨治秋;专题搜索引擎关键技术的研究[D];燕山大学;2006年

9 林海霞;中文专业搜索引擎优化策略研究[D];燕山大学;2006年

10 段雪英;基于.NET的气象主题搜索引擎系统的研究与实现[D];南京信息工程大学;2007年



本文编号:2605112

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2605112.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e897f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com