当前位置:主页 > 社科论文 > 图书档案论文 >

自动主题搜索的应用研究

发布时间:2021-12-11 06:49
  随着互联网上信息量爆炸性地增长,如何高效、低成本地利用Web信息资源就逐渐成为信息服务机构和最终信息用户所关注的问题。本论文研究目的就是希望通过对主题搜索的应用进行研究,探索Web主题资源的建设方法。Web主题资源自动搜索技术可以充分利用Web上大量的免费资源,自动地搜集Web主题资源,摆脱对专家的依赖,降低建设成本,提高Web主题资源建设的速度、效率和质量。 本论文的研究工作主要包含以下四个方面: (1)研究了主题搜索的基本理论和Web主题资源的建设模式,探讨Web主题资源自动搜索的相关技术,为自动主题搜索提供一个可行的研究方案,设计出一个Web主题资源自动建设的功能框架; (2)分析和实现了一个新型的多模式字符串匹配算法。该算法是以确定性有限状态自动机(DFSA)为基础,结合Quick Search算法而提出的,可以用来提高主题爬行器的网页分析和Web网页分类器的速度。经改造之后,状态自动机所占用的内存不到标准DFSA占用内存的一半,提高了多模式字符串匹配算法的性能。 (3)从社会学、文献计量学和计算机科学等角度分析了Web超链相关知识,并在经典的HITS算... 

【文章来源】:中国科学院大学(中国科学院文献情报中心)北京市

【文章页数】:146 页

【学位级别】:博士

【部分图文】:

自动主题搜索的应用研究


通用搜索引擎系统结构

系统结构图,系统结构,爬行器


搜索范围之内,从而使SciruS引擎能够精确地找到普通搜索引擎所找不到的、免费的或者访问受限的科学信息资源。图2一4是该系统主题资源建设的一个示意图,该模型形象地说明了Scirus网站资源的建设过程。将人工和计算机自动工作完美地结合在一起,爬行器就可以高效地面向主题去爬行W亡b,但它的爬行器就只会爬行它收录范围内的网页,相对于其它的搜索引擎实现起来要容易得多。分类阶段是按照某个学科分类体系对下载的网页和数据库中的论文进行分门别类。它采用了两种分类:一个是主题分类,如物理、医学等20个主题;

界面图,天网,北大,主题


制个性化服务。其中“天网主题”就是致力于特定领域、地域、特定主题的资源搜索搜集。值得注意的是,北大天网是继“天网目录”服务推出之后才推出了“天网主题”服务。他们解决的关键技术是网页分类技术。天网主题的服务界面如图2一7所示。unil相关搜索厂一一一一一-…渔巡皿s.ar比1”.248,641pa‘e,飞”lde加王x,工士.,Last即date:丁胡.2艺,2003图2一7北大“天网主题”服务界面2.5小结本章首先辨析了主题搜索以及它与搜索引擎、W己b数据挖掘、W亡b信息检索、主题爬行器、主题搜索引擎之间的关系,然后详细说明了搜索引擎涉及到的爬行技术、文本索引、超链索引、实用索引、数据压缩和存储、信息检索、避免爬行陷阱等技术,为主题搜索引擎的研究提供技术上的支持。最后

【参考文献】:
期刊论文
[1]学科分类知识库的构建及其在网络资源分类中的作用[J]. 向桂林.  图书情报工作. 2003(02)
[2]文本内容主题的识别方法[J]. 朱靖波,姚天顺.  东北大学学报. 2002(05)
[3]基于潜在语义索引的文本摘要方法[J]. 林鸿飞,高仁璟.  大连理工大学学报. 2001(06)
[4]第三代搜索引擎与天网二期[J]. 雷鸣,王建勇,赵江华,单松巍,陈葆珏.  北京大学学报(自然科学版). 2001(05)
[5]网络环境下数字资源的建设与利用[J]. 高京文.  情报杂志. 2001(06)
[6]基于链接分析的学术性WWW网络资源评价与分类方法[J]. 黄奇,李伟.  情报学报. 2001(02)
[7]Web挖掘研究[J]. 韩家炜,孟小峰,王静,李盛恩.  计算机研究与发展. 2001(04)
[8]文本挖掘、数据挖掘和知识管理——二十一世纪的智能信息处理[J]. 韩客松,王永成.  情报学报. 2001(01)
[9]垂直门户及垂直门户信息服务模式可行性研究[J]. 王斌.  图书情报工作. 2001(01)
[10]Web网页识别中的特征选择问题研究[J]. 朱明,王军,王俊普.  计算机工程. 2000(08)

博士论文
[1]Web信息服务中受控语言研究[D]. 毛军.中国科学院研究生院(文献情报中心) 2002
[2]个性化网络信息检索系统的研究与实现[D]. 李广建.中国科学院研究生院(文献情报中心) 2002
[3]Internet科技信息资源门户网站(STIP)系统的实践研究[D]. 张智雄.中国科学院文献情报中心 2000

硕士论文
[1]主题型搜索引擎的研究与实现[D]. 侯震宇.中国科学院研究生院(文献情报中心) 2003
[2]扩展元搜索引擎(EMSE)的系统设计[D]. 张俭恭.中国科学院研究生院(文献情报中心) 2002
[3]网络智能知识服务系统设计与实现[D]. 王胜海.中国科学院研究生院(文献情报中心) 2002



本文编号:3534204

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3534204.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e8808***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com