基于元搜索与内容聚类的情报获取技术研究
发布时间:2020-07-14 21:42
【摘要】: 目前网络信息已经成为主要的情报源,其获取的主要方式之一就是使用搜索引擎。但是,利用搜索引擎获取的网络信息仍存在很多问题:例如获取的信息量很大但是有用信息很少;获取的信息多样但是用户无法识别相关信息群体等。有用信息资源的获取已经逐渐成为情报业发展的一个瓶颈。因此,如何从海量信息中剔除无用信息,迅速定位至信息群,从而快速、高效地获取情报资源,并对其进行加工整理并提供给情报用户,是情报界人士面临的一大挑战,也是目前亟需解决的问题。 本论文以提高情报获取效率与质量为主要目标,研究和实现了基于元搜索与内容聚类的情报获取系统。主要创新点:(1)设计了情报获取系统的总体框架,提出了搜索模块、运算模块、用户模块三大功能模块,并阐述各模块的功能流程。(2)提出了基于网页标题摘要分析方法进行元搜索引擎结果相关性判断。实验结果表明,元搜索引擎搜索结果的平均准确率比各个成员引擎的搜索结果平均准确率都有较大提高。(3)结合当前两种主要的聚类算法—K-means划分法和BIRCH聚类算法,提出了在元搜索结果处理基础上进行聚类的方法。实验证明,该方法在聚类效果上有较明显的改善,并且效率得到了很大提高。(4)在情报获取系统的设计实现方面,提出了数据库系统、软件系统、人机界面的设计方案,实现了基于网页标题摘要分析的信息检索、基于元搜索结果和K-means与BIRCH算法结合算法的聚类分析,以及基于OLAM的多维分析。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:G354
【图文】:
52 基于元搜索与内容聚类的情报获取技术研究次树构成的。当用户提出一个分析请求时,层次树中的级别概念特别重要。例如用户想看一个由内容行和时间行所形成的矩阵时,他应该指出是想看内容维所有级别的数据,还是想看一级聚簇或二级聚簇的数据,或是利用层次关系一步步地向下深入访问到各个级别中去。层次结构概念是向上汇总和向下钻取两个操作的基础。
图 6.6 界面设计图1) 搜索选项区:提供界面方便用户输入关键词、选择排序方式以及选择结果集合个数。用户可根据需要控制搜索结果的相关性和集合大小;2) 分析选项区:提供界面供用户选择时间粒度(选项包括年、月、日),空间粒度(选项包括国家、地区、省市),聚簇深度,方便用户对多维数据的粒度进行控制;3) 搜索结果区:这是系统接受了查询请求,经过关键词解析、计算相关度、网页优化后的最终结果。4) 聚类树显示区:这是系统接受用户请求,对搜索得到的结果集合进行聚类处理后形成的分层聚类树。5) 分析结果区:在用户提交分析选择后,系统会根据数据库中的多粒度数据调用水晶报表形成分析结果提交给用户,同时水晶报表还会提供导出 Excel 表的功能,用户可存储分析结果。
图 6.7 趋势分析图水晶报表生成的趋势分析图,横坐标是以日期为度量值,纵坐标是网页出现数目,不同的颜色表示不同层次聚类簇的网页数,从报表结果可以看出一段时期内某方面内容的网页出现的日分布规律。6.5 本章小结本章主要介绍了目前已经设计实现的情报系统,从数据库系统设计、从数据库系统设计、软件系统设计、人机查询界面设计三部分介绍。总体上,实现了基于网页摘要分析的关键词信息检索、基于元搜索结果和 K-means 与 BIRCH 算法结合算法的聚类分析,以及基于 ROLAM 的多维分析,这是设计功能比较全面的情报系统。
本文编号:2755525
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:G354
【图文】:
52 基于元搜索与内容聚类的情报获取技术研究次树构成的。当用户提出一个分析请求时,层次树中的级别概念特别重要。例如用户想看一个由内容行和时间行所形成的矩阵时,他应该指出是想看内容维所有级别的数据,还是想看一级聚簇或二级聚簇的数据,或是利用层次关系一步步地向下深入访问到各个级别中去。层次结构概念是向上汇总和向下钻取两个操作的基础。
图 6.6 界面设计图1) 搜索选项区:提供界面方便用户输入关键词、选择排序方式以及选择结果集合个数。用户可根据需要控制搜索结果的相关性和集合大小;2) 分析选项区:提供界面供用户选择时间粒度(选项包括年、月、日),空间粒度(选项包括国家、地区、省市),聚簇深度,方便用户对多维数据的粒度进行控制;3) 搜索结果区:这是系统接受了查询请求,经过关键词解析、计算相关度、网页优化后的最终结果。4) 聚类树显示区:这是系统接受用户请求,对搜索得到的结果集合进行聚类处理后形成的分层聚类树。5) 分析结果区:在用户提交分析选择后,系统会根据数据库中的多粒度数据调用水晶报表形成分析结果提交给用户,同时水晶报表还会提供导出 Excel 表的功能,用户可存储分析结果。
图 6.7 趋势分析图水晶报表生成的趋势分析图,横坐标是以日期为度量值,纵坐标是网页出现数目,不同的颜色表示不同层次聚类簇的网页数,从报表结果可以看出一段时期内某方面内容的网页出现的日分布规律。6.5 本章小结本章主要介绍了目前已经设计实现的情报系统,从数据库系统设计、从数据库系统设计、软件系统设计、人机查询界面设计三部分介绍。总体上,实现了基于网页摘要分析的关键词信息检索、基于元搜索结果和 K-means 与 BIRCH 算法结合算法的聚类分析,以及基于 ROLAM 的多维分析,这是设计功能比较全面的情报系统。
【参考文献】
相关期刊论文 前5条
1 袁虹,何厚存;联机分析及数据仓库的建模技术[J];计算机应用研究;1999年12期
2 黄若波,左春,孙玉芳;基于Web环境下的OLAP技术的研究和实现[J];计算机工程;2000年10期
3 符绍宏,黄];搜索引擎技术与服务的研究及其启示[J];情报学报;2000年06期
4 王连军;Web文本挖掘浅析[J];现代图书情报技术;2002年06期
5 张卫丰,徐宝文,周晓宇,管宇,许蕾;基于遗传算法的搜索引擎调度[J];微电子学与计算机;2001年04期
相关博士学位论文 前1条
1 曹蓟光;联机分析挖掘处理技术(OLAM)的研究[D];浙江大学;2001年
相关硕士学位论文 前1条
1 陈伟雄;基于元搜索的中文搜索引擎研究与实现[D];清华大学;2004年
本文编号:2755525
本文链接:https://www.wllwen.com/tushudanganlunwen/2755525.html
教材专著