基于数据挖掘的主题种子站点提取器的研究
本文关键词: Web信息检索 数据挖掘 主题搜索 出处:《软件》2013年02期 论文类型:期刊论文
【摘要】:近年来,主题搜索引擎由于其在主题上的高相关性,使搜索结果的查准率得到了极大的提高,然而由于受到主题爬虫的限制,可选的种子站点的有效数量较少,使得搜索反馈的结果的数量不够多,直接影响到了搜索引擎的查全率。本文为解决这个问题,结合元搜索引擎的优势,提出一种通过多搜索引擎来为主题爬虫提供种子站点的方法,并通过计算相关度,更有效地去除噪音链接,使得种子站点的相关性得到保障,最后通过Nutch1.2的主题爬虫功能,验证了本种子站点提取器能够高效地获得大量相关度较高的种子站点。
[Abstract]:In recent years, due to its high relevance in the topic, the search results accuracy rate has been greatly improved, but due to the constraints of the topic crawler, the number of alternative seed sites is relatively small. So that the number of search feedback results is not enough, which directly affects the recall of search engines. In order to solve this problem, this paper combines the advantages of meta search engines. This paper proposes a method of providing seed sites for topic crawlers through multi-search engines. By calculating the correlation degree, noise links are removed more effectively, so that the correlation of seed sites is guaranteed. Finally, through the theme crawler function of Nutch1.2, it is proved that the seed site extractor can efficiently obtain a large number of high correlation seed sites.
【作者单位】: 华北电力大学控制与计算机工程学院;
【分类号】:TP311.13
【正文快照】: 1引言1.1主题搜索引擎随着搜索引擎在网络应用中的地位越来越重,用户对于主题搜索的相关度要求也越来越高,而主题搜索引擎无疑在主题相关度上比起一般关键字检索有着更大的优势,目前世界几大通用搜索引擎也都不约而同地提供了主题检索的服务,如Google提供的学术主题检索,图片
【相似文献】
相关期刊论文 前10条
1 胡剑,陈学广,费奇,汪建平;数据挖掘及其在 SXWG_EIS 中的应用[J];华中理工大学学报;1998年09期
2 周锦华,颜文耀,周少华;数据挖掘系统的一种实现策略[J];广东水利水电;1998年01期
3 郑宏珍,柳明欣;数据挖掘及其工具的选择[J];计算机应用;1999年S1期
4 ;“挖掘”不止[J];互联网周刊;1999年18期
5 张新光,王建华;数据仓库信息处理技术研究[J];齐齐哈尔大学学报;2000年03期
6 李继晔 ,邵华;从数据挖掘到知识发现[J];软件工程师;2000年07期
7 朱亦斌,马亮;数据挖掘关联规则算法探讨[J];教育信息化;2000年03期
8 任其昌,袁友伟;数据挖掘在包装产品网络营销中的应用[J];包装工程;2001年03期
9 熊和金;数据挖掘的模糊统计法及其在交通流中的应用[J];武汉理工大学学报(交通科学与工程版);2001年04期
10 牛纪海,徐济仁,卢业华,陈家松;数据挖掘及其在通信侦察信号处理中的应用[J];电子工程师;2001年11期
相关会议论文 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
5 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
6 周红梅;薛青;;数据挖掘技术及其在装备作战仿真系统中的应用[A];第五届全国仿真器学术会论文集[C];2004年
7 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
8 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
9 张荣祖;朱扬勇;;一个可视化数据挖掘系统中的数据预处理技术[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 曹波伟;薛青;郑长伟;于屏岗;陈辰;;基于数据挖掘的装备维修管理智能分析模型研究[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
相关重要报纸文章 前10条
1 张立明;数据挖掘之道[N];网络世界;2003年
2 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
3 谢立宏博士;企业的“黄金眼”数据挖掘决策支持[N];中国计算机报;2002年
4 吴勇毅;危机下,,数据挖掘与提供信息决策是关健[N];中国冶金报;2009年
5 创智集团副总裁 胡乐群博士;数据挖掘在CRM中的应用[N];中国计算机报;2002年
6 国能科诺赛仕企业数据挖掘实验室 赵纪元;挖掘数据中的“宝藏”[N];中国计算机报;2001年
7 易明;XML促进Web数据挖掘[N];通信产业报;2007年
8 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
9 赵新生;数据挖掘与水文现代化建设[N];黄河报;2005年
10 电脑商报记者 谢涛;数据挖掘:未来政府信息化的重要环节[N];电脑商报;2007年
相关博士学位论文 前10条
1 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
2 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
3 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
4 许兆新;基于元知识的数据挖掘系统研究[D];哈尔滨工程大学;2003年
5 苏健;基于粗糙集的数据挖掘与决策支持方法研究[D];浙江大学;2002年
6 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
7 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
8 宋杰;生物信息数据挖掘中的若干方法及其应用研究[D];大连理工大学;2005年
9 张英;基于支持向量机的过程工业数据挖掘技术研究[D];浙江大学;2005年
10 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
相关硕士学位论文 前10条
1 马丽娜;基于Web的数据挖掘技术研究[D];山东师范大学;2002年
2 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
3 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
4 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
5 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
6 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
7 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
8 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年
9 李森;基于数据挖掘的旅游电子商务系统研究与实现[D];电子科技大学;2011年
10 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
本文编号:1471503
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1471503.html