一种基于相似度值的向量空间投影HITS算法
本文关键词:基于Web挖掘的智能门户搜索引擎的研究,,由笔耕文化传播整理发布。
《重庆交通大学》 2010年
一种基于相似度值的向量空间投影HITS算法
刘迪慧
【摘要】: 互联网是现代社会人们交流信息、共享资源的主要途径。作为搜索信息的重要平台,互联网所具有的海量数据、异构性、半结构性、极强的动态性、用户多样性等特点却给Web资源的挖掘带来了相当大的难度。传统的数据挖掘技术已不适用于日新月异的互联网,Web数据挖掘技术应运而生。 搜索引擎是人们查找网络信息的重要工具,它应用Web数据挖掘技术,可以帮助人们获取到需求的信息。目前有多种搜索引擎算法,但是大多数算法是对Web页面的文本内容进行挖掘,检索结果集过于庞大,用户难以快速地获取到自己所需求的信息,这是困扰人们高效利用信息资源的一项急待解决的难题。 近几年,超链接分析的引入和应用为解决这项难题提供了一条崭新的思路,因为互联网链接结构包含了大量潜在的推荐规律,根据这些规律能够推断出许多Web文档内容所不包含的资源,Web结构挖掘成为了Web数据挖掘的一个重要研究方向。HITS(Hyperlink Induced Topic Search)算法正是在传统搜索引擎查询结果的基础上分析链接结构,对Web数据进行挖掘。 本文主要是关于HITS算法的研究,此算法是一种应用较为广泛的Web结构挖掘算法,主要应用在搜索引擎的Web页面结果集排序中。本文首先介绍了Web数据挖掘及其分类,对于其重点研究方向——Web结构挖掘的典型算法进行了归纳,然后深入研究了HITS算法,并对其原理进行了详细地描述。在对HITS算法及其改进算法进行深入研究的基础上,本文提出了一种基于相似度值的向量空间投影HITS改进算法,在传统HITS算法的基础上作出了以下三个方面的改进: 1)精简基集。传统HITS算法在根集扩展为基集阶段引入了大量页面,但是其中包含大量同域内的Web页面和广告链接,它们之间的超链接一般仅用于导航目的,不具备参考价值。本文改进的HITS算法对基集进行精简,对同域内的Web页面和无关页面进行判断,予以删除,大大节约了算法的运算开销; 2)获取搜索引擎返回的相似度值。考虑到传统搜索引擎爬取Web页面后将文本内容和查询主题表示成词条特征向量,然后通过计算向量的点积来获得两者的相似度值,并随着结果集同时返回给用户,因此采用这些易获取的相似度值来计算超链接与用户查询主题的相关性,不仅可以提高算法区分链接重要性的能力,同时还避免了重复对页面文本内容进行分析,节省了系统开销。 3)基于相似度值的空间向量投影方法。将每一特征向量在权威性高的基于相似度值的子空间上进行投影,返回的页面结果集与相似度值高的页面集链接最为密切,在不增加计算开销的前提下有效地抑制了HITS算法的主题漂移现象。 本文还设计了实验系统用于验证基于相似度值的向量空间投影HITS算法的可行性和有效性。实验结果表明:本文提出的HITS改进算法在运算开销、权威页面主题相关性以及中心页面主题相关性等方面明显优于传统HITS算法,并且可以有效地抑制主题偏移现象,使得用户查询质量得到了明显的提高。
【关键词】:
【学位授予单位】:重庆交通大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 侯桂云;陈晓辉;;Web数据挖掘中数据收集方法的研究[J];大众科技;2007年06期
2 杜朋朋;;基于数据仓库与数据挖掘的应用研究[J];电子商务;2008年04期
3 何志敏;;浅谈数据挖掘与数据仓库[J];贵阳学院学报(自然科学版);2008年03期
4 陈晓金;王兵;;基于Web数据挖掘的信息处理技术研究[J];甘肃科技;2008年07期
5 李岩,陈新中,杨炳儒;基于Web挖掘的智能门户搜索引擎的研究[J];计算机工程与应用;2002年04期
6 刘馨月;赵明砚;张宪超;刘芳芳;;基于最大流HITS的改进算法[J];计算机工程与应用;2008年17期
7 胡军涛,武德峰,李国辉,甘亚莉;多媒体数据挖掘的体系结构和方法[J];计算机工程;2003年09期
8 刘飞;高红艳;;基于数据挖掘的Web信息检索的研究[J];江西科学;2008年02期
9 刘朋;林泓;高德威;;基于内容和链接分析的主题爬虫策略[J];计算机与数字工程;2009年01期
10 郑煜;钱榕;;一个基于链接分析的相关度排序算法及其在专题搜索引擎中应用[J];计算机应用与软件;2007年07期
中国硕士学位论文全文数据库 前3条
1 江裕民;基于超链接的WEB结构挖掘算法的研究[D];西安电子科技大学;2006年
2 夏斌;Web结构挖掘中HITS算法的优化与实现[D];河南大学;2007年
3 杨春伟;Web挖掘及其在网络搜索引擎中的应用研究[D];中国石油大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期
2 陈蓉芳;郑晓波;王占朝;王海滨;董秀成;;基于“会诊式”推理控制策略的智能型搜索引擎的研究[J];安装;2007年01期
3 刘建粉,张睿哲,张俊峰;XML与数据集成技术浅析[J];平顶山工学院学报;2003年02期
4 李艳玲;戴冠中;覃森;;快速的文本倾向性分类方法(英文)[J];电子科技大学学报;2007年06期
5 杜云艳;王丽敬;季民;曹峰;;土地利用变化预测的案例推理方法[J];地理学报;2009年12期
6 刘成亮;韩海伟;;知识库系统的原理及其在智能搜索引擎中的应用[J];电脑知识与技术;2008年08期
7 叶琳莉;林嵩凯;;基于Web结构挖掘算法的网站构建[J];电脑知识与技术;2008年34期
8 胡风华;刘冰;;基于知识库系统的智能搜索引擎研究[J];电脑知识与技术;2009年11期
9 冯姝雯;战莹;李一为;;企业信息门户搜索引擎技术的研究[J];电脑知识与技术;2011年31期
10 刘祥楼;张淼;刘得军;姜继玉;;基于支持向量机的文本分类方法[J];大庆石油学院学报;2008年02期
中国重要会议论文全文数据库 前4条
1 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
2 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
3 孙丽华;肖诗斌;施水才;;基于向量空间模型的规则分类技术[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前6条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 张英朝;基于全局视图的虚拟组织信息共享方法与应用研究[D];国防科学技术大学;2004年
3 谢铉洋;SARS医学图像识别与辅助诊断研究[D];中国科学技术大学;2006年
4 付畅俭;基于内容的视频结构挖掘方法研究[D];国防科学技术大学;2008年
5 孙涛;面向半结构化数据的数据模型和数据挖掘方法研究[D];吉林大学;2010年
6 徐新文;基于内容的新闻视频挖掘方法研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
4 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
5 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
6 龚健;数据挖掘技术在农业信息服务中的应用研究[D];安徽农业大学;2010年
7 陈凤萍;寿光人才求职招聘网站中资源检索算法的研究[D];中国海洋大学;2010年
8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
9 费洪刚;个性化网站的研究与应用[D];长春工业大学;2010年
10 张方;网络环境下个性化信息资源服务研究[D];南昌大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 宋伟,王举成,马根峰,赵济林;Internet数据挖掘原理及实现[J];重庆邮电学院学报(自然科学版);2001年02期
2 周琪锋;;基于Web的数据挖掘技术的研究[J];电脑知识与技术(学术交流);2007年01期
3 岳清;浅析搜索引擎的原理及发展前景[J];大众科技;2005年05期
4 彭绪富,邹友宽,邓荣华;INTERNET搜索引擎探解[J];高等函授学报(自然科学版);2001年01期
5 王小玲;胡平;;基于个人兴趣和反馈技术的Page Rank算法研究[J];合肥工业大学学报(自然科学版);2006年03期
6 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
7 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
8 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
9 杨楠,弓丹志,李忺,孟小峰;Web社区发现技术综述[J];计算机研究与发展;2005年03期
10 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期
中国硕士学位论文全文数据库 前1条
1 钟敏娟;基于Web的文本信息检索算法研究[D];湖南大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 汤琳;陶宏才;;基于相似度的交叉变异算子及其在分类规则挖掘中的应用[J];成都信息工程学院学报;2007年01期
2 刘栋;刘希玉;郝婷婷;;基于PageRank和HITS的Web结构挖掘算法研究[J];山东科学;2006年04期
3 陶利民;基于树型结构的规则挖掘[J];计算机应用与软件;2005年11期
4 刘菁菁;董静;林鸿飞;叶正;;基于锚文本相似度的链接算法[J];郑州大学学报(理学版);2007年02期
5 巫满秀;;Web Structure Mining在电子商务网站中的应用[J];电脑知识与技术(学术交流);2007年05期
6 杨益凡;朱明;李华虎;;基于链接相似度Web挖掘算法的研究与改进[J];计算机应用与软件;2011年01期
7 陈学进;;网络结构挖掘算法研究[J];计算机技术与发展;2009年05期
8 何拥军;龚发根;;基于用户辅助估计的相关网页搜索聚类[J];计算机技术与发展;2011年07期
9 李广原,陆宇红;基于聚类分析的属性数据挖掘技术[J];广西师范学院学报(自然科学版);2002年03期
10 蒋盛益;阮幼林;李庆华;;面向混合属性的高效聚类算法研究[J];计算机工程;2006年12期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
4 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
5 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
6 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国重要报纸全文数据库 前10条
1 孙富春 李磊;[N];计算机世界;2001年
2 李开宇 黄建军 田长春;[N];中国国防报;2009年
3 华莱士;[N];国际金融报;2003年
4 记者 晏燕;[N];科技日报;2006年
5 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;[N];人民邮电;2006年
6 张立明;[N];网络世界;2003年
7 中圣信息技术有限公司 李辉;[N];中国计算机报;2001年
8 田红生;[N];中国经济时报;2002年
9 王广宇;[N];中国计算机报;2004年
10 周蓉蓉;[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
2 封毅;中医药知识发现可靠性研究[D];浙江大学;2008年
3 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
4 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
5 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
6 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
7 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
8 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
9 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
10 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘迪慧;一种基于相似度值的向量空间投影HITS算法[D];重庆交通大学;2010年
2 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
3 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
4 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
5 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
6 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
7 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
8 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
9 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
10 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
本文关键词:基于Web挖掘的智能门户搜索引擎的研究,由笔耕文化传播整理发布。
本文编号:146588
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/146588.html