基于模糊SVDD监督的PageRank主题爬虫算法
本文关键词:基于模糊SVDD监督的PageRank主题爬虫算法
【摘要】:主题爬虫是收集特定领域资源的网络爬虫。为了保证主题爬虫的查准率,提出一种基于模糊SVDD(support vector domain description)监督的PageRank爬虫算法,既考虑网页间的链接关系,又使用合适的分类器监督来保证爬虫与主题不偏离。通过与关键词匹配主题爬虫、shark-search主题爬虫、PageRank主题爬虫、基于SVM预测的主题爬虫、普通SVDD指导的主题爬虫进行试验对比,验证了该算法具有更高的查准率。
【作者单位】: 上海交通大学自动化系系统控制与信息处理教育部重点实验室;
【关键词】: 模糊SVDD PageRank 主题爬虫
【基金】:国家高技术研究发展计划项目(2011AA040605)
【分类号】:TP393.092;TP391.3
【正文快照】: 0引言主题搜索引擎是获取万维网中特定领域网页并提供检索的关键技术,它关注用户关心的特定领域,解决传统搜索引擎技术查准率低的问题。主题搜索爬虫按照一定的搜索策略和算法从网络上下载与主题相关网页,是主题搜索引擎的基础与核心。主题爬虫技术经过多年的发展,现存在多种
【参考文献】
中国期刊全文数据库 前3条
1 杨仁广;宋宇;孟祥增;;一种改进Shark-Search的多媒体主题搜索算法[J];计算机工程与应用;2010年14期
2 池勇敏;郝泳涛;;分布式主题爬虫的设计与实现[J];计算机应用与软件;2010年12期
3 温泉;丁祥武;;基于主题聚焦模型的PageRank改进算法[J];计算机应用与软件;2011年03期
【共引文献】
中国期刊全文数据库 前3条
1 姚瑞虹;张鹏洲;陈志国;;互联网音视频主动搜索算法效率提高的研究[J];广播与电视技术;2013年10期
2 戴上平;郑波荣;;基于Tf-Idf和网页链接的PageRank改进算法[J];计算机应用与软件;2013年05期
3 吴羽萍;杨仁广;;网络多媒体主题搜索算法比较研究[J];图书情报工作;2013年07期
中国重要会议论文全文数据库 前2条
1 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年
2 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年
中国博士学位论文全文数据库 前1条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
中国硕士学位论文全文数据库 前8条
1 陈志刚;网络Flash资源爬行器的设计与实现[D];山东师范大学;2011年
2 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
3 王桦;基于广度优先的主题爬虫的设计与实现[D];复旦大学;2011年
4 任海果;基于主题事件的舆情分析系统的设计与实现[D];北京邮电大学;2012年
5 蒋超;面向人物简介的主题爬虫设计与实现[D];吉林大学;2012年
6 张行;木材垂直搜索引擎设计与实现[D];北京林业大学;2012年
7 刘娟娟;服务爬虫引擎中服务识别与抓取功能的设计与实现[D];北京邮电大学;2013年
8 吴崇正;基于MapReduce的分布式搜索引擎研究[D];兰州理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前6条
1 吴家麒;谭永基;;PageRank算法的优化和改进[J];计算机工程与应用;2009年16期
2 钱榕;徐新华;郑莹;杨炳儒;;智能专题化信息搜集Crawler[J];计算机工程;2006年03期
3 白鹤;汤迪斌;王劲林;;分布式多主题网络爬虫系统的研究与实现[J];计算机工程;2009年19期
4 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
5 苏祺;项锟;孙斌;;基于链接聚类的Shark-Search算法[J];山东大学学报(理学版);2006年03期
6 陈军;陈竹敏;;基于网页分块的Shark-Search算法[J];山东大学学报(理学版);2007年09期
【相似文献】
中国期刊全文数据库 前10条
1 张彬;蒋涛;;链接信息在Web内容分类中的应用研究[J];计算机与数字工程;2007年10期
2 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期
3 田甜;倪林;钱功伟;;一种结合社区发现的网页排序算法[J];计算机工程与应用;2007年12期
4 张翔;周明全;李智杰;董丽丽;;基于PageRank与Bagging的主题爬虫研究[J];计算机工程与设计;2010年14期
5 蒋宗礼;徐学可;李帅;;一种基于超链接引导的主题搜索的主题敏感爬行方法[J];计算机应用;2008年04期
6 蔡建超;蔡明;;搜索引擎PageRank算法研究[J];计算机应用与软件;2008年09期
7 杨炳儒,李岩,陈新中,王霞;Web结构挖掘[J];计算机工程;2003年20期
8 付真真;陆伟;;基于关键词的搜索引擎优化策略及效果分析[J];现代图书情报技术;2009年06期
9 张亚男;王鑫;;基于内容管理的网站构建系统的研究[J];硅谷;2010年23期
10 陈谦;;PageRank算法在孤立点检测中的应用[J];微型机与应用;2010年24期
中国重要会议论文全文数据库 前10条
1 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
10 叶强;李一军;;基于支持度-显著度的关联规则分类方法研究[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 杨娟 叶传龙;网上夫妻《吵架公约》受女性青睐[N];中国妇女报;2009年
3 本报记者 聂国春;在线求医应提防网络“张悟本”[N];中国消费者报;2010年
4 本报记者 陈磊;移动搜索将怎样引领便利生活?[N];科技日报;2006年
5 本报记者 牛俊峰邋实习记者 吴昊;网络军迷:一个需要关注的特殊群体[N];中国国防报;2008年
6 本报记者 马文方;匠心在胸[N];中国计算机报;2008年
7 本报记者 许盼;把软件真正用起来[N];中国电力报;2009年
8 本报记者 胡静;中介力挺“赴港生子”套餐[N];消费日报;2010年
9 杨平;Google本地搜索:很好,,但还不够[N];中国计算机报;2005年
10 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
中国博士学位论文全文数据库 前10条
1 王U
本文编号:993821
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/993821.html