基于SVM的主题爬虫技术研究
本文关键词:基于SVM的主题爬虫技术研究
【摘要】:随着互联网的快速发展,网络信息呈现海量和多元化的趋势。如何为互联网用户快速、准确地提取其所需信息,已成为搜索引擎面临的首要问题。传统的通用搜索引擎虽然能够在较大的信息范围内获取目标,但在某些特定领域无法给用户提供专业而深入的信息。提出基于SVM分类的主题爬虫技术,其将基于文字内容和部分链接信息的主题相关度预测算法、SVM分类算法和HITS算法相结合,解决了特定信息检索的难题。实验结果表明,使用基于SVM分类算法的爬取策略,能够较好地区分主题相关网页和不相关网页,提高了主题相关网页的收获率和召回率,进而提高了搜索引擎的检索效率。
【作者单位】: 军工保密资格审查认证中心实验室;哈尔滨工程大学计算机科学与技术学院;
【关键词】: SVM 主题爬虫 爬取策略 HITS
【分类号】:TP391.3;TP393.092
【正文快照】: 到稿日期:2014-03-03返修日期:2014-05-251引言随着互联网的迅速发展和日益普及,网络信息平台所能提供的内容越发丰富多彩,用户在搜索所需信息时面临搜索难度增加及信息筛选所需消耗的大量时间和精力[1]也随之而来。搜索引擎的出现解决了海量信息检索的难题[2]。搜索引擎通过
【参考文献】
中国期刊全文数据库 前6条
1 李稚楹;杨武;谢治军;;PageRank算法研究综述[J];计算机科学;2011年S1期
2 黄仁;王良伟;;基于主题相关概念和网页分块的主题爬虫研究[J];计算机应用研究;2013年08期
3 张宪超;徐雯;高亮;梁文新;;一种结合文本和链接分析的局部Web社区识别技术[J];计算机研究与发展;2012年11期
4 蒋华荣;郁雪;;应用遗传算法优化子空间的SVM分类算法[J];计算机科学;2013年11期
5 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式Web爬虫[J];软件学报;2010年05期
6 张伟哲;张宏莉;许笑;何慧;;分布式搜索引擎系统效能建模与评价[J];软件学报;2012年02期
【共引文献】
中国期刊全文数据库 前10条
1 于海宁;张宏莉;方滨兴;余翔湛;;物联网中物理实体搜索服务的研究[J];电信科学;2012年10期
2 陶林;谌超;强保华;王勇;;基于Hadoop的Nutch网页排序算法研究与实现[J];桂林电子科技大学学报;2013年02期
3 李更生;卢罡;;基于时间反馈和分类技术的PageRank改进算法[J];北京化工大学学报(自然科学版);2013年S1期
4 陈平华;周鹏;;一种应用于噪声点分布密集环境下的噪声点识别算法[J];广东工业大学学报;2014年03期
5 庞红美;刘宏志;;基于PageRank算法的信息工程安全监理风险评估研究[J];计算机安全;2014年08期
6 方树峰;;基于用户反馈的PageRank改进算法[J];计算技术与自动化;2012年01期
7 吴陈鹤;杜友田;苏畅;;有限节点驱动的微博社会网络话题推荐方法[J];计算机工程与应用;2013年15期
8 罗文超;刘国栋;杨海燕;;SIFT和改进的RANSAC算法在图像配准中的应用[J];计算机工程与应用;2013年15期
9 王丽娟;郝志峰;蔡瑞初;温雯;;基于实数值链接分析的ESSC融合算法[J];计算机应用研究;2014年05期
10 黄志敏;曾学文;陈君;;一种基于Kademlia的全分布式爬虫集群方法[J];计算机科学;2014年03期
中国重要会议论文全文数据库 前3条
1 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年
2 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年
3 杨震;殷俊;;移动互联网环境下适合运营商网络基础能力的搜索引擎设计研究[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年
中国博士学位论文全文数据库 前3条
1 李春山;面向社会化媒体内容的若干聚类算法研究[D];哈尔滨工业大学;2014年
2 赵学华;统计网络模型若干关键问题研究[D];吉林大学;2014年
3 黄炜;电子商务环境下商品信息检索的若干问题研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
2 何忠育;分布式社会网络分析支撑系统研究与应用[D];广东工业大学;2011年
3 李锐鑫;Web视频资源的智能发现关键技术研究[D];哈尔滨工业大学;2010年
4 詹恒飞;分布式图片搜索引擎设计与实现[D];国防科学技术大学;2010年
5 陈浩;网络信息采集技术及中文未登录词算法研究[D];北京邮电大学;2012年
6 马晶;面向P2P网络的分布式Web Crawler的研究[D];东北大学;2010年
7 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
8 李稚楹;基于网页内容和时间反馈的网页排序PageRank算法研究[D];重庆理工大学;2012年
9 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年
10 张秋萍;假冒网站监测管理技术研究[D];广东工业大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
2 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
3 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期
4 翟俊海;李胜杰;王熙照;;基于粗糙集技术的压缩近邻规则[J];计算机科学;2012年02期
5 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
6 周晓飞;姜文瀚;杨静宇;;基于子空间样本选择的最近凸包分类器[J];计算机工程;2008年12期
7 姜文瀚;周晓飞;杨静宇;;核子类凸包样本选择方法及其SVM应用[J];计算机工程;2008年16期
8 王德广;周志刚;梁旭;;PageRank算法的分析及其改进[J];计算机工程;2010年22期
9 蒋宗礼;徐学可;李帅;;一种基于超链接引导的主题搜索的主题敏感爬行方法[J];计算机应用;2008年04期
10 熊忠阳;史艳;张玉芳;;基于维基百科和网页分块的主题爬行策略[J];计算机应用;2011年12期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 孙贺全;彭勤科;张全伟;;基于序列模式特征和SVM的剪切位点预测[J];计算机工程;2009年05期
2 邓森;杨军锋;郭明威;郭创;;基于模糊SVM和虚拟仪器的模拟电路故障诊断研究[J];计算机测量与控制;2011年04期
3 郭有贵;曾萍;朱建林;;交-交矩阵变换器SVM的新颖调制模式(英文)[J];系统仿真学报;2009年22期
4 吴学文;索丽生;王志坚;;基于SVM的入库径流混沌时间序列预测模型及应用[J];系统仿真学报;2011年11期
5 程博,吴国平;基于SVM的脱机手写汉字识别[J];现代计算机;2005年09期
6 钟明霞;;基于神经网络和SVM的微钙化簇分类方法[J];计算机时代;2008年05期
7 宋国明;王厚军;姜书艳;刘红;;一种聚类分层决策的SVM模拟电路故障诊断方法[J];仪器仪表学报;2010年05期
8 张淑雅;赵一鸣;李均利;;基于SVM的图像分类算法与实现[J];计算机工程与应用;2007年25期
9 宋国明;王厚军;刘红;姜书艳;;基于提升小波变换和SVM的模拟电路故障诊断[J];电子测量与仪器学报;2010年01期
10 王志明,蒋加伏,唐贤瑛;基于SVM的小波图像去噪[J];湖南科技学院学报;2005年05期
中国重要会议论文全文数据库 前10条
1 滕卫平;胡波;滕舟;钟元;;SVM回归法在西太平洋热带气旋路径预报中的应用研究[A];S1 灾害天气研究与预报[C];2012年
2 王红军;徐小力;付瑶;;基于SVM的旋转机械故障诊断知识获取[A];第八届全国设备与维修工程学术会议、第十三届全国设备监测与诊断学术会议论文集[C];2008年
3 陈兆基;杨宏晖;杜方键;;用于水下目标识别的选择性SVM集成算法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
4 程丽丽;张健沛;杨静;马骏;;一种改进的层次SVM多类分类方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 宁伟;苗雪雷;胡永华;季铎;张桂平;蔡东风;;基于SVM的无参考译文的译文质量评测[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
7 刘旭;罗鹏飞;李纲;;基于拟合角特征及SVM的雷达辐射源个体识别[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
8 罗浩;谢军龙;胡云鹏;;地源热泵空调系统故障诊断中SVM的应用[A];全国暖通空调制冷2008年学术年会资料集[C];2008年
9 刘闪电;王建东;;权重部分更新的大规模线性SVM求解器[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 王舰;汤光明;;基于SVM的图像隐写检测分析[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国硕士学位论文全文数据库 前10条
1 张汉女;基于SVM的海岸线提取方法研究[D];东北师范大学;2010年
2 刘军;基于SVM的半监督网络入侵检测系统[D];复旦大学;2009年
3 张永俊;基于SVM的增量入侵检测方法研究[D];西安科技大学;2013年
4 田幂;基于概率SVM的肿瘤预警系统的设计与实现[D];吉林大学;2013年
5 王硕;基于广义S变换和SVM的电压暂降检测与识别方法研究[D];燕山大学;2013年
6 杨涛;基于SVM的中国医药制造企业财务危机预警研究[D];厦门大学;2009年
7 周洪利;基于SVM的网络信息过滤研究[D];山东师范大学;2008年
8 齐振东;基于SVM的地基土承载力预测[D];吉林大学;2008年
9 任琼;基于SVM的余杭生态公益林类型的遥感分类研究[D];南京林业大学;2008年
10 杨洋;基于SVM的印刷品缺陷在线检测[D];华中科技大学;2012年
,本文编号:614928
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/614928.html