基于SVM预测的金融主题爬虫
本文选题:主题爬虫 + 分类器 ; 参考:《四川大学学报(自然科学版)》2010年03期
【摘要】:随着Internet上信息的爆炸,利用通用搜索引擎检索用户相关的信息变得越来越困难,而主题爬虫成为WEB上检索主题相关信息的重要工具.目前大部分基于分类器预测的主题爬虫的训练数据是不同类别网页的内容,但是在实际预测过程只能根据父网页中的一些链接信息进行预测,所以造成主题爬虫的预测的准确率较低.本文使用SVM分类器对标注了类别的URL以及上下文和锚文本进行训练,并分别使用了DF和信息增益两种不同的特征选择方法进行特征筛选,对影响分类器的各种因素进行了实验对比,并对分类器进行了在线的实验.实验证明这种方法在实际预测过程中效率很高.
[Abstract]:With the explosion of information on Internet, it is becoming more and more difficult to retrieve user related information by using general search engine, and topic crawler has become an important tool for retrieving theme-related information on WEB. At present, most of the training data of topic crawler based on classifier are the content of different kinds of web pages, but in the actual prediction process, only some link information in the parent page can be used to predict. Therefore, the prediction accuracy of the subject reptiles is low. In this paper, SVM classifier is used to train URL, context and anchor text, and two different feature selection methods, DF and information gain, are used for feature selection. The factors affecting the classifier are compared, and the online experiment of classifier is carried out. Experiments show that this method is very efficient in the process of actual prediction.
【作者单位】: 四川大学计算机学院;
【基金】:四川省科技厅公益性研究计划项目(2008SZ0049)
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 徐丹;徐明;左欣;;集成SVM在微阵列数据分析中的应用[J];计算机与现代化;2011年05期
2 接标,刘冠晓,冯乔生;统计模式识别的研究[J];云南师范大学学报(自然科学版);2005年06期
3 黄金杰;常英丽;李阳锋;;基于均匀设计的特征选择方法[J];哈尔滨理工大学学报;2008年01期
4 简清明;曾黄麟;叶晓彤;;粗糙集特征选择和支持向量机在入侵检测系统中的应用[J];四川理工学院学报(自然科学版);2009年05期
5 郭璇;杨晓元;;一种综合使用支持向量机和遗传算法的隐藏图像检测方法[J];武警工程学院学报;2009年04期
6 潘崇;朱红斌;;基于自适应特征选择和SVM的图像分类的研究[J];计算机应用与软件;2010年01期
7 赵倩,胡越黎,曹家麟;皮肤显微图像自动识别系统的研究[J];计算机工程与应用;2005年24期
8 任江涛;赵少东;许盛灿;印鉴;;基于二进制PSO算法的特征选择及SVM参数同步优化[J];计算机科学;2007年06期
9 吴建斌;李太全;田茂;;改进的遗传算法在白细胞识别中的应用研究[J];计算机工程与应用;2007年27期
10 张元;陈亮;王文种;王军战;;遥感图像土地覆盖分类中多源特征数据选择研究[J];测绘科学;2009年02期
相关会议论文 前10条
1 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
2 李占潮;陈超;周喜斌;邹小勇;;基于遗传算法和支持向量机预测蛋白质结构类[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
3 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
4 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
5 张国荣;;基于SVM分类算法的电力变压器故障诊断[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
6 王颖;毋立芳;关媛;王涓涓;;基于LBP的SVM人脸姿势估计方法[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
7 龚妙昆;万福永;许建强;袁震东;;心电图小波压缩特征提取及SVM分类分析[A];2005中国控制与决策学术年会论文集(下)[C];2005年
8 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
9 李烨;蔡云泽;李远贵;张强;;基于属性约简与依赖度分析改进支持向量机性能[A];第二十三届中国控制会议论文集(下册)[C];2004年
10 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
相关重要报纸文章 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 周晓娟;TD已过分水岭[N];通信产业报;2008年
3 记者 姜晓凌 见习记者 王毅俊;原来,,科技也能如此美丽[N];上海科技报;2007年
4 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
5 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
6 天相投顾 闻群邋王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
7 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
8 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
9 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
10 海通证券 娄静邋吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
相关博士学位论文 前10条
1 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
2 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
3 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
4 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
5 陈万海;基于支持向量机的超谱图像分类技术研究[D];哈尔滨工程大学;2008年
6 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
7 张永;基于模糊支持向量机的多类分类算法研究[D];大连理工大学;2008年
8 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
9 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
10 田江;基于支持向量机的孤立点检测方法研究[D];大连理工大学;2009年
相关硕士学位论文 前10条
1 张洪军;基于SVM的电子邮件分类系统研究[D];山东师范大学;2007年
2 宋羚;基于多目标遗传算法和SVM的特征选择方法[D];华中科技大学;2007年
3 高永岗;医学图像的语义标注技术研究与应用[D];西北大学;2009年
4 杨霞;基于SVM和D-S理论的垃圾邮件过滤研究[D];江苏大学;2008年
5 王燕;语音隐写分析技术研究[D];华北电力大学(河北);2009年
6 詹超;支持向量机在基因表达数据分类中的研究[D];武汉理工大学;2006年
7 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
8 付建文;小波域语音隐藏信息检测方法研究[D];华北电力大学(河北);2008年
9 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
10 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
本文编号:1911929
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1911929.html