基于标签路径特征融合的在线Web新闻内容抽取
本文关键词:基于标签路径特征融合的在线Web新闻内容抽取 出处:《软件学报》2016年03期 论文类型:期刊论文
更多相关文章: 内容抽取 Web新闻 标签路径特征 组合特征选择 特征融合
【摘要】:精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法.
[Abstract]:Precisely extracting the content of news pages is one of the key technologies to improve the quality of Web news analysis and other application systems. Due to the lack of Web publication standards, there are a large number of different publishing formats. And Web itself is a highly heterogeneous big data carrier, leading to Web news content extraction into an open problem. There is a potential correlation between the content of the news page and the tagging path on it. Therefore, a label path feature system is designed to distinguish the content and noise from different perspectives. Based on the similarity analysis of features. This paper proposes a feature fusion strategy based on combined feature selection, and designs a Web news content extraction method, CEPF.CEPF, which is a fast and universal method. The online Web news content extraction algorithm without training can extract a variety of sources and styles. The experimental results on the test data set of Clean Eval show that the proposed method is superior to the CETR extraction method.
【作者单位】: 合肥工业大学计算机与信息学院;Department
【基金】:国家自然科学基金(61273297,61229301,61273292) 教育部创新团队发展计划(IRT13059) 国家重点基础研究发展计划(973)(2013CB329604) 国家高技术研究发展计划(863)(2012AA011005)~~
【分类号】:TP391.1
【正文快照】: 互联网是大数据的一个重要载体.《2013互联网趋势报告》(2013 Internet trends)(http://www.kpcb.com/insights/2013-internet-trends)指出,互联网用户数量激增,2012年,全球互联网用户达24亿,同比增长8%.《2014互联网趋势报告》(2014 Internet trends)(http://www.kpcb.com/in
【共引文献】
相关期刊论文 前2条
1 王军;;Web信息抽取技术简述[J];河南科技;2013年19期
2 章武媚;;基于RESTful Web技术的资源管理系统设计与实现[J];计算机应用与软件;2014年05期
相关博士学位论文 前2条
1 程文娟;基于文本挖掘的定向性信息分析研究[D];合肥工业大学;2012年
2 吴共庆;基于标签路径特征的Web新闻内容抽取研究[D];合肥工业大学;2012年
相关硕士学位论文 前10条
1 周林云;Web信息采集系统设计与实现[D];西南交通大学;2013年
2 王楠;基于标点符号统计特征的中文类型网页正文抽取[D];湘潭大学;2012年
3 黄锦捷;基于Solr的企业级检索系统的设计与实现[D];华南理工大学;2013年
4 杜宝瑞;基于Hadoop的OA期刊论文资源发现及采集方法[D];燕山大学;2013年
5 王超;基于本体的旱区农业垂直搜索引擎研究[D];西北农林科技大学;2013年
6 肖红;农业科技信息服务个性化推送模型与系统[D];西北农林科技大学;2013年
7 丁乔毅;Web信息抽取系统的设计与实现[D];哈尔滨工业大学;2012年
8 郑邦习;基于XML的Web信息抽取技术研究[D];大连交通大学;2013年
9 杨帆;基于树自动机的Web信息抽取[D];华东交通大学;2013年
10 李文圃;Web信息抽取算法研究及其农业应用[D];湖南农业大学;2013年
【相似文献】
相关期刊论文 前10条
1 周斌;林喜荣;贾惠波;周永冠;;量化层多生物特征融合的最佳权值[J];清华大学学报(自然科学版);2008年02期
2 丁宝亮;;基于局部特征融合的人脸识别研究[J];中国新技术新产品;2012年14期
3 刘增荣;余雪丽;李志;;基于特征融合的图像情感语义识别研究[J];太原理工大学学报;2012年05期
4 黄双萍;俞龙;卫晓欣;;一种异质特征融合分类算法[J];电子技术与软件工程;2013年02期
5 刘冰;罗熊;刘华平;孙富春;;光学与深度特征融合在机器人场景定位中的应用[J];东南大学学报(自然科学版);2013年S1期
6 卞志国;金立左;费树岷;;特征融合与视觉目标跟踪[J];计算机应用研究;2010年04期
7 韩萍;徐建龙;吴仁彪;;一种新的目标跟踪特征融合方法[J];中国民航大学学报;2010年04期
8 何贤江;何维维;左航;;一种句词五特征融合模型的复述研究[J];四川大学学报(工程科学版);2012年06期
9 刘冬梅;;基于特征融合的人脸识别[J];计算机光盘软件与应用;2013年12期
10 李建科;张辉;赵保军;张长水;;彩色分量流形特征融合的人脸识别[J];北京理工大学学报;2014年05期
相关会议论文 前7条
1 刘冰;罗熊;刘华平;孙富春;;光学与深度特征融合在机器人场景定位中的应用[A];2013年中国智能自动化学术会议论文集(第三分册)[C];2013年
2 翟懿奎;甘俊英;曾军英;;基于特征融合与支持向量机的伪装人脸识别[A];第六届全国信号和智能信息处理与应用学术会议论文集[C];2012年
3 卞志国;金立左;费树岷;;基于增量判别分析的特征融合与视觉目标跟踪[A];2009年中国智能自动化会议论文集(第三分册)[C];2009年
4 韩文静;李海峰;韩纪庆;;基于长短时特征融合的语音情感识别方法研究[A];第九届全国人机语音通讯学术会议论文集[C];2007年
5 罗昕炜;方世良;;宽带调制信号特征融合方法[A];中国声学学会水声学分会2013年全国水声学学术会议论文集[C];2013年
6 金挺;周付根;白相志;;一种简单有效的特征融合粒子滤波跟踪算法[A];2007年光电探测与制导技术的发展与应用研讨会论文集[C];2007年
7 孟凡洁;孔祥维;尤新刚;;基于特征融合的相机来源认证方法[A];全国第一届信号处理学术会议暨中国高科技产业化研究会信号处理分会筹备工作委员会第三次工作会议专刊[C];2007年
相关博士学位论文 前10条
1 周斌;多生物特征融合理论的研究与实验[D];清华大学;2007年
2 彭伟民;特征数据的量子表示与融合方法[D];华南理工大学;2013年
3 陈倩;多生物特征融合身份识别研究[D];浙江大学;2007年
4 蒲晓蓉;多模态生物特征融合的神经网络方法[D];电子科技大学;2007年
5 王志芳;基于感知信息的多模态生物特征融合技术研究[D];哈尔滨工业大学;2009年
6 王楠;基于多视觉特征融合的后方车辆检测技术研究[D];东北大学 ;2009年
7 徐颖;基于特征融合与仿生模式的生物特征识别研究[D];华南理工大学;2013年
8 樊国梁;基于多类特征融合的蛋白质亚线粒体定位预测研究[D];内蒙古大学;2013年
9 刘金梅;多源遥感影像融合及其应用研究[D];中国海洋大学;2014年
10 张艳;基于柔性阵列 传感器的足迹特征分析与应用研究[D];安徽大学;2015年
相关硕士学位论文 前10条
1 付艳红;基于特征融合的人脸识别算法研究与实现[D];天津理工大学;2015年
2 许超;基于特征融合与压缩感知的实木地板缺陷检测方法研究[D];东北林业大学;2015年
3 杨文婷;基于微博的情感分析算法研究与实现[D];西南交通大学;2015年
4 梅尚健;基于特征融合的图像检索研究与实现[D];西南交通大学;2015年
5 王鹏飞;基于多慢特征融合的人体行为识别研究[D];西南大学;2015年
6 丁倩;基于语音信息的多特征情绪识别算法研究[D];山东大学;2015年
7 薛冰霞;基于多模特征融合的人体跌倒检测算法研究[D];山东大学;2015年
8 何乐乐;医学图像分类中的特征融合与特征学习研究[D];电子科技大学;2015年
9 戴博;基于结构复杂度特征融合的视觉注意模型研究及其应用[D];复旦大学;2014年
10 王宁;基于特征融合的人脸识别算法[D];东北大学;2013年
,本文编号:1395715
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1395715.html