基于块密度加权标签路径特征的Web新闻在线抽取
本文关键词: 内容抽取 Web新闻 文本块密度 标签路径特征 在线算法 出处:《中国科学:信息科学》2017年08期 论文类型:期刊论文
【摘要】:Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本块密度特征能较好地识别高密度的内容块,但鲁棒性不足.因此,本文提出了一种可有效结合标签路径特征和文本块密度特征的Web信息抽取模型CEDP,结合两种特征的优点,设计了一种基于文本块密度加权的标签路径特征,并设计了基于该特征的Web新闻抽取算法CEDP-NLTD.CEDP-NLTD是一种快速的、通用的、无需训练的在线Web新闻内容抽取算法,适用于Web大数据环境下的多种来源、多种风格、多种语言的异构Web新闻网页抽取任务.在Clean Eval等测试数据集上的实验结果表明,CEDP-NLTD方法优于CETR,CETD,CEPR,CEPF等在线抽取方法,且优于基于CEDP模型直接使用CETD方法设计的3种块密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum.
[Abstract]:Web news content extraction is the basis of many "big data" and "big knowledge" applications. Label path feature and text block density feature are two kinds of excellent features to solve the problem. Label path feature can better distinguish the content and noise of the whole web page. However, it is difficult to identify the noise in the content block and the content in the noise block. The text block density feature can identify the high density content block well, but the robustness is insufficient. This paper presents a Web information extraction model which can effectively combine tag path features and text block density features, and combines the advantages of the two features. A label path feature weighted by text block density is designed, and a Web news extraction algorithm named CEDP-NLTD.CEDP-NLTD is designed based on this feature. The online Web news content extraction algorithm, which is general-purpose and untrained, is suitable for multiple sources and styles in the Web big data environment. The experiment results on Clean Eval and other test datasets show that CEDP-NLTD is superior to CET / CETD. The method of on-line extraction is superior to the algorithm CEDP-TD, which is based on the three block density features designed by using the CETD method directly based on the CEDP model. CEDP-CTD.CEDP-DSum.
【作者单位】: 合肥工业大学计算机与信息学院;
【基金】:国家重点研发计划(批准号:2016YFB1000901) 教育部创新团队发展计划(批准号:IRT13059) 国家自然科学基金(批准号:612-73297,61673152) 国家留学基金(批准号:201506695019)资助项目
【分类号】:TP391.1;TP393.09
【正文快照】: 1引言Web新闻是一种重要的互联网大数据源.根据中国互联网络信息中心(CNNIC)2016年7月发布的第38次《中国互联网络发展状况统计报告》[1],3大基础互联网应用(即时通信、搜索引擎、网络新闻)的用户规模保持稳健增长;在2015.12~2016.6期间,网络新闻在中国网民各类互联网应用中
【相似文献】
相关期刊论文 前10条
1 李广洲,丁金芳,邓海山;基于Web的化学计算机化自适应测验系统的实现[J];计算机与应用化学;2002年05期
2 赵松林;基于Web服务的企业应用集成[J];微型机与应用;2003年08期
3 宋平;;基于Web服务的企业应用集成[J];福建电脑;2007年10期
4 彭玉华;;基于Web的学生信息管理系统的设计与实现[J];民营科技;2010年09期
5 ;借会献技——国际软件博览会中心议题web计算及应用[J];每周电脑报;1997年43期
6 向剑锋;;基于Web的企业信息管理系统安全方案[J];信息与电脑(理论版);2013年11期
7 张彩虹;;分布式虚拟现实系统Web服务器的设计与实现[J];计算机光盘软件与应用;2014年05期
8 黄建德;黄其标;;基于WEB的学生信息管理系统的研究与构建[J];计算机光盘软件与应用;2014年02期
9 黄廷辉,朱英;一种基于WEB的车辆调度管理系统[J];桂林电子工业学院学报;2000年03期
10 李陶深,刘波,杨柳,严毅;基于Web的多媒体档案管理信息系统设计与实现[J];广西科学院学报;2000年S1期
相关会议论文 前10条
1 王卫;;基于Web的数据库应用[A];第十八届中国(天津)’2004IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2004年
2 张默;廖湖声;杜金莲;;基于Web服务的开放式地理信息系统的研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];第十四届中国科协年会第5分会场:绿色船舶与海洋装备创新发展及产业化论坛论文集[C];2012年
4 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];2012年MIS/S&A学术交流会议论文集[C];2012年
5 于莉莉;张毅;;基于Web的人力资源管理系统研究与设计[A];2008全国制造业信息化标准化论坛论文集[C];2008年
6 刘颖;;基于Web的学生信息管理系统的设计与实现[A];2008年计算机应用技术交流会论文集[C];2008年
7 粟智;;基于Web技术下的分析实验室计算机网络管理系统的开发与设计[A];2003年药物分析论坛“热分析在药物分析中的应用”专题学术研讨会论文集[C];2003年
8 胡新平;董建成;;基于Web的远程医疗会诊系统[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
9 徐建新;钱建彬;;Web在线编辑在建设用地管理中的应用[A];江苏省测绘学会2007年学术年会论文集[C];2008年
10 唐权;吴勤书;;基于web用户基础地理数据库更新技术研究[A];江苏省测绘学会2011年学术年会论文集[C];2011年
相关重要报纸文章 前10条
1 王雅丽;博客社区齐上阵 银行借Web 2.0拉拢未来客户[N];中国计算机报;2008年
2 本报记者 黄智军;Web应用呼唤新型安全系统[N];计算机世界;2009年
3 本报记者 徐恒;手机浏览器:竞争不断加剧 Web大势所趋[N];中国电子报;2009年
4 讯源;企业引入Web 2.0的5项忠告[N];计算机世界;2007年
5 迅源;企业为何害怕Web 2.0?[N];计算机世界;2007年
6 河南省文物考古研究所 北京大学考古文博学院 张海 方燕明;以WEB和3S技术为支持的南水北调禹州段考古区域系统调查取得初步成果[N];中国文物报;2012年
7 王磊;如何通过Web 2.0赢取客户[N];中国计算机报;2008年
8 于翔;Web应用安全任重道远[N];网络世界;2008年
9 赵海军;Web服务 电子商务新起点[N];中国计算机报;2002年
10 三木邋编译;检测Web应用漏洞需新工具[N];计算机世界;2008年
相关博士学位论文 前8条
1 黄治虎;基于网页信息和图像特征的Web图像检索研究[D];重庆大学;2015年
2 张璞;Web评论文本情感分类方法研究[D];重庆大学;2015年
3 刘维东;Web短文本知识关联模型及其语义连贯计算方法[D];上海大学;2016年
4 孙慧峰;基于协同过滤的个性化Web推荐[D];北京邮电大学;2012年
5 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
6 孙涛;面向市场情报分析的Web实体事件融合问题研究[D];山东大学;2014年
7 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
8 韩志刚;地理超媒体数据模型及Web服务研究[D];河南大学;2011年
相关硕士学位论文 前10条
1 张锐;基于Web技术下的出差管理系统[D];西安工业大学;2015年
2 游维;基于Rest的Web业务系统日志采集与分析系统的研究与开发[D];山东大学;2015年
3 陶莹昌;基于Web的校园二手图书拍卖平台的设计与实现[D];西华师范大学;2015年
4 周赢;基于WEB的绩效管理系统的设计与实现[D];电子科技大学;2015年
5 吴朝云;基于eyeOS的Web操作系统云存储研究[D];电子科技大学;2014年
6 林岚;基于WEB的单位工资管理系统设计与实现[D];电子科技大学;2014年
7 武志国;基于Web的人力资源管理系统设计与实现[D];电子科技大学;2014年
8 王雁;基于WEB的三维动画素材管理系统的设计与实现[D];电子科技大学;2013年
9 张灵钰;基于web平台的高校学生工作管理系统的设计与实现[D];电子科技大学;2013年
10 冯庚;基于WEB的智能油库信息管理系统设计与实现[D];电子科技大学;2014年
,本文编号:1479607
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1479607.html