基于模式匹配的网页净化方法

发布时间：2017-08-06 16:05

本文关键词：基于模式匹配的网页净化方法

【摘要】：新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。
【作者单位】：重庆师范大学传媒学院/新媒体学院;重庆师范大学计算机与信息科学学院;
【关键词】： 网页噪音 网页净化 信息提取
【基金】：重庆市教育委员会高等教育教学改革项目(No.143031)
【分类号】：TP393.092;TP391.1
【正文快照】： 网络资源大部分都是以网页形式存在。搜索引擎、Web挖掘、知识发现等各种以网页作为数据源的Web应用越来越多,这些Web应用关注的主要对象是网页中的主题内容。但是网页中还有很多与主题无关的内容,如导航栏、广告连接、版权信息等,称之为噪音内容。噪音内容给基于主题内容的We

【相似文献】

中国重要会议论文全文数据库前2条

1 张子骞;石正坤;;用磷酸铀酰氢(HUP)消除空气中的氚[A];中国工程物理研究院科技年报（1998）[C];1998年

2 李月生;夏祥翔;罗平;李小定;;氯气的危害及其净化方法[A];第六届全国工业催化技术及应用年会论文集[C];2009年

，

本文编号：630486

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/630486.html

上一篇：潜在网络威胁检测过程的优化与仿真
下一篇：基于标签路径特征的网页正文自适应抽取方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|