基于统计的网页净化模板生成算法
本文选题:网页净化 切入点:信息提取 出处:《科学技术与工程》2013年04期
【摘要】:同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。
[Abstract]:Most pages of the same site have almost the same DOM tag tree, the processed tag tree acts as a template, and all pages of the site retain only the content contained in the leaf node in this template. In this way, we can purify all the web pages of this site. Firstly, we extract the content block tree from a set of sample pages in a site. For each tree, we count the number of text words contained in each label node, and the peer node only retains the one with the largest number of words. Thus, the single side subtree USTs are generated, and then the UST set is merged. The most frequent occurrence in the same level nodes is the important content node, and the number of words between each parent node and the child node is compared to the number of words between each parent node and the child node by stringing these nodes together to form the important unilateral subtree UST. When the ratio exceeds a threshold, all the nodes below the child node are deleted to generate the important unilateral subtree SPUST. this SPUST is the page purification template of the site.
【作者单位】: 重庆第二师范学院网络中心数学与信息工程系;重庆第二师范学院网络中心财务处;重庆第二师范学院网络中心教务处;
【基金】:重庆教育学院研究项目(KY201176C)资助
【分类号】:TP393.092
【参考文献】
相关期刊论文 前1条
1 胡飞;;基于标记树的Web页面区域划分和搜索方法[J];计算机科学;2005年08期
【共引文献】
相关期刊论文 前1条
1 吴鹏飞;孟祥增;刘俊晓;马凤娟;;基于结构与内容的网页主题信息提取研究[J];山东大学学报(理学版);2006年03期
相关硕士学位论文 前1条
1 吴鹏飞;面向Web的多媒体信息提取及其教育应用[D];山东师范大学;2007年
【二级参考文献】
相关期刊论文 前2条
1 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
2 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
【相似文献】
相关期刊论文 前10条
1 孙楠;张华伟;;一种新的用于数据挖掘工具的网页净化算法[J];郑州轻工业学院学报(自然科学版);2011年03期
2 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期
3 冯曦曦;朱学芳;;基于Spring框架的农业网站信息资源采集器设计与实现[J];信息化研究;2011年03期
4 殷彬;杨会志;;灵活结构网页的正文提取[J];计算机技术与发展;2011年09期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前10条
1 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
2 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
3 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
4 孙铁利;教巍巍;;基于马尔科夫模型的用户兴趣导航模型系统(英文)[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
5 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
8 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 李德仁;;论广义空间信息网格和狭义空间信息网格[A];中国测绘学会第八次全国会员代表大会暨2005年综合性学术年会论文集[C];2005年
10 冷巍;;附加码技术与口令保护[A];第二十次全国计算机安全学术交流会论文集[C];2005年
相关重要报纸文章 前2条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
2 王尊义, 卢湖川;基于应用层协议进行邮件监听[N];计算机世界;2005年
相关博士学位论文 前1条
1 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
相关硕士学位论文 前10条
1 张磊;基于Internet的智能信息挖掘系统建模及关键技术研究[D];西北工业大学;2003年
2 曹鲁慧;远程教育中基于语义Web的信息处理技术研究[D];山东大学;2005年
3 刘慧;基于表格结构的Web信息提取技术研究[D];燕山大学;2009年
4 武琼;基于元数据的web信息提取方法研究[D];山西大学;2003年
5 邵延振;基于Web挖掘的信息提取与推荐相关研究[D];广西师范大学;2010年
6 万乐;网页的预处理技术[D];吉林大学;2008年
7 孙及园;对Web网页的信息提取技术的研究[D];福州大学;2001年
8 齐海凤;网络舆情热点发现与事件跟踪技术研究[D];哈尔滨工程大学;2008年
9 谢华;Internet网页自动分类技术的研究[D];中南大学;2007年
10 董素芬;Web信息显示格式转换技术研究[D];河北农业大学;2008年
,本文编号:1699943
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1699943.html