当前位置:主页 > 管理论文 > 移动网络论文 >

Web网页去噪及信息提取算法的研究与应用

发布时间:2021-10-08 12:46
  随着互联网的发展与普及,越来越多的人依赖于从网络上获取信息,但是为了维护商业利益和推广的需要,网络上充斥着大量的噪音信息,严重干扰了人们对信息的获取,基于此本文提出了一种基于DOM (Document Object Model)树的网页信息提取方法。通过对常用的网页去噪和信息提取方法进行分析发现,某些基于DOM实现的网页提取方法并不能判断不含有超级链接的网页噪音,而且不能处理正文分布在DIV标签中的情况,去噪效果不理想。本文从以下几个方面解决了上述问题:1.利用VIPS (Vision Based Page Segmentation)实现网页内容分块,有效的划分开了与网页主题相关的信息块和噪音信息块。2.将所划分得到的块转化为DOM树形结构。用VIPS方法划分出来的每个内容块都是一个树形结构,将网页进行了更加细粒度的划分。3.用递归方法对DOM树中存在于标签中的节点信息进行提取,有效的解决了主题信息存在于TABLE和DIV标签中的问题。根据网页标题与结点中词共现频率以及文本间的相似度实现网页正文内容的提取。在计算网页标题与结点词共现频率时,将标题中的词赋予较大的权重,文本中的节点词赋予... 

【文章来源】:安徽理工大学安徽省

【文章页数】:57 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景
    1.2 国内外研究现状
    1.3 存在问题
    1.4 研究意义
    1.5 论文结构
2 常见的网页去噪及信息提取技术
    2.1 基于网页分块的网页去噪模型
    2.2 基于模板的网页去噪方法
    2.3 基于视觉模型的Web页面信息提取算法
3 相关知识介绍
    3.1 Web
    3.2 XML
    3.3 CSS
    3.4 DOM
    3.5 超级文本标记语言
    3.6 Web数据挖掘技术
4 结构模型
    4.1 整体框架模型
        4.1.1 Web信息提取和Web信息检索
        4.1.2 信息提取的整体框架
        4.1.3 信息提取的结构
    4.2 待提取信息页面的获取
    4.3 页面分块与净化
    4.4 关联规则经典算法分析
5 系统实现与分析
    5.1 网页去噪及信息提取过程
        5.1.1 信息选取
        5.1.2 网页块的划分去噪
    5.2 系统设计
        5.2.1 性能评价指标
        5.2.2 设计目标
        5.2.3 系统运行环境及实现结果
6 总结与展望
参考文献
致谢
作者简介及读研期间主要科研成果


【参考文献】:
期刊论文
[1]Lanczos双对角算法在文本挖掘当中的应用[J]. 范伟鹏.  信息技术. 2012(12)
[2]基于社会网络分析的多属性关联规则挖掘方法[J]. 李永立,吴冲,刘一丹,孙纪舟.  情报学报. 2012 (08)
[3]Web数据挖掘中数据异构问题解决方法的研究[J]. 李春梅,李艾丹,薛中玉,韩爽.  中国科技资源导刊. 2012 (04)
[4]面向Web信息检索的虚核文本分类算法[J]. 李静,杨小帆,孙启干.  计算机工程. 2012(10)
[5]一种适用于机器翻译的汉语分词方法[J]. 奚宁,李博渊,黄书剑,陈家骏.  中文信息学报. 2012(03)
[6]一种基于海量信息处理的云存储模型研究[J]. 张桂刚,李超,张勇,邢春晓.  计算机研究与发展. 2012(S1)
[7]基于DTD/DOM的XML技术的应用研究[J]. 陈焕英,李冰.  河南城建学院学报. 2012(01)
[8]比较分析XML与HTML[J]. 曹风华.  电脑与信息技术. 2011(04)
[9]基于云模型的文本特征自动提取算法[J]. 代劲,何中市,胡峰.  中南大学学报(自然科学版). 2011(03)
[10]基于模板的网页主题信息抽取模型[J]. 黄荣.  科技信息. 2011(04)

硕士论文
[1]基于树形结构的网页数据抽取模式研究及应用[D]. 高永胜.大连理工大学 2011
[2]互联网中的海量用户行为挖掘算法研究[D]. 周津.中国科学技术大学 2011
[3]基于JAVA/XML的分布式数据同步系统的设计和实现[D]. 徐瑞雪.大连海事大学 2011
[4]文本自动标引方法研究与实现[D]. 马娟.西南交通大学 2009
[5]基于DOM的网页净化方法研究[D]. 徐超.中国石油大学 2009
[6]垂直搜索引擎中的网页对象抽取模型及实现技术研究[D]. 王实.湖南大学 2009



本文编号:3424189

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3424189.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户23d0d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com