基于文本密度和页面结构的网页信息抽取技术研究与实现

发布时间:2020-09-29 14:07
   近年来,随着移动互联网技术的普遍发展,智能移动设备以其高便携性、即时性和应用轻便等特性受到了越来越多人的青睐,手机不再只是简单的通讯工具,越来越多的人通过手机、平板电脑等移动设备获取最新的资讯信息。web是互联网上最丰富和最密集的信息来源,随着信息量的逐渐膨胀,网站上不仅仅显示有价值的文本信息,同时还包含着广告、图片、导航栏等大量无关的干扰信息。根据Tomkins等人的研究显示,网页上噪音大约占40%~50%,但是移动设备屏幕尺寸和PC端相比较小,无法在屏幕中完全的展示PC端网页的所有内容,用户需要花费较长的时间来操作滚动条去寻找正文文本,这样既耗费时间也不利于页面浏览。如何自适应的将PC端海量的信息抽取出有价值的部分,形成有利于在移动设备中浏览的网页,成为了信息抽取技术领域亟待解决的问题。一方面,现阶段基于文本密度的网页信息抽取方法,都是通过数据挖掘方法来获取网页信息,然而传统的基于密度的网页信息提取方法并不能有效的管理那些包含少量文本和大量噪音的页面。另一方面,现有的将网页分块技术:一种是通过HTML标签的启发式规则将网页分块,这种方法只适合较少标签时使用,一旦在大量基于特定标签的研究中使用的启发式规则,会降低这些方法的普遍适用性;另一种方法是利用视觉启发式规则。然而视觉为基础的分块方法还需要下载和解析样式表,这将显著影响工作效率。针对上述问题,本文提出了一种综合文本密度和网页分块相结合的抽取技术。首先,通过Webpage Block (N)算法将网页粗略分段。接着,根据CalculTextDens (N)算法计算每一个块级元素的密度,一般主题信息总是包含大量的文本字符和较少的标签字符,而在噪音文本总是包含少量的文本字符和较多的标签字符,根据文本字符长度和标签字符长度的幂次关系计算密度,最后,根据设定的阈值剔除噪音信息。这种算法的优点是即使一个网页中包含大量的噪音信息,本文也可以准确的把其中的少量的主题信息提取出来,因为在一般的传统网页中,主题信息具有完整的结构,不会分散的存在与网页中,一旦将网页分块计算出密度,就可以根据密度值,判断块级元素的属性。论文的创新点如下:(1)通过对网页结构的分析,本文提出了一个Webpage Block (N)分块的算法,该算法通过判断页面中标签的属性,将页面以最小块级元素为单位分割,这种方法能够快速的将网页分块。(2)提出了一种结合文本密度和页面结构分析的网页提取算法,该方法在页面分块的基础上计算出每个块级元素的密度,然后根据设定的阈值提取主题信息,这种网页抽取算法具有90%左右的准确率,可以几乎完整的抽取出主题内容。实验表明,文本提出的方法在网页正文抽取中有0.903的准确率和0.918的召回率。
【学位单位】:中国海洋大学
【学位级别】:硕士
【学位年份】:2015
【中图分类】:TP393.092;TP391.1
【文章目录】:
摘要
Abstract
1. 绪论
    1.1. 研究背景和目的
    1.2. 国内外发展现状
    1.3. 课题研究的思路
    1.4. 论文结构
2. 网页信息抽取相关技术简介
    2.1. 信息抽取简介
        2.1.1. 信息抽取与信息检索
        2.1.2. 网页信息抽取工具
        2.1.3. 制定网页信息抽取规则
    2.2. 网页信息抽取相关技术
        2.2.1. 基于自然语言的网页信息抽取
        2.2.2. 基于包装器的网页信息抽取
        2.2.3. 基于Ontology的网页信息抽取
        2.2.4. 基于模板的网页信息抽取
    2.3. 页面结构介绍
        2.3.1. 基于DOM树页面结构分析
        2.3.2. 基于HTML标签页面结构划分
        2.3.3. 基于视觉特征的页面结构划分
    2.4. 文本密度介绍
    2.5. 网页信息抽取评价标准
    2.6. 本章小结
3. 页面分块算法研究
    3.1. 网页预处理
        3.1.1. 网页编码格式检测
        3.1.2. 网页标准化
        3.1.3. 清除冗余块
    3.2. 定义网页标签种类
        3.2.1. 块级元素
        3.2.2. 内联元素
        3.2.3. 排版元素
    3.3. 定义分块原则
    3.4. 分块算法
    3.5. 本章小结
4. 基于文本密度的网页信息抽取
    4.1. 定义文本密度的测量方法
    4.2. 文本密度的算法原理及流程
    4.3. 根据文本密度抽取信息
    4.4. 阈值设定
        4.4.1. 样本数据来源
        4.4.2. 性能指标
        4.4.3. 实验结果分析
    4.5. 本章小结
5. 基于文本密度和页面结构的网页信息抽取技术验证与实现
    5.1. 系统设计目标
    5.2. 系统总体框架
    5.3. 系统模块的设计与实现
        5.3.1. 网页预处理
        5.3.2. 网页分块
        5.3.3. 网页信息提取测试
    5.4. 结果演示
    5.5. 本章小结
6. 总结与展望
    6.1. 论文工作总结
    6.2. 未来研究与展望
参考文献
致谢
个人简历

【相似文献】

相关期刊论文 前10条

1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期

2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期

3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期

4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期

5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期

6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期

7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期

8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期

9 秦永平;网页信息共享技术[J];计算机应用;2000年02期

10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期

相关会议论文 前10条

1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年

2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年

6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年

9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

相关重要报纸文章 前10条

1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年

2 壮壮;批量保存网页信息[N];电脑报;2004年

3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年

4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年

5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年

6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年

7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年

8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年

9 八戒;眨眼之间 答案立现[N];电脑报;2013年

10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年

相关博士学位论文 前10条

1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年

2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年

3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年

8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

相关硕士学位论文 前10条

1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年

2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年

3 张W

本文编号:2829823


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2829823.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a9b77***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com