面向网页内容无障碍访问的导航栏抽取与正文抽取
本文关键词:面向网页内容无障碍访问的导航栏抽取与正文抽取
【摘要】:残疾人由于自身的身体局限,在互联网高速发展的时代难以充分享受网络社会的便利性。与早期的网页HTML元素布局简单,内容以文本内容为主相比,现今的网页不仅包含各种多媒体元素,而且使用了更多的CSS样式结构和JavaScript动态结构,HTML元素繁多,加剧了残疾人信息获取的障碍,同时,由于技术更新快,网页设计多样化等原因,网页设计普遍存在大量的不一致问题,进一步加剧了残疾人访问互联网的障碍。中国残联致力于帮助残疾人更好的融入互联网社会,保证残疾人的利益,联合工业和信息化部电信研究院发布了网站无障碍标准。在工信部发布的网站无障碍标准中,有两条重要标准:“网页可以快捷键跳过导航栏以及网页标题和正文的相关性”。跳过导航栏可以帮助残疾人快速进入目标网页,在本文中,我们提出了一种新颖的、针对残疾人浏览频率高的资讯、新闻类网页中抽取网页导航栏的方法,基于这两种类型网页的特点,使用基于链接文本比例,邻近行编辑距离以及编辑距离梯度变化三个特征,最后使用无监督聚类的方法,有效、快速地在指定网页中抽取导航栏,并在一系列网站的抽取实验中达到了90%以上的准确率,并实现了一个可以自动标注网页导航栏的系统。网页标题和正文的相关性标准可以有效地减少残疾人的阅读障碍,使残疾人快速获取每个网页的主要内容,过滤无关的网页信息,不同于以往的正文抽取算法需要重建DOM树以及训练模型的方法,在本文中,我们提出了一种引入高斯平滑函数的抽取标签文本比例以及变化率的无监督方法,可以在不需要训练数据和DOM树的情况下有效、准确地在一系列网页中抽取网页正文。
【关键词】:导航栏抽取 正文抽取 无障碍检测
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要5-6
- Abstract6-12
- 第1章 绪论12-19
- 1.1 课题背景12-17
- 1.1.1 网站无障碍标准12-13
- 1.1.2 网页导航栏抽取算法发展13-15
- 1.1.3 网页正文抽取算法发展15-17
- 1.2 本文的结构和工作17-18
- 1.2.1 本文工作17
- 1.2.2 本文结构17-18
- 1.3 本章小结18-19
- 第2章 理论基础和相关技术19-36
- 2.1 WCAG 2.0指南19-20
- 2.2 HTML与DOM树20-22
- 2.2.1 HTML20-21
- 2.2.2 DOM树21-22
- 2.3 网页内容提取22-31
- 2.3.1 基于网站Style Tree的网页模板抽取算法24-26
- 2.3.2 基于网页DOM树距离度量的模板抽取方法26-27
- 2.3.3 基于文本比例的正文抽取方法27-28
- 2.3.4 基于标记窗的正文抽取方法28-30
- 2.3.5 基于最大子串分割的正文抽取算法30-31
- 2.4 聚类算法31-34
- 2.4.1 层次聚类31-33
- 2.4.2 划分聚类33-34
- 2.5 本章小结34-36
- 第3章 基于链接文字比例与URL编辑距离的网页导航栏抽取36-47
- 3.1 问题描述36-38
- 3.2 算法原理38-39
- 3.3 算法设计39-46
- 3.3.1 链接文字比例39-40
- 3.3.2 邻近行编辑距离40-44
- 3.3.3 编辑距离变化率44-45
- 3.3.4 聚类抽取导航栏45-46
- 3.4 本章小结46-47
- 第4章 基于标签文字比例与高斯平滑的网页正文抽取47-56
- 4.1 问题描述47-48
- 4.2 算法原理48-49
- 4.3 算法设计49-55
- 4.3.1 HTML标签文字比例49-53
- 4.3.2 标签文字比例变化率53-54
- 4.3.3 阈值以及聚类抽取网页正文54-55
- 4.4 本章小结55-56
- 第5章 实验及结果分析56-66
- 5.1 实验环境和实验数据集准备56
- 5.1.1 实验环境56
- 5.1.2 实验数据集准备56
- 5.2 基于链接文字比例与URL编辑距离的网页导航栏抽取56-61
- 5.2.1 实验数据集准备56-57
- 5.2.2 实验评价标准57-58
- 5.2.3 实验结果与分析58-61
- 5.3 基于标签文字比例的网页正文抽取61-64
- 5.3.1 实验数据集准备61
- 5.3.2 实验评价标准61
- 5.3.3 实验结果与分析61-64
- 5.4 本章小结64-66
- 第6章 总结与展望66-68
- 6.1 总结66-67
- 6.2 展望67-68
- 参考文献68-72
- 致谢72
【相似文献】
中国期刊全文数据库 前10条
1 史文崇;;鼠标定位即时显隐导航栏的创建[J];河北科技师范学院学报;2006年02期
2 鲁冬;;基于原子构件的导航栏设计[J];计算技术与自动化;2010年04期
3 何丽萍;;浅谈网页导航栏设计的有效性[J];河南机电高等专科学校学报;2009年01期
4 王怡;Web站点应该包括的十项内容(一)[J];网络与信息;1999年01期
5 李太寿;卢昭彬;;基于原子构件的导航栏设计[J];计算机时代;2013年06期
6 王志军;;文档隐私,一删了之[J];电脑迷;2008年02期
7 王志军;;不错过新闻事件的最新动态[J];电脑迷;2011年22期
8 李云峰;;与世界杯同行[J];电脑爱好者(普及版);2006年07期
9 ;让工作更简单的网络服务[J];电脑迷;2011年15期
10 刘刘;;轻松恢复Windows7系统导航栏目录默认设置[J];网络与信息;2012年06期
中国重要报纸全文数据库 前5条
1 湖南 陈楚楚;创建导航栏[N];中国电脑教育报;2000年
2 ;另类超级链接[N];中国电脑教育报;2002年
3 7star;给导航栏蒙板遮盖[N];中国电脑教育报;2002年
4 浙江 吴孝燕 陈洁;实现法庭多媒体示证[N];电脑报;2001年
5 山东 realrocking;清新“苹果”的风格[N];电脑报;2003年
中国硕士学位论文全文数据库 前1条
1 王朋朋;面向网页内容无障碍访问的导航栏抽取与正文抽取[D];浙江大学;2015年
,本文编号:686302
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/686302.html