基于区域块密度的网页信息抽取技术在移动网站开发中的研究与实现

发布时间：2020-11-17 12:50

　　随着移动通信技术的高速发展，移动智能设备的普及率越来越高，使用移动设备访问网站的比例也逐步提高，人们迫切的需要使用移动设备随时随地的获取互联网资源。不过移动设备的屏幕尺寸、硬件性能等与普通电脑存在很大差异，并且移动设备用户的使用场景与传统互联网用户间的差别也很大，传统意义上的网站设计并不能很好的满足移动场景下用户的使用需求。同时移动设备碎片化的特点非常明显，这对移动网站的设计和开发都带来了很大的挑战。针对以上问题，本文对基于内容转换策略的移动网站开发方法进行了研究，提出了一种基于区域块密度的网页信息抽取技术，并以此为基础，实现了基于代理服务器策略的移动网站开发平台。该平台能够在较少人工干预的情况下根据网页类型的不同，选择对应规则实现网页信息的抽取，能够最大程度发挥移动端随时随地的特性，将原有业务系统与移动终端对接与融合，从而实现将PC端网站稳定快速的向移动终端扩展。本文具体的研究内容如下： 1)论文从研究移动网站开发的现状开始，通过对现有网页信息抽取技术的综合比较，建立了网页信息抽取过程的流程模型。 2)通过对正文抽取技术的相关研究，提出了基于区域块密度的网页信息抽取算法。该算法不受HTML标签的限制，通过分析网页正文密度函数来确定网页正文区域，进而进行网页内容的抽取。 3)设计并实现了基于转换服务器策略的移动网站开发平台。该平台能在较少人工干预的情况下实现Web网站从PC端向移动端的迁移。本文最后通过一个移动网站设计与开发实例来验证本文提出的移动网站开发平台的设计方法以及设计原则的可行性。实例是青岛某管理学院官方网站移动版本，该移动网站的适配设备包括Android以及iOS的智能终端，能够较好的提高不同设备访问移动网站的用户体验，实现了较好的跨平台能力，有效降低了开发和维护成本。论文的创新点如下： a)通过对现有网页信息抽取技术的研究分析，并根据移动网站开发平台的特点，建立了对应的网页信息抽取流程模型。 b)提出了基于区域块密度的网页信息抽取算法，能够在不受HTML标签限制的情况下完成网页正文的抽取，实验测试表明抽取准确率、召回率均高于90%。最后经过实验测试表明，本文提出的移动网站开发平台能够在较少人工干预下完成Web网站从PC端到移动端的迁移，具有较高的实用价值。
【学位单位】：中国海洋大学
【学位级别】：硕士
【学位年份】：2014
【中图分类】：TP393.092
【文章目录】：
摘要
Abstract
绪论
    1.1 课题研究背景和意义
    1.2 国内外发展现状
    1.3 研究思路及内容
    1.4 论文组织结构
2. 网页信息抽取概念及相关技术介绍
    2.1 网页信息抽取概念
    2.2 网页信息抽取技术关键步骤
    2.3 网页信息抽取相关技术介绍
        2.3.1 基于网页视觉特征的网页信息抽取技术
        2.3.2 基于 DOM 树的网页信息抽取技术
        2.3.3 基于包装器的网页信息抽取技术
        2.3.4 基于 XSLT 模板的网页信息抽取技术
    2.4 网页信息抽取评价标准
    2.5 本章小结
3. 网页信息抽取流程建模
    3.1 网页类型分类
    3.2 URL 相似度匹配
    3.3 网页类型判断
    3.4 网页抽取流程
    3.5 本章小结
4. 基于区域块密度的网页正文抽取算法
    4.1 算法的原理及流程
        4.1.1 网页预处理
        4.1.2 区域块密度函数
    4.2 阈值学习
    4.3 实验结果及分析
        4.3.1 实验方法
        4.3.2 结果分析
    4.4 本章小结
5. 移动网站开发平台的设计与实现
    5.1 平台简介
    5.2 平台目标
    5.3 平台系统架构
    5.4 平台关键模块
        5.4.1 网页源码获取与预处理模块
        5.4.2 网页类型判别模块
        5.4.3 网页抽取模块
        5.4.4 网页缓存模块
        5.4.5 网页渲染模块
    5.5 运行测试
    5.6 运行效果演示
    5.7 本章小结
6. 总结与展望
    6.1 论文工作总结
    6.2 未来研究展望
参考文献
致谢
个人简历
研究成果

【参考文献】

相关期刊论文前7条

1 王茹,宋瀚涛,陆玉昌;Research of Extracting Data from HTML Web Pages Automatically[J];Journal of Beijing Institute of Technology(English Edition);2003年S1期

2 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期

3 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期

4 ;A Method of Eliminating Noises in Web Pages by Style Tree Model and Its Applications[J];Wuhan University Journal of Natural Sciences;2004年05期

5 ;A Survey of Web Information Systems and Applications[J];Wuhan University Journal of Natural Sciences;2006年05期

6 高岭;赵朋朋;崔志明;;Deep Web查询接口的自动判定[J];计算机技术与发展;2007年05期

7 李宏伟;史培中;张素智;;一种高效Web数据抽取包装器的设计与实现[J];计算机技术与发展;2009年02期

本文编号：2887517

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/2887517.html

上一篇：基于元启发式算法的VNF部署及其并行化
下一篇：面向机加工的云制造服务组合自适应调整研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|