基于页面主体提取的WEB信息抽取技术研究

发布时间：2021-04-28 10:04

　　随着Internet的飞速发展，互联网上的数据量呈爆炸性增长，使得Web已经成为全球信息传播与共享的重要渠道，而网页固有的半结构性以及网络上存在大量的与网页主题无关的信息，使人们无法快速准确的获得所需要的信息。这种情况下，研究如何从Web中抽取出人们所需要的信息已经变得越来越重要。国内外学者在这方面已经有了大量的研究。然而通过对现有Web信息抽取方法和当前Web网页特点的分析，发现现有抽取技术存在自动化程度不够和抽取结果不准确的问题。为了弥补以上的两个不足，本文提出了一种基于页面主体提取的Web信息抽取方法，主要包括页面预处理、页面主体提取、抽取规则生成、信息抽取四个模块。页面预处理模块利用JTidy完成对HTML标签的格式化，以及页面中一些与主题无关内容的去除。页面主体提取模块使用HTMLParser对页面进行解析，得到与Web页面对应的结构树，然后分析结构树，使用基于MMTD的算法识别出页面的主体部分。而抽取规则生成模块则使用了XPATH和XSLT，针对页面主体生成一类页面的抽取规则。信息抽取模块将抽取规则运用于待抽取页面便得到我们需要的信息，并将其存入数据库，以方便人们查找并使用...

【文章来源】：南京邮电大学江苏省

【文章页数】：64 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
专用术语注释表
第一章绪论
    1.1 研究背景
        1.1.1 网页主体提取
        1.1.2 中介真值程度度量
        1.1.3 Web 信息抽取
    1.2 研究目标及主要内容
    1.3 本文组织结构
第二章 Web 信息抽取
    2.1 Web 信息抽取概念
    2.2 Web 信息抽取方法分类
        2.2.1 基于自然语言处理的信息抽取
        2.2.2 基于包装器归纳的信息抽取
        2.2.3 基于 Ontology 的信息抽取
        2.2.4 基于 Web 查询的信息抽取
        2.2.5 基于视觉特征的信息抽取
        2.2.6 基于 HTML 的信息抽取
    2.3 Web 信息抽取方法评价指标
    2.4 本章小结
第三章基于 MMTD 的页面主体提取
    3.1 HTML 与 XML
        3.1.1 HTML
        3.1.2 XML
    3.2 页面预处理
        3.2.1 页面整理
        3.2.2 页面去噪
    3.3 基于 MMTD 的页面主体提取
        3.3.1 HTMLParser
        3.3.2 MMTD
        3.3.3 页面主体特征分析
        3.3.4 提取算法
    3.4 实验
    3.5 本章小结
第四章基于页面主体提取的 WEB 信息抽取方法
    4.1 基于页面主体提取的 Web 信息抽取方法概述
    4.2 抽取规则的生成
        4.2.1 XPATH
        4.2.2 XSLT
        4.2.3 信息定位
        4.2.4 路径转换及生成抽取规则
    4.3 信息抽取
    4.4 本章小结
第五章基于页面主体提取的 WEB 信息抽取设计与实现
    5.1 系统设计目标
    5.2 系统总体设计
        5.2.1 功能模块设计
        5.2.2 体系结构设计
    5.3 系统的实现与测试
        5.3.1 系统开发工具介绍
        5.3.2 系统操作界面
        5.3.3 实验及结果分析
    5.4 本章小结
第六章总结与展望
    6.1 本文工作总结
    6.2 未来工作展望
参考文献
附录 1 攻读硕士学位期间撰写的论文
附录 2 攻读硕士学位期间参加的科研项目
致谢

【参考文献】：
期刊论文
[1]一种基于统计学特征和DOM树的网页去噪技术[J]. 何友全,徐澄,徐小乐,唐华姣.  重庆理工大学学报(自然科学版). 2011(01)
[2]基于中介真值程度度量处理图像的应用理论研究[J]. 周宁宁,洪龙.  南京邮电大学学报(自然科学版). 2010(03)
[3]中介真值程度的度量及其应用（I）[J]. 洪龙,肖奚安,朱梧槚.  计算机学报. 2006(12)
[4]基于分块的网页信息解析器的研究与设计[J]. 于满泉,陈铁睿,许洪波.  计算机应用. 2005(04)
[5]基于统计的网页正文信息抽取方法的研究[J]. 孙承杰,关毅.  中文信息学报. 2004(05)
[6]A SYSTEM OF MEDIUM AXIOMATIC SET THEORY[J]. 肖奚安,朱梧槚.  Science in China,Ser.A. 1988(11)
[7]中介逻辑的命题演算系统（Ⅰ）[J]. 肖奚安,朱梧槚.  自然杂志. 1985(04)
[8]数学基础与模糊数学基础[J]. 朱梧槚,肖奚安.  自然杂志. 1984(10)
[9]一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.  情报学报. 2004 (04)

硕士论文
[1]基于树自动机技术的Web信息抽取研究[D]. 谭鹏许.解放军信息工程大学 2009
[2]BBS热点话题挖掘与观点分析[D]. 姚晓娜.大连海事大学 2008
[3]基于视觉特征的Web信息抽取技术的研究与实现[D]. 张伟.华东师范大学 2008

本文编号：3165284

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3165284.html

上一篇：面向私有DNS的攻击检测及响应系统设计与实现
下一篇：EPFTS平台OAM中的连通性故障管理

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|