WEB实体信息的提取算法及其应用研究

发布时间：2020-10-30 19:52

　　由于互联网的高速发展和普及,互联网已经成为了一个十分重要的信息源。而许多互联网用户也越来越迫切的希望能够在浩瀚的互联网中高效准确的找到目标主题页面并对主题页面实现定制化实体信息提取。传统的搜索引擎领域中主题爬虫和垂直爬虫是获取特定主题和特定网站数据的较为普遍流行的方法,但是主题爬虫更注重于主题页面的搜索,往往忽视对页面信息精确抽取的深入研究,而垂直爬虫虽然可以对一个网站实现精准信息抽取,但是其一大弊端就是可移植性较差,无法对不同网站实现通用的爬取,自动化程度较低。经典的WEB信息提取方法,虽然在各自适应的领域取得一定的成果,但是也都有其适应范围的局限性和提取算法效率低的问题;同时,这些方法基本都只侧重于对目标WEB页面实体信息抽取的研究,而忽略了对目标页面的搜索策略的研究;因此,现有的经典WEB实体信息的抽取方法都有其适用范围和研究范围的局限性。本文针对垂直爬虫无法直接移植到其他网站并且程序设计需要大量人工干预的弊端,以及经典WEB实体信息抽取方法的局限性,提出了一种高效的,且具有高可移植性的WEB实体信息提取算法,而提取算法的研究又包括了主题页面搜索定位和页面信息提取两个部分:(1)在主题页面搜索定位部分,提出了有监督的广度优先网页带权搜索策略,自动识别主题目标和目录页面URL以及利用URL聚类生成URL正则表达式过滤器,利用正则表达式过滤器广度优先大范围搜索相关页面,同时辅以基于隧道技术的网页权值计算达到有监督的最佳优先的效果,通过实验证明本文设计的搜索策略能够保证爬虫充分、快速、准确的对于主题相关页面的定位及下载,具有较高的搜索效率和准确率。(2)在页面信息提取部分,结合多种经典WEB信息提取技术的优势提出了基于配置信息的数据解析路径模板自动生成方法,基于配置信息可以让爬虫实现对于定制化WEB实体信息的准确完整提取,而自动生成数据解析路径模板则可以充分保证信息抽取的高效性和准确性,并能够提高自动化程度。利用本文提出的WEB实体信息提取算法的原理,本文设计实现了一种通用型垂直爬虫系统,该系统的实现是WEB数据采集器方面的一个具体应用,并且该系统可以在便捷的配置信息后,实现对不同网站的高效、快速、准确的定制化数据爬取,可移植性高且通用性强。同时,也证明了本文提出的WEB实体信息提取算法的合理性和有效性,具有较高的应用价值,也丰富了WEB信息抽取领域的理论和应用研究。
【学位单位】：电子科技大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：TP393.09;TP391.1
【文章目录】：
摘要
abstract
第一章绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文主要研究内容和贡献
    1.4 本文结构安排
第二章论文相关基础技术知识介绍
    2.1 网络爬虫技术概述
        2.1.1 网络爬虫基本流程
        2.1.2 网络爬虫搜索策略
        2.1.3 网络爬虫分类
    2.2 WEB信息提取经典技术概述
        2.2.1 WEB信息提取技术特点
        2.2.2 WEB信息提取技术分类
    2.3 本章小结
第三章 WEB实体信息的提取算法
    3.1 WEB实体信息提取算法的研究基础和目标
        3.1.1 WEB实体信息提取算法的研究基础
        3.1.2 WEB实体信息提取算法实现目标及框架
    3.2 有监督的广度优先网页带权搜索策略
        3.2.1 正则表达式
        3.2.2 正则表达式过滤器
            3.2.2.1 URL识别
            3.2.2.2 URL正则表达式生成规则
            3.2.2.3 URL聚类
        3.2.3 带权网页计算
            3.2.3.1 主题孤岛问题
            3.2.3.2 基于隧道技术的网页权值计算
    3.3 数据解析路径模板自动抽取
        3.3.1 数据解析路径模板自动生成提出基础
        3.3.2 提取目标页面公共节点路径模板
        3.3.3 生成精确数据解析路径
    3.4 本章小结
第四章通用型垂直爬虫系统的实现及实验分析
    4.1 系统设计与实现
        4.1.1 系统实现基础技术介绍
        4.1.2 系统框架和模块设计
        4.1.3 系统界面层展示
    4.2 实验结果与分析
        4.2.1 实验环境和内容
        4.2.2 多种类型网站实验结果及分析
            4.2.2.1 大众点评网实验分析
            4.2.2.2 新浪股票网站实验分析
            4.2.2.3 搜狐军事网站实验分析
            4.2.2.4 新华网论坛实验分析
        4.2.3 初始化阶段实验结果及分析
        4.2.4 正式爬取阶段与现有技术实验对比分析
            4.2.4.1 配置信息便捷性
            4.2.4.2 数据爬取效率
            4.2.4.3 数据采集完整性
            4.2.4.4 数据采集准确性
    4.3 本章小结
第五章总结与展望
    5.1 全文总结
    5.2 工作展望
致谢
参考文献
攻读硕士期间取得的研究成果

【相似文献】

相关期刊论文前10条

1 邬建民;高昕忠;;企业计算机集成制造系统(CIMS)中实体信息编码方案探讨[J];国防技术基础;2007年06期

2 韩晓光;赵志军;蔡郁知;;基于MGS平台的VR-Forces实体信息显示方法[J];火力与指挥控制;2015年11期

3 谢志平;神经系统中心理信息运作过程和机理[J];湖南大学学报(自然科学版);1999年02期

4 朱菁菁;;瑞士邮政发行首份定制型日报[J];邮政研究;2012年04期

5 吴荣政;档案与文物[J];贵州档案;1996年02期

6 江向东;数字图书馆实体信息资源建设的版权问题分析[J];中国图书馆学报;2004年05期

7 张雪英;叶鹏;王曙;杜咪;;基于深度信念网络的地质实体识别方法[J];岩石学报;2018年02期

8 王松林;;信息组织工具论[J];山东图书馆季刊;2008年04期

9 龙素华;AutoCAD形文件的自动生成[J];扬州职业大学学报;1999年03期

10 邓松;;实体信息集成检索的深网数据源选择[J];计算机工程;2016年10期

相关硕士学位论文前10条

1 高峰;WEB实体信息的提取算法及其应用研究[D];电子科技大学;2018年

2 孙程程;基于协同搜索的实体信息发现方法设计与实现[D];国防科学技术大学;2014年

3 尹杰;对象检索中的实体信息查询扩展算法研究[D];北京邮电大学;2014年

4 郑逢强;本体在名实体信息抽取中的应用研究[D];哈尔滨工业大学;2009年

5 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年

6 钟云;基于图的中文集成实体链接算法研究与实现[D];电子科技大学;2017年

7 党晓婉;Deep Web环境下实体的信息抽取与识别研究[D];辽宁大学;2013年

8 周安林;基于Web的实体信息提取和搜索研究[D];电子科技大学;2014年

9 袁金伟;基于网络百科的中文实体链接研究[D];西南交通大学;2017年

10 赖思超;平面几何图像中实体信息的抽取与表示[D];华中师范大学;2017年

本文编号：2862935

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2862935.html

上一篇：Google学术搜索引擎与跨库检索系统的功能对比
下一篇：企业互联网负面信息抓取研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|