WEB实体信息的提取算法及其应用研究
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP393.09;TP391.1
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文主要研究内容和贡献
1.4 本文结构安排
第二章 论文相关基础技术知识介绍
2.1 网络爬虫技术概述
2.1.1 网络爬虫基本流程
2.1.2 网络爬虫搜索策略
2.1.3 网络爬虫分类
2.2 WEB信息提取经典技术概述
2.2.1 WEB信息提取技术特点
2.2.2 WEB信息提取技术分类
2.3 本章小结
第三章 WEB实体信息的提取算法
3.1 WEB实体信息提取算法的研究基础和目标
3.1.1 WEB实体信息提取算法的研究基础
3.1.2 WEB实体信息提取算法实现目标及框架
3.2 有监督的广度优先网页带权搜索策略
3.2.1 正则表达式
3.2.2 正则表达式过滤器
3.2.2.1 URL识别
3.2.2.2 URL正则表达式生成规则
3.2.2.3 URL聚类
3.2.3 带权网页计算
3.2.3.1 主题孤岛问题
3.2.3.2 基于隧道技术的网页权值计算
3.3 数据解析路径模板自动抽取
3.3.1 数据解析路径模板自动生成提出基础
3.3.2 提取目标页面公共节点路径模板
3.3.3 生成精确数据解析路径
3.4 本章小结
第四章 通用型垂直爬虫系统的实现及实验分析
4.1 系统设计与实现
4.1.1 系统实现基础技术介绍
4.1.2 系统框架和模块设计
4.1.3 系统界面层展示
4.2 实验结果与分析
4.2.1 实验环境和内容
4.2.2 多种类型网站实验结果及分析
4.2.2.1 大众点评网实验分析
4.2.2.2 新浪股票网站实验分析
4.2.2.3 搜狐军事网站实验分析
4.2.2.4 新华网论坛实验分析
4.2.3 初始化阶段实验结果及分析
4.2.4 正式爬取阶段与现有技术实验对比分析
4.2.4.1 配置信息便捷性
4.2.4.2 数据爬取效率
4.2.4.3 数据采集完整性
4.2.4.4 数据采集准确性
4.3 本章小结
第五章 总结与展望
5.1 全文总结
5.2 工作展望
致谢
参考文献
攻读硕士期间取得的研究成果
【相似文献】
相关期刊论文 前10条
1 邬建民;高昕忠;;企业计算机集成制造系统(CIMS)中实体信息编码方案探讨[J];国防技术基础;2007年06期
2 韩晓光;赵志军;蔡郁知;;基于MGS平台的VR-Forces实体信息显示方法[J];火力与指挥控制;2015年11期
3 谢志平;神经系统中心理信息运作过程和机理[J];湖南大学学报(自然科学版);1999年02期
4 朱菁菁;;瑞士邮政发行首份定制型日报[J];邮政研究;2012年04期
5 吴荣政;档案与文物[J];贵州档案;1996年02期
6 江向东;数字图书馆实体信息资源建设的版权问题分析[J];中国图书馆学报;2004年05期
7 张雪英;叶鹏;王曙;杜咪;;基于深度信念网络的地质实体识别方法[J];岩石学报;2018年02期
8 王松林;;信息组织工具论[J];山东图书馆季刊;2008年04期
9 龙素华;AutoCAD形文件的自动生成[J];扬州职业大学学报;1999年03期
10 邓松;;实体信息集成检索的深网数据源选择[J];计算机工程;2016年10期
相关硕士学位论文 前10条
1 高峰;WEB实体信息的提取算法及其应用研究[D];电子科技大学;2018年
2 孙程程;基于协同搜索的实体信息发现方法设计与实现[D];国防科学技术大学;2014年
3 尹杰;对象检索中的实体信息查询扩展算法研究[D];北京邮电大学;2014年
4 郑逢强;本体在名实体信息抽取中的应用研究[D];哈尔滨工业大学;2009年
5 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
6 钟云;基于图的中文集成实体链接算法研究与实现[D];电子科技大学;2017年
7 党晓婉;Deep Web环境下实体的信息抽取与识别研究[D];辽宁大学;2013年
8 周安林;基于Web的实体信息提取和搜索研究[D];电子科技大学;2014年
9 袁金伟;基于网络百科的中文实体链接研究[D];西南交通大学;2017年
10 赖思超;平面几何图像中实体信息的抽取与表示[D];华中师范大学;2017年
本文编号:2862935
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2862935.html