当前位置:主页 > 管理论文 > 移动网络论文 >

精确web信息抽取系统的设计与实现

发布时间:2017-10-15 11:32

  本文关键词:精确web信息抽取系统的设计与实现


  更多相关文章: Web信息抽取 网络爬虫 XPath 信息检索


【摘要】:Web信息已经成为各领域最具潜力和价值的巨大信息来源,当前的一些研究和应用,如推荐系统、观点挖掘与分析、数据融合和集成系统等都是基于结构化的Web数据。面对海量的繁杂的Web信息,如何从中快速有效地查找和获取所需的信息来用作进一步的挖掘,获取更多的潜在价值是一个具有挑战性的技术难题,也是一个非常有研究意义和实用意义的课题。精确Web信息抽取的研究正是为满足这些需求而出现的热点研究领域。所谓Web信息抽取是指从半结构化或无结构化的Web页面中准确的抽取数据,转换成结构化的数据以进行挖掘和利用的过程。 本文的内容主要包括:分析比较当前的信息抽取研究方法及抽取模型,对各类站点的网页特点进行研究;研究抽取模版及利用基于用户交互的抽取规则生成方法,设计了几类网页抽取元素和导航元素,元素的定位与识别主要采用基于XPath的方式;设计并开发实现该信息抽取系统,具体的开发采用Qt开发框架、Python和JavaScript技术,实现的抽取系统提供一个Webkit浏览器引擎用于网页渲染和Ajax动态内容加载及用户的浏览交互。 实验结果证明本文研究实现的精确Web信息抽取系统能满足目前各类站点精确Web信息抽取的需求,如新闻类、电商类、微博类等站点的Web信息抽取,抽取结果数据能保存为各种结构化的数据格式(数据库、Excel、格式文本文件),并且该系统的信息抽取的效率和精确性能达到较好的效果。
【关键词】:Web信息抽取 网络爬虫 XPath 信息检索
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-14
  • 1.1 研究背景与意义9-10
  • 1.2 国内外研究现状10-12
  • 1.3 研究内容12-13
  • 1.4 本文组织结构安排13-14
  • 第二章 相关概念、理论与关键技术14-22
  • 2.1 信息抽取相关概念14-17
  • 2.1.1 HTML & DOM14-15
  • 2.1.2 XML & XPath15-16
  • 2.1.3 正则表达式16-17
  • 2.2 爬虫技术17-18
  • 2.3 页面渲染引擎18-19
  • 2.4 信息检索模型19-21
  • 2.4.1 布尔模型20
  • 2.4.2 向量空间模型20-21
  • 2.5 本章小结21-22
  • 第三章 精确WEB信息抽取系统的研究22-31
  • 3.1 精确WEB信息抽取模型22-23
  • 3.2 抽取规则与基于XML的抽取模版生成23-26
  • 3.2.1 基于用户交互的抽取信息定义及规则生成24
  • 3.2.2 模版引擎与抽取模版生成24-26
  • 3.3 抽取字段元素和导航元素类型研究26-28
  • 3.4 网页浏览导航模型28-29
  • 3.5 网页元素识别29-30
  • 3.6 本章小结30-31
  • 第四章 精确WEB信息抽取系统的设计31-42
  • 4.1 系统设计目标31
  • 4.2 系统总体设计31-34
  • 4.2.1 系统处理流程31-33
  • 4.2.2 总体架构和模块设计33-34
  • 4.3 系统各功能模块的设计34-35
  • 4.3.1 网页数据识别与标注模块34
  • 4.3.2 抽取规则与模版生成模块34
  • 4.3.3 抽取任务运行模块34-35
  • 4.3.4 数据集成模块35
  • 4.4 元素与导航类型设计35-38
  • 4.4.1 网页抽取元素类型35-37
  • 4.4.2 导航元素类型37-38
  • 4.5 数据结构设计38-40
  • 4.6 接口设计40
  • 4.7 系统主界面的设计40-41
  • 4.8 本章小结41-42
  • 第五章 精确WEB信息抽取系统的实现42-55
  • 5.1 开发技术选型43
  • 5.2 网页数据识别与标注模块的实现43-48
  • 5.3 抽取模版生成模块的实现48-51
  • 5.3.1 抽取模版的定义48-50
  • 5.3.2 抽取模版文件的生成50-51
  • 5.4 抽取任务运行模块的实现51-53
  • 5.5 数据集成模块的实现53-54
  • 5.6 本章小结54-55
  • 第六章 实验结果分析55-59
  • 6.1 实验环境55
  • 6.2 评估方法及实验结果55-58
  • 6.2.1 评估方法55-56
  • 6.2.2 Web信息抽取系统实验56-58
  • 6.3 结果分析58
  • 6.4 本章小结58-59
  • 第七章 总结与展望59-61
  • 7.1 论文工作总结59-60
  • 7.2 展望60-61
  • 参考文献61-63
  • 致谢63-64
  • 攻读学位期间发表的学术论文目录64

【共引文献】

中国期刊全文数据库 前8条

1 李广建;乔建忠;;全自动生成网页信息抽取包装器的主要技术方法研究[J];情报理论与实践;2010年01期

2 李霞;蒋盛益;;基于DOM树及行文本统计去噪的网页文本抽取技术[J];山东大学学报(理学版);2012年03期

3 蔡李;单艳;薛化建;苏国平;;维吾尔文网页正文抽取系统的研究与实现[J];计算机工程与设计;2012年02期

4 赵宏亮;杨鹤标;;面向领域的语义搜索引擎的应用研究[J];计算机工程与设计;2012年05期

5 吕国英;冯艳;李茹;;基于CFN的教材内容提要信息抽取研究[J];山西大学学报(自然科学版);2010年01期

6 魏瑞斌;;基于微软学术搜索的信息检索研究的文献计量分析[J];图书情报工作;2012年20期

7 沈靖喃;黄雪丹;杜妮香;何建锋;;畜牧养殖培训系统设计与开发——以生猪养殖技术培训系统为例[J];软件导刊;2014年08期

8 陈朝;;面向双维度标签语义聚合在Folksonomy导航架构研究[J];图书馆学研究;2015年13期

中国重要会议论文全文数据库 前5条

1 王雅莉;古丽拉·阿东别克;;哈萨克语通用词汇自动提取方法研究与实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 陈志峰;朱巧明;;面向课程教学的中文问答系统研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 丁凡;王斌;白硕;刘宜轩;李亚楠;;文本检索中句法信息的有效利用研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 吕国英;冯艳;李茹;;基于中文框架语义的信息抽取研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

5 林建方;李生;郑德权;;基于词语搭配关系的查询扩展方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

中国博士学位论文全文数据库 前10条

1 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年

2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

3 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年

4 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

5 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年

6 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年

7 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年

8 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年

9 何川;分布式信息检索中的若干重要问题研究[D];北京邮电大学;2012年

10 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年

中国硕士学位论文全文数据库 前10条

1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年

2 齐保元;知识文档的语义检索方法研究与实现[D];首都师范大学;2011年

3 李亚洲;文本分类语料库自动构建系统的研究与改进[D];武汉理工大学;2011年

4 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年

5 田鹤楠;质检总局舆情监控系统中信息抽取的研究[D];北京邮电大学;2011年

6 祝美莲;半结构化网页的信息抽取技术研究[D];中国石油大学;2011年

7 邓飞;基于本体的查询扩展研究[D];辽宁科技大学;2011年

8 卢振;面向教育新闻的主题爬虫设计与实现[D];华中科技大学;2011年

9 于鹏;基于自然语言打印机人机交互方法研究与实现[D];大连理工大学;2011年

10 白宇;中文问答系统中多策略答案抽取技术的研究[D];沈阳航空工业学院;2008年



本文编号:1036886

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1036886.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2c1da***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com