Web信息抽取框架技术研究

发布时间：2017-09-21 00:00

本文关键词：Web信息抽取框架技术研究

【摘要】：从非结构化和半结构化的互联网信息中抽取结构化信息的技术广泛应用于商业数据挖掘、社交网络分析和垂直搜索引擎等领域。信息结构化包括一系列环节：设定信息抽取范围、网页爬取、网页预处理、定义抽取内容、构建抽取规则和信息存储,进一步可以分为应用依赖的和应用独立的环节。本文提出信息结构化的一般框架,基本思想是设定信息抽取的范围和内容是框架中应用依赖的环节,而其他环节具有应用独立性,通过设计一套描述方法配置应用依赖的操作,将应用独立的环节向开发人员屏蔽,提高框架的通用性和应用开发效率。具体贡献如下：(1)设计并实现了一个通用的Web信息抽取框架。从信息结构化流程中抽象出该框架,框架提供了一个统一的Web信息抽取模型；基于抽象和信息隐蔽的工程原则对框架进行总体设计,将信息结构化过程抽象为应用依赖的信息范围和内容描述与应用独立的其他环节,让开发人员配置应用依赖的操作而屏蔽应用独立的环节,提高框架的通用性和应用开发效率。(2)提出并实现了一种基于知识图谱的词类生成算法。本文引入词类的概念分析网页主题,并使用文档-词类向量对网页分类,而手工构建词类比较困难。本文基于知识图谱自动构建有效的词类,降低了词类构建的难度。(3)提出并实现了一种基于DOM节点分类的信息抽取方法。采用监督学习的方法构建信息的抽取规则,将信息抽取问题看作分类问题,以信息所在的DOM节点为粒度进行分类,提出了DOM节点的样式特征、内容特征和上下文特征。(4)在文献[46]的数据集上进行了网页分类实验,与基准方法进行对比,实验结果表明本文中提出的方法在分类效果上优于基准方案。在从Amazon等网站抽取的图书信息页面数据集上进行了信息抽取实验,其中对图书的标题、作者和价格信息进行抽取,实验结果表明本文提出的信息抽取方法能够取得较好的效果,并且具有较好的扩展性。
【关键词】：信息结构化 Web信息抽取框架 分类 知识图谱 抽取规则
【学位授予单位】：东南大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP391.1
【目录】：

摘要5-6
ABSTRACT6-9
第一章绪论9-13
1.1 研究背景和意义9-10
1.2 国内外研究现状10-11
1.3 论文研究内容11-12
1.4 论文组织结构12-13
第二章相关技术与理论13-23
2.1 WEB信息抽取概述13-15
2.1.1 Web信息抽取的定义和评价标准13
2.1.2 Web信息抽取技术分类13-15
2.2 布隆过滤器15-16
2.3 知识图谱技术16-18
2.3.1 知识图谱概述16-18
2.3.2 开源知识图谱Freebase18
2.4 支持向量机18-20
2.5 逻辑回归20-21
2.6 MONGODB数据库21-22
2.7 本章小结22-23
第三章 WEB信息抽取框架设计23-33
3.1 WEB信息抽取框架总体设计23-24
3.2 信息范围配置24-29
3.3 信息内容配置29-32
3.3.1 数据模式定义接口29-30
3.3.2 信息语义配置接口30-32
3.4 本章小结32-33
第四章 WEB信息抽取框架实现33-45
4.1 框架的系统结构与模块划分33
4.2 框架中的功能性模块33-40
4.2.1 网页检索33-35
4.2.2 网页分类35-39
4.2.3 信息抽取39-40
4.3 框架中的非功能性模块40-44
4.3.1 网页去重40-42
4.3.2 网页预处理42-44
4.3.3 信息存储44
4.4 本章小结44-45
第五章框架中的关键技术45-53
5.1 词类构建与文档-词类向量计算45-49
5.1.1 词类定义的难点45
5.1.2 词类生成算法45-48
5.1.3 文档-词类向量48-49
5.2 信息抽取规则构建49-52
5.2.1 Web信息抽取原理49-50
5.2.2 特征向量构建50-51
5.2.3 抽取规则生成51-52
5.3 本章小结52-53
第六章应用场景与实验分析53-61
6.1 典型应用场景53-57
6.1.1 商品信息抽取53-55
6.1.2 网站联系信息抽取55-57
6.2 实验环境57
6.3 网页分类实验57-59
6.3.1 实验数据57
6.3.2 实验结果与分析57-59
6.4 信息抽取实验59-60
6.4.1 实验数据59
6.4.2 实验结果与分析59-60
6.5 本章小结60-61
第七章总结与展望61-62
致谢62-63
参考文献63-66
硕士期间发表的论文66

【参考文献】

中国期刊全文数据库前2条

1 顾韵华;田伟;;基于DOM模型扩展的Web信息提取[J];计算机科学;2009年11期

2 曹冬林;廖祥文;许洪波;白硕;;基于网页格式信息量的博客文章和评论抽取模型[J];软件学报;2009年05期

，

本文编号：891150

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/891150.html

上一篇：从网络新闻评议会和新浪经验谈微博自律
下一篇：搜索引擎机器人抓取行为的合法性剖析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|