基于隐马尔科夫模型在网页信息抽取中的研究与应用
发布时间:2017-07-05 12:28
本文关键词:基于隐马尔科夫模型在网页信息抽取中的研究与应用
更多相关文章: 隐马尔可夫模型 最大熵原理 网页信息抽取 网页内容块
【摘要】:互联网技术的快速发展带动了网上数据呈指数级增长,也标示着大数据时代的到来,同时人们也创造了大量的半结构化或非结构化数据,而信息抽取技术的意义就是从大量的数据中准确、快速地按需求获取目标信息,并进一步提高信息的利用率。所以,需要一种自动化工具来帮助人们从海量数据中快速发现真正需要的信息,并将这些信息自动分类、提取、重组,使其有益于后续的检查、比较及自动处理,由此需要相应成熟的信息抽取技术。但是在该领域还存在着很多问题,诸如:信息抽取性能不足、自动化程度不高(训练语料的收集、标注需要大量人工操作)、适用范围有限、缺乏移植能力。本文分析了在利用隐马尔可夫模型(HMM)训练建立信息抽取方法中遇到的问题和不足后,借助最大熵原理在处理特征知识表示方面的优势,提出了改进的HMM。在HMM中加入前向、后向依赖,利用发射单元特征信息和上下文信息来调整模型参数。改进后的HMM状态转移概率和观察值发射概率不仅依赖于模型的当前状态值,而且可以以模型的前向状态值和后向特征值加以修正。考虑网页数据的特点,文中通过利用网页所特有的属性提出一种适用于网页信息抽取的模型,该模型的建立是基于改进的HMM。利用网页中相似或相关的内容聚集在一起的性质,在本文中使用网页内容块作为基本抽取单元(发射单元);利用网页布局结构使用VIPS算法,得到适用于网页的状态转移顺序;利用网页数据中的其他属性信息(语义、布局、格式等),得到适用于网页的观察值发射概率的计算公式。而文中网页信息抽取模型整体上类似分层结构,通过对网页的分析两次选取不同的基本抽取单元完成对网页数据的精细抽取。
【关键词】:隐马尔可夫模型 最大熵原理 网页信息抽取 网页内容块
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要6-7
- ABSTRACT7-11
- 第一章 绪论11-17
- 1.1 信息抽取的背景与意义11-12
- 1.2 信息抽取国内外研究现状12-13
- 1.3 信息抽取现阶段存在的问题及未来的挑战和趋势13-14
- 1.3.1 信息抽取存在的问题13-14
- 1.3.2 信息抽取的发展趋势14
- 1.4 论文的研究目标和工作内容14-15
- 1.5 论文的组织结构15-16
- 1.6 本章小结16-17
- 第二章 相关理论基础与技术方法17-31
- 2.1 信息抽取的基本概念17-19
- 2.1.1 信息抽取的定义17-18
- 2.1.2 信息抽取的任务及常用方法18-19
- 2.2 网页信息抽取的基本概念和方法19-21
- 2.2.1 网页信息抽取的定义19-20
- 2.2.2 网页信息抽取的主流方法20-21
- 2.3 隐马尔可夫模型21-30
- 2.3.1 隐马尔可夫模型简介23-25
- 2.3.2 隐马尔科夫模型的三个主要问题及解决算法25-29
- 2.3.3 数据稀疏问题及解决方法29-30
- 2.4 本章小结30-31
- 第三章 基于最大熵原理提出的改进的隐马尔科夫模型31-45
- 3.1 扩展HMM前提假设的改进方法31-37
- 3.1.1 扩展HMM前提假设的基本理论32-33
- 3.1.2 二阶隐马尔可夫模型33-37
- 3.2 改进的隐马尔可夫模型的思想概述37-43
- 3.2.1 最大熵原理38-40
- 3.2.2 改进的隐马尔可夫模型的定义40-43
- 3.3 本章小结43-45
- 第四章 基于改进的隐马尔科夫模型在网页信息抽取中解决方案的设计45-57
- 4.1 网页信息抽取模型设计概览45-48
- 4.2 网页数据准备阶段48-51
- 4.2.1 数据预处理48-49
- 4.2.2 模型结构的选择49-51
- 4.3 模型训练阶段的设计实现51-54
- 4.3.1 改进的HMM相关参数的训练51-53
- 4.3.2 针对模型参数进一步优化的改进建议53-54
- 4.4 完成信息抽取阶段54-55
- 4.4.1 改进的viterbi算法54-55
- 4.5 本章小结55-57
- 第五章 基于改进的隐马尔可夫模型在网页信息抽取中研究的实验性验证57-65
- 5.1 信息抽取的评价指标57-58
- 5.2 验证改进的HMM的有效性58-60
- 5.3 基于改进的HMM的网页信息抽取模型的评估60-63
- 5.3.1 数据集大小对训练结果的影响62-63
- 5.4 本章小结63-65
- 第六章 总结与展望65-67
- 6.1 论文的特色65-66
- 6.2 后续工作展望66-67
- 参考文献67-73
- 作者简历及攻读硕士学位期间发表的学术论文73-75
- 致谢75
【参考文献】
中国期刊全文数据库 前5条
1 郭喜跃;何婷婷;;信息抽取研究综述[J];计算机科学;2015年02期
2 李荣;冯丽萍;王鸿斌;;基于改进遗传退火HMM的Web信息抽取研究[J];计算机应用与软件;2014年04期
3 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期
4 王达;崔蕊;;数据平滑技术综述[J];电脑知识与技术;2009年17期
5 杨少华;林海略;韩燕波;;针对模板生成网页的一种数据自动抽取方法(英文)[J];软件学报;2008年02期
中国硕士学位论文全文数据库 前1条
1 许志坚;中文Deep Web数据集成系统的研究与应用[D];华东师范大学;2013年
,本文编号:522013
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/522013.html