网络信息自动化高效抽取技术研究
发布时间:2021-03-25 19:56
随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构的特征,为网络信息抽取工作带来了巨大的挑战。本文围绕网络信息的海量规模与高度异构的特征,分数据记录抽取和数据单元抽取两个层次,对自动化、高效抽取网络信息的技术展开了相关研究,研究内容包括以下四个方面:1.针对网络信息高度异构的特点,提出新的自动化的基于锚点树的数据记录的抽取方法(Mining data records Based on Anchor Trees,MiBAT)。首先分析了当数据记录含有一定的不规则内容时(例如用户原创内容)时,现有的基于相似度检测的自动化方法并不能取得理想的抽取效果。本文提出锚点的概念,对应数据记录中的某些关键的数据单元。例如,每个用户创建、发表的帖子记录(例如在线论坛帖子、用户评论等)都含有发...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:127 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.2 网络信息抽取的相关概念
1.2.1 HTML网页与DOM树
1.2.2 树匹配与标签路径
1.3 网络信息抽取的研究现状
1.3.1 相关工作分类
1.3.2 人工化方法
1.3.3 半自动化方法
1.3.4 全自动化方法
1.3.5 综合对比与总结
1.4 论文主要研究内容
1.4.1 问题定义
1.4.2 研究综述
第2章 基于锚点树的数据记录抽取方法
2.1 引言
2.2 MiBAT综述
2.3 基于枚举子树的锚点树寻找方法
2.3.1 树结构相似度检测准则
2.3.2 基于枚举子树的锚点树寻找算法
2.3.3 时间复杂度分析
2.4 确定数据记录边界
2.4.1 数据记录边界的三种情形
2.4.2 数据记录边界确定算法
2.4.3 时间复杂度分析
2.5 论坛帖子抽取实验
2.5.1 数据集
2.5.2 主要区域选择
2.5.3 评测指标
2.5.4 基准方法
2.5.5 评测结果
2.5.6 实例分析
2.6 博客与点评网站的用户评论抽取实验
2.7 与监督学习方法的对比实验
2.8 本章小结
第3章 锚点树的快速寻找方法
3.1 引言
3.2 基于标签路径聚集的锚点树寻找方法
3.2.1 基于标签路径聚集的锚点树寻找算法
3.2.2 时间复杂度分析
3.2.3 引入锚点的兄弟结点约束
3.3 两种锚点树寻找算法的比较
3.3.1 相似性衡量方法
3.3.2 算法过程和时间复杂度
3.3.3 锚点解释方法
3.3.4 MiBAT的整体时间复杂度
3.4 两种MiBAT方法的对比实验
3.4.1 运行效率对比
3.4.2 抽取准确度对比
3.5 本章小结
第4章 通用锚点的检测方法
4.1 引言
4.2 通用锚点
4.2.1 通用锚点的定义
4.2.2 基于通用锚点的锚点树寻找方法
4.2.3 通用锚点与领域锚点的比较
4.3 实验
4.3.1 通用锚点的计算设置
4.3.2 两种锚点抽取效果对比
4.3.3 抽取搜索结果记录
4.3.4 基于实例比较MiBAT的不同变体方法
4.4 本章小结
第5章 DOM树的快速匹配方法
5.1 引言
5.2 基于哈希标签路径
5.2.1 基于哈希标签路径的树匹配算法
5.2.2 时间复杂度分析
5.2.3 匹配结果分析
5.3 基于标签路径序列最长公共子列
5.3.1 基于标签路径序列最长公共子列的树匹配算法
5.3.2 时间复杂度分析
5.3.3 匹配结果分析
5.4 实验
5.4.1 实验设置
5.4.2 算法运行效率对比
5.4.3 树匹配准确度对比
5.4.4 数据单元对齐准确度对比
5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]基于智能的网页信息提取系统的研究与设计[J]. 刘亚东,彭舰,张达平. 四川大学学报(自然科学版). 2009(04)
[2]基于模板的Web信息自动提取方法[J]. 郑长松,傅彦,佘莉. 计算机应用研究. 2009(02)
[3]针对模板生成网页的一种数据自动抽取方法(英文)[J]. 杨少华,林海略,韩燕波. 软件学报. 2008(02)
[4]一种全自动生成网页信息抽取Wrapper的方法[J]. 梅雪,程学旗,郭岩,张刚,丁国栋. 中文信息学报. 2008(01)
[5]基于DOM的Web信息提取[J]. 李效东,顾毓清. 计算机学报. 2002(05)
[6]基于样本实例的Web信息抽取[J]. 张绍华,徐林昊,杨文柱,薛文玲,李天柱. 河北大学学报(自然科学版). 2001(04)
[7]XWIS中基于预定义模式的包装器[J]. 孟小峰,王海燕,谷明哲,王静. 计算机应用. 2001(09)
[8]基于多层模式的多记录网页信息抽取方法[J]. 朱明,王军,王俊普. 计算机工程. 2001(09)
本文编号:3100231
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:127 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.2 网络信息抽取的相关概念
1.2.1 HTML网页与DOM树
1.2.2 树匹配与标签路径
1.3 网络信息抽取的研究现状
1.3.1 相关工作分类
1.3.2 人工化方法
1.3.3 半自动化方法
1.3.4 全自动化方法
1.3.5 综合对比与总结
1.4 论文主要研究内容
1.4.1 问题定义
1.4.2 研究综述
第2章 基于锚点树的数据记录抽取方法
2.1 引言
2.2 MiBAT综述
2.3 基于枚举子树的锚点树寻找方法
2.3.1 树结构相似度检测准则
2.3.2 基于枚举子树的锚点树寻找算法
2.3.3 时间复杂度分析
2.4 确定数据记录边界
2.4.1 数据记录边界的三种情形
2.4.2 数据记录边界确定算法
2.4.3 时间复杂度分析
2.5 论坛帖子抽取实验
2.5.1 数据集
2.5.2 主要区域选择
2.5.3 评测指标
2.5.4 基准方法
2.5.5 评测结果
2.5.6 实例分析
2.6 博客与点评网站的用户评论抽取实验
2.7 与监督学习方法的对比实验
2.8 本章小结
第3章 锚点树的快速寻找方法
3.1 引言
3.2 基于标签路径聚集的锚点树寻找方法
3.2.1 基于标签路径聚集的锚点树寻找算法
3.2.2 时间复杂度分析
3.2.3 引入锚点的兄弟结点约束
3.3 两种锚点树寻找算法的比较
3.3.1 相似性衡量方法
3.3.2 算法过程和时间复杂度
3.3.3 锚点解释方法
3.3.4 MiBAT的整体时间复杂度
3.4 两种MiBAT方法的对比实验
3.4.1 运行效率对比
3.4.2 抽取准确度对比
3.5 本章小结
第4章 通用锚点的检测方法
4.1 引言
4.2 通用锚点
4.2.1 通用锚点的定义
4.2.2 基于通用锚点的锚点树寻找方法
4.2.3 通用锚点与领域锚点的比较
4.3 实验
4.3.1 通用锚点的计算设置
4.3.2 两种锚点抽取效果对比
4.3.3 抽取搜索结果记录
4.3.4 基于实例比较MiBAT的不同变体方法
4.4 本章小结
第5章 DOM树的快速匹配方法
5.1 引言
5.2 基于哈希标签路径
5.2.1 基于哈希标签路径的树匹配算法
5.2.2 时间复杂度分析
5.2.3 匹配结果分析
5.3 基于标签路径序列最长公共子列
5.3.1 基于标签路径序列最长公共子列的树匹配算法
5.3.2 时间复杂度分析
5.3.3 匹配结果分析
5.4 实验
5.4.1 实验设置
5.4.2 算法运行效率对比
5.4.3 树匹配准确度对比
5.4.4 数据单元对齐准确度对比
5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]基于智能的网页信息提取系统的研究与设计[J]. 刘亚东,彭舰,张达平. 四川大学学报(自然科学版). 2009(04)
[2]基于模板的Web信息自动提取方法[J]. 郑长松,傅彦,佘莉. 计算机应用研究. 2009(02)
[3]针对模板生成网页的一种数据自动抽取方法(英文)[J]. 杨少华,林海略,韩燕波. 软件学报. 2008(02)
[4]一种全自动生成网页信息抽取Wrapper的方法[J]. 梅雪,程学旗,郭岩,张刚,丁国栋. 中文信息学报. 2008(01)
[5]基于DOM的Web信息提取[J]. 李效东,顾毓清. 计算机学报. 2002(05)
[6]基于样本实例的Web信息抽取[J]. 张绍华,徐林昊,杨文柱,薛文玲,李天柱. 河北大学学报(自然科学版). 2001(04)
[7]XWIS中基于预定义模式的包装器[J]. 孟小峰,王海燕,谷明哲,王静. 计算机应用. 2001(09)
[8]基于多层模式的多记录网页信息抽取方法[J]. 朱明,王军,王俊普. 计算机工程. 2001(09)
本文编号:3100231
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3100231.html