基于条件随机场的元数据自动提取技术研究
发布时间:2020-11-21 01:40
伴随着数字图书馆技术的发展,电子文档成为人们获取信息的主要来源。为了使用户更方便快捷地发现所需要的文献资源,元数据信息提取技术的研究得到越来越多的关注。元数据信息的自动提取解决了早期主要靠人工阅读文档找出相应的元数据这项费时费力的工作,并为电子资源的有序组织、适度控制和高效检索提供更为便利的条件。随着机器学习理论的逐渐成熟,元数据的自动提取成为了当今的研究热点。本文主要对基于条件随机场的元数据自动提取的相关技术进行了研究。 首先,针对以单词为单位组成的论文头部文本序列来进行元数据提取时存在任务量大,抽取精度低等问题,提出一种文本分块策略来对其进行分块,详细阐述了分块的过程,使得每一个抽取域和一个具体的文本分块相对应。在分块的基础上利用文本中含有特征词等信息,通过定义特征提取规则来确定其状态。在路径搜索过程中,采用启发式搜索算法来确定剩余块的状态。 其次,为了实现引文元数据的精确抽取,根据引文信息格式的多样性和提取域的密集性,在条件随机场模型的基础上融合重排序来提取引文元数据,将条件随机场和重排序形成串行处理流程,通过对条件随机模型生成的多个候选标注进行等级排序实现引文元数据的提取。 最后,对上述研究方法进行了实验验证及分析,和原有的方法进行了对比,并对今后的研究工作进行了展望。
【学位单位】:燕山大学
【学位级别】:硕士
【学位年份】:2009
【中图分类】:G250.76;TP391.1
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景及意义
1.2 国内外的研究状况综述
1.2.1 信息抽取的历史和现状
1.2.2 元数据提取技术的研究现状
1.3 本文的主要研究内容
1.4 本文的组织结构
第2章 条件随机场模型理论概述
2.1 统计语言模型概述
2.2 条件随机场理论
2.2.1 无向图模型
2.2.2 条件随机场原理
2.3 条件随机场和其他模型的比较
2.3.1 隐马尔可夫模型
2.3.2 最大熵马尔可夫模型
2.4 条件随机场的优点与不足
2.5 条件随机场的参数估计
2.5.1 最大似然估计
2.5.2 参数估计的优化
2.6 本章小结
第3章 基于启发式搜索的论文头部元数据提取
3.1 元数据概述
3.1.1 论文元数据的作用
3.1.2 论文头部数据集的定义
3.2 论文头部的特征选择
3.2.1 局部特征
3.2.2 版面特征
3.2.3 外部词典特征
3.2.4 状态转移特征
3.3 论文头部的相关工作和技术
3.3.1 文本分块
3.3.2 特征提取规则
3.3.3 基于启发式的路径搜索算法
3.4 数据稀疏问题的解决
3.4.1 数据稀疏问题
3.4.2 统计平滑技术
3.4.3 数据稀疏问题的解决
3.5 特征提取和启发式搜索算法的结合
3.6 论文头部元数据提取
3.7 本章小结
第4章 融合重排序的引文元数据提取
4.1 引文元数据概述
4.1.1 引文信息的提取任务
4.1.2 引文元数据集的定义
4.2 重排序
4.2.1 相关概念的定义和表示
4.2.2 候选标注集合的产生
4.3 特征选择和预抽取支持向量
4.4 排序支持向量机
4.5 引文元数据的提取
4.6 本章小结
第5章 实验验证与分析
5.1 数据集和实验环境
5.1.1 实验数据来源
5.1.2 实验环境
5.2 论文头部的元数据提取实验
5.2.1 实验步骤
5.2.2 实验结果与分析
5.3 引文元数据的实验结果与分析
5.4 本章小结
结论
参考文献
攻读硕士学位期间承担的科研任务与主要成果
致谢
作者简介
【参考文献】
本文编号:2892321
【学位单位】:燕山大学
【学位级别】:硕士
【学位年份】:2009
【中图分类】:G250.76;TP391.1
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景及意义
1.2 国内外的研究状况综述
1.2.1 信息抽取的历史和现状
1.2.2 元数据提取技术的研究现状
1.3 本文的主要研究内容
1.4 本文的组织结构
第2章 条件随机场模型理论概述
2.1 统计语言模型概述
2.2 条件随机场理论
2.2.1 无向图模型
2.2.2 条件随机场原理
2.3 条件随机场和其他模型的比较
2.3.1 隐马尔可夫模型
2.3.2 最大熵马尔可夫模型
2.4 条件随机场的优点与不足
2.5 条件随机场的参数估计
2.5.1 最大似然估计
2.5.2 参数估计的优化
2.6 本章小结
第3章 基于启发式搜索的论文头部元数据提取
3.1 元数据概述
3.1.1 论文元数据的作用
3.1.2 论文头部数据集的定义
3.2 论文头部的特征选择
3.2.1 局部特征
3.2.2 版面特征
3.2.3 外部词典特征
3.2.4 状态转移特征
3.3 论文头部的相关工作和技术
3.3.1 文本分块
3.3.2 特征提取规则
3.3.3 基于启发式的路径搜索算法
3.4 数据稀疏问题的解决
3.4.1 数据稀疏问题
3.4.2 统计平滑技术
3.4.3 数据稀疏问题的解决
3.5 特征提取和启发式搜索算法的结合
3.6 论文头部元数据提取
3.7 本章小结
第4章 融合重排序的引文元数据提取
4.1 引文元数据概述
4.1.1 引文信息的提取任务
4.1.2 引文元数据集的定义
4.2 重排序
4.2.1 相关概念的定义和表示
4.2.2 候选标注集合的产生
4.3 特征选择和预抽取支持向量
4.4 排序支持向量机
4.5 引文元数据的提取
4.6 本章小结
第5章 实验验证与分析
5.1 数据集和实验环境
5.1.1 实验数据来源
5.1.2 实验环境
5.2 论文头部的元数据提取实验
5.2.1 实验步骤
5.2.2 实验结果与分析
5.3 引文元数据的实验结果与分析
5.4 本章小结
结论
参考文献
攻读硕士学位期间承担的科研任务与主要成果
致谢
作者简介
【参考文献】
相关期刊论文 前10条
1 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
2 赵英环,郭贵锁;基于主题词迭代提取的信息检索算法[J];华南理工大学学报(自然科学版);2004年S1期
3 李朝光,张铭,邓志鸿,杨冬青,唐世渭;论文元数据信息的自动抽取[J];计算机工程与应用;2002年21期
4 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
5 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
6 张玲,黄铁军,高文;基于隐马尔可夫模型的引文信息提取[J];计算机工程;2003年20期
7 狄涤,周竞扬,潘金贵;基于规则的HTML文档元数据提取[J];计算机工程;2004年09期
8 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
9 李青,焦李成,周伟达;基于向量投影的支撑向量预选取[J];计算机学报;2005年02期
10 常娥;何琳;侯汉清;;元数据自动生成技术研究[J];情报理论与实践;2006年05期
本文编号:2892321
本文链接:https://www.wllwen.com/tushudanganlunwen/2892321.html