基于条件随机场的科研论文信息分层抽取研究
本文关键词:基于条件随机场的科研论文信息分层抽取研究
更多相关文章: 信息抽取 条件随机场 科研论文 分层 文本行
【摘要】: 面对信息爆炸而产生的海量文本信息,如何更快速、准确地从中获取需要的信息,是人们普遍关注的问题。文本信息抽取的研究工作,便是在这种需求背景下产生的,旨在提供从海量联机文本信息中快速、准确获取有用信息的工具和方法。 通过抽取科研论文信息,不仅可以有效地组织和管理这些论文,提高用户检索论文的效率,而且还能够进行大量的统计工作。如论文主题分析及相关论文统计,对期刊、科研单位、某篇论文或某个学者进行引用分析以及发现研究热点和研究趋势等,所以从科研论文中自动抽取信息有着重要的研究价值。 当前,基于统计学习的文本信息抽取方法,是一种相对比较新的文本信息抽取模型,取得了很好的效果,被认为有着很好的应用价值,其中,基于条件随机场模型的科研论文信息抽取方法,更是受到了相当的关注。 在全面分析各种文本信息抽取方法的基础上,重点研究了利用条件随机场对科研论文信息进行抽取,发现其中传统的单纯基于词或基于块的抽取方法存在着以下不足:①把抽取的文本对象固定为单词,或者固定为文本块,无法根据抽取对象的不同情况,在恰当粒度上灵活地进行切分和抽取;②在抽取的过程中,不能够充分地利用文本所包含的完整的特征信息,以及文本中丰富的上下文信息。这种不足,在处理复合抽取域文本和大信息量的抽取域文本时,表现得尤为明显。 因此,在研究国内外相关学者的研究成果的基础上,提出了一种基于条件随机场的科研论文信息分层抽取方法。首先,根据版面格式信息,把开头不为空格的行,与其前面的一个文本行,合并成一个大的文本行,以文本行为基本的抽取单位,从而尽量获得最完整的特征信息;然后,根据科研论文信息分层抽取任务的需要,为条件随机场模型制定合适的特征函数;其次,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的部分判定性特征函数,将输入的文本切分成文本行、块或单个的词等恰当的层次;最后,通过训练获得模型的参数,并对科研论文进行特定文本域的抽取。实验结果表明,该方法的抽取性能,优于基于词或者块的条件随机场模型的信息抽取方法。
【关键词】:信息抽取 条件随机场 科研论文 分层 文本行
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
- 摘要3-4
- ABSTRACT4-9
- 1 绪论9-11
- 1.1 研究背景及意义9
- 1.2 国内外研究现状综述9-10
- 1.3 论文的组织安排10-11
- 2 文本信息抽取11-19
- 2.1 文本信息抽取的含义11-12
- 2.2 文本信息抽取的发展12-15
- 2.3 文本信息抽取的对象15-16
- 2.4 文本信息抽取系统设计常用方法16
- 2.5 文本信息抽取的主要模型16-18
- 2.6 本章小结18-19
- 3 条件随机场模型19-27
- 3.1 条件随机场的概念19-22
- 3.1.1 条件随机场的定义19-20
- 3.1.2 条件随机场的数学表示20-21
- 3.1.3 特征函数选择21
- 3.1.4 矩阵描述和计算21-22
- 3.2 条件随机场的参数估计22-25
- 3.2.1 极大似然估计22-23
- 3.2.2 L-BFGS 算法23-24
- 3.2.3 动态规划24-25
- 3.3 条件随机场的标注25-26
- 3.4 本章小结26-27
- 4 基于条件随机场模型的科研论文信息分层抽取27-35
- 4.1 基于条件随机场的信息抽取方法27
- 4.2 传统抽取方法的特点与不足27-30
- 4.2.1 基于词抽取方法的特点27-28
- 4.2.2 基于块抽取方法的特点28
- 4.2.3 传统抽取方法的不足28-30
- 4.3 改进后的基于条件随机场的信息分层抽取方法30-33
- 4.4 本章小结33-35
- 5 实验与分析35-48
- 5.1 特征集合35-37
- 5.1.1 文本特征35
- 5.1.2 格式特征35-36
- 5.1.3 外部词典特征36
- 5.1.4 状态转移特征36-37
- 5.2 数据集和评测标准37
- 5.2.1 数据集37
- 5.2.2 评测标准37
- 5.3 系统结构37-45
- 5.3.1 CRFs 工具37-43
- 5.3.2 系统框架43-44
- 5.3.3 模块说明44-45
- 5.4 实验结果及分析45-47
- 5.5 本章小结47-48
- 6 结论与展望48-50
- 6.1 总结48
- 6.2 进一步工作48-50
- 致谢50-51
- 参考文献51-55
- 附录55
- A. 作者在攻读硕士学位期间发表的论文55
- B. 作者在攻读硕士学位期间所参与的科研课题55
【相似文献】
中国期刊全文数据库 前10条
1 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
2 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
3 赵玉芹;刘琳;;条件随机场在手势识别中的应用研究[J];科技传播;2011年18期
4 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
5 朱莎莎;刘宗田;付剑锋;朱芳;;基于条件随机场的中文时间短语识别[J];计算机工程;2011年15期
6 张春元;;基于条件随机场的文本分类模型[J];计算机技术与发展;2011年07期
7 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
8 于江德;谷川;葛文英;樊孝忠;;一种基于字和子串联合标注的汉语分词方法[J];山西大学学报(自然科学版);2011年03期
9 康旭珍;李茹;李双红;;框架元素语义核心词自动识别研究[J];中文信息学报;2011年04期
10 阳维;张树恒;王莲芸;张素;;基于图像块分类器和条件随机场的显微图像分割[J];计算机应用;2011年08期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 代翠;周俏丽;蔡东风;;统计和规则相结合的汉语最长名词短语自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋邋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 马志彦;悄然而至的EIP[N];中国计算机报;2002年
10 本报记者 于翔;BI:电信业渗透中[N];网络世界;2004年
中国博士学位论文全文数据库 前10条
1 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
6 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
7 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
8 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
9 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
10 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 于亮;科技文献的文本特征抽取研究与应用[D];北京邮电大学;2009年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
5 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
6 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
7 莫凌琳;基于条件随机场的科研论文信息分层抽取研究[D];重庆大学;2009年
8 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
9 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
10 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
,本文编号:963648
本文链接:https://www.wllwen.com/wenshubaike/gxjt/963648.html