基于集成学习的OA期刊论文元数据提取方法研究
发布时间:2017-12-18 18:02
本文关键词:基于集成学习的OA期刊论文元数据提取方法研究
更多相关文章: 论文元数据 元数据提取 统计机器学习 集成学习
【摘要】:在建设图书馆数字资源库时,,需要利用互联网上的开放存取(Open Access,OA)期刊论文作为图书馆数字资源库建设的信息源,利用论文元数据信息可以提高论文在图书馆数字资源库中检索的准确率和检索速度。因此,如何准确和快速地提取OA期刊论文的元数据是实现图书馆数字资源库建设的关键。本文在对国内外论文元数据提取方法综合研究分析基础上,结合集成学习的思想,从个体学习器的结论合成和个体生成方法两方面出发,对论文元数据提取方法进行了研究。 首先,针对现有的单一元数据提取模型提取精度和泛化能力不高的问题,从集成学习的个体学习器结论合成方面考虑,提出一种基于贝叶斯融合的论文元数据提取方法。基层个体学习器分别采用HMM、SVM和CRF三种机器学习算法,对训练集学习生成提取模型,利用已生成的模型提取论文元数据并计算提取的样本属于每个元数据类别的后验概率,并对每个模型的后验概率加权计算,结合贝叶斯理论对产生的后验概率融合决策,最终提取论文的元数据。 其次,从集成学习个体学习器生成方面考虑,提出一种基于元学习的论文元数据提取方法。先是提出一种基分类器构造方法,按照期刊类别构建不同的基层训练集,通过基层SVM学习这些构造好的训练集生成基分类器,增大了集成学习中基层分类器之间的差异性;元层SVM通过对基分类器的学习结果进行再学习生成元分类器,元分类器综合决策基分类器的输出结果,从而得到最终的提取结果,提高论文元数据模型的提取精度和泛化能力。 最后,对本文提出的方法进行实验验证,实验结果表明,本文所提的方法提高了论文元数据提取的精度,具有较好的泛化能力,同时结合研究成果对今后的研究工作进行了展望。
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1;G250.76
【参考文献】
中国期刊全文数据库 前7条
1 孔浩;杨勇;王国胤;;基于多分类器融合的语音识别方法研究[J];重庆邮电大学学报(自然科学版);2011年04期
2 周顺先;林亚平;王耀南;易叶青;;基于二阶隐马尔可夫模型的文本信息抽取[J];电子学报;2007年11期
3 张付志;侯娜;刘慧;马玉静;;一种基于启发式搜索的论文元数据提取算法[J];计算机应用与软件;2009年09期
4 张铭;银平;邓志鸿;杨冬青;;SVM+BiHMM:基于统计方法的元数据抽取混合模型[J];软件学报;2008年02期
5 赵琦;刘建华;冯浩然;;从ACE会议看信息抽取技术的发展趋势[J];现代图书情报技术;2008年03期
6 刘云中,林亚平,陈治平;基于隐马尔可夫模型的文本信息抽取[J];系统仿真学报;2004年03期
7 邱清盈;郑国民;冯培恩;武建伟;;基于正则表达式的专利信息提取方法研究[J];中国机械工程;2007年19期
中国硕士学位论文全文数据库 前1条
1 李莹;文本病历信息抽取方法研究[D];浙江大学;2009年
本文编号:1305083
本文链接:https://www.wllwen.com/wenshubaike/xingzhengshiwu/1305083.html
最近更新
教材专著