基于PDFBox抽取学术论文信息的实现
本文关键词:基于PDFBox抽取学术论文信息的实现?,由笔耕文化传播整理发布。
【摘要】:为了对学术动态、热点及学术发展趋势进行研究,需要对学术研究论文进行数据挖掘研究。首先需要从海量的学术论文中提取有兴趣的信息。针对目前学术论文大多采用PDF格式的现状,重点研究了PDF文件的格式以及对PDF格式操作的各种技术,采用开源函数库PDFBox对PDF格式的学术论文按照规则进行信息的提取,提取的信息主要包括学术论文的标题、作者、单位、关键词、发表时间、摘要等信息。最后对提取信息的正确率进行了统计,有助于针对学术研究的大数据研究。
【作者单位】: 延安大学数学与计算机学院;
【关键词】: 数据挖掘 信息抽取 PDF格式 学术论文
【基金】:陕西省自然科学基础研究计划项目(2013JM8042)
【分类号】:TP391.1;TP311.13
【正文快照】: 0引言随着互联网和通信技术的发展,大数据时代已经悄然来临。面对海量的信息与数据资源,人们常常面临数据量大,信息匮乏,因此对如何能够从中获取其隐含的、潜在有用的知识的要求变得很迫切,于是数据挖掘应运而生。数据挖掘的第一步就是数据的采集,能够快速、准确地采集到感兴
【参考文献】
中国期刊全文数据库 前9条
1 李朝光,张铭,邓志鸿,杨冬青,唐世渭;论文元数据信息的自动抽取[J];计算机工程与应用;2002年21期
2 李贵林,李建中,杨艳;用Plug-in实现对PDF文件的信息提取[J];计算机应用;2003年02期
3 杨道良;面向对象的中文PDF阅读器的设计与实现[J];计算机应用;1999年06期
4 李兰友;陈立;谢雪莲;;面向Web的PDF文档构建技术[J];计算机与现代化;2013年12期
5 陈云榕;刘立柱;丁志鸿;;PDF文件中关键信息的提取与组织方法研究[J];计算机工程与设计;2007年07期
6 李强;刘时进;;PDF阅读器的设计与实现[J];计算机工程与设计;2010年07期
7 宋艳娟,张文德;基于XML的PDF文档信息抽取系统的研究[J];现代图书情报技术;2005年09期
8 张秀秀;马建霞;;PDF科技论文语义元数据的自动抽取研究[J];现代图书情报技术;2009年02期
9 龙珑;邓伟;覃晓;;绿色网络PDF提取系统[J];计算机技术与发展;2014年01期
【共引文献】
中国期刊全文数据库 前10条
1 高良才;汤帜;陶欣;房婧;;一种自动发现、分割与标注引文元数据的方法[J];北京大学学报(自然科学版);2010年06期
2 李小斌;;一种从HTML页面到RDF文档的转化方法[J];电脑与信息技术;2006年04期
3 黄光芳;;正则表达式在远程网页下载中的应用[J];电脑知识与技术(学术交流);2007年12期
4 欧阳辉;禄乐滨;;基于证据理论的论文元数据抽取算法研究[J];电子设计工程;2010年04期
5 欧阳辉;禄乐滨;;基于SVM的论文元数据抽取方法研究[J];电子设计工程;2010年05期
6 魏宏安;陈忠辉;;电纸书PDF阅读器的设计与实现[J];福州大学学报(自然科学版);2012年06期
7 李树霞;;农业科技核心期刊网站建设及OA出版调查研究[J];中国编辑;2013年05期
8 林青;李健;;PDF文档HTML化中文本重排问题研究[J];电脑与信息技术;2014年03期
9 郭志鑫;金海;陈汉华;;SemreX中基于语义的文档参考文献元数据信息提取[J];计算机研究与发展;2006年08期
10 周国祥;吴自文;;Acrobat插件在PDF安全中的研究与应用[J];计算机研究与发展;2010年S1期
中国重要会议论文全文数据库 前1条
1 周国祥;吴自文;;Acrobat插件在PDF安全中的研究与应用[A];第六届中国测试学术会议论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 崔金栋;基于本体的网格信息检索模型研究[D];吉林大学;2011年
2 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
中国硕士学位论文全文数据库 前10条
1 赫兰冰;基于光学传感的风表自动检定与数据采集系统开发[D];哈尔滨理工大学;2010年
2 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
3 熊燕子;基于OWL-S语义服务描述的数字图书馆网格应用模型研究[D];湖北工业大学;2011年
4 顾钧;基于数字版权系统的PDF文档安全性研究与应用[D];合肥工业大学;2011年
5 吴自文;插件技术在PDF文档安全保护中的研究与应用[D];合肥工业大学;2011年
6 刘华中;面向PDF文档的论文元数据提取方法研究[D];燕山大学;2012年
7 王鹏;基于PPML的可变数字印刷文件解析及加网技术[D];浙江工业大学;2012年
8 李晖;面向Web应用的电子表单系统[D];大连理工大学;2003年
9 何忠平;图像数据压缩技术在PDF中的应用研究[D];哈尔滨工程大学;2004年
10 张祯;知识管理系统中知识项建立的自动化研究[D];浙江大学;2005年
【二级参考文献】
中国期刊全文数据库 前10条
1 李德华;;利用方正小样与PDF文件的无缝对接实现远程校对[J];编辑学报;2008年06期
2 张强;陶宏才;;基于Web网页与PDF文档自动构建更新语言模型[J];成都信息工程学院学报;2009年05期
3 刘晓峥;;基于JAVA的PDF报表创建[J];长江工程职业技术学院学报;2008年04期
4 孙传庆;朱正平;王秀丽;;基于WEB的PDF格式输出实现[J];甘肃科技;2007年01期
5 侯金波;王德群;;iText API在计量管理信息系统中的应用[J];中国计量;2008年08期
6 田学军;PDF文件格式及其转化方法探讨[J];荆门职业技术学院学报;2005年03期
7 张晓孪;王西锋;;基于概念图的汉语语义计算的研究与实现[J];计算机工程与应用;2011年10期
8 顾兆军,张俊;PDF文件链接信息提取与修改[J];计算机工程;2005年S1期
9 董相志;柳岸;陈伟波;李浚;;基于Domino PKI和PDF文档的电子印章系统[J];计算机工程;2007年19期
10 李贵林,李建中,杨艳;用Plug-in实现对PDF文件的信息提取[J];计算机应用;2003年02期
中国硕士学位论文全文数据库 前1条
1 张波;PDF文档语义信息抽取研究[D];河北大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 高建群;;学术论文的写作与发表技巧[J];中国科技期刊研究;2000年03期
2 杨琦;学术论文作者真伪的产生及预防对策[J];出版发行研究;2003年10期
3 ;学术论文规范化信息I[J];宿州师专学报;2003年04期
4 薛永强;吴艳宏;;浅谈学术论文的写作[J];黑龙江档案;2007年06期
5 车轩玉;朱富铭;;工程实践型学术论文常见问题分析[J];中国科技期刊研究;2008年03期
6 ;学术论文中的数字及其用法[J];辽宁师范大学学报(自然科学版);2008年02期
7 赖辉荣;刘葵波;;图书馆学术论文质量滑坡原因探析[J];图书馆工作与研究;2008年09期
8 ;我院一九八○年学术论文发表情况[J];大连轻工业学院学报;1981年01期
9 黄宗忠;;怎样写学术论文[J];湖南档案;1982年08期
10 朱和舫;谈谈“学术论文”的写作[J];丽水师专学报;1984年01期
中国重要会议论文全文数据库 前10条
1 吕青;;护理学术论文的选题与写作(提纲)[A];第四届全军腰腿痛学术研讨会、第五届全国肢残康复护理研讨会论文选编[C];2005年
2 ;2000年度获奖学术论文总目次[A];中国重汽科协获奖学术论文选编(2000-2001)[C];2002年
3 ;2001年度获奖学术论文总目次[A];中国重汽科协获奖学术论文选编(2000-2001)[C];2002年
4 ;2002年度获奖学术论文总目次[A];中国重汽科协获奖学术论文选编(2002-2003)[C];2004年
5 ;2003年度获奖学术论文总目次[A];中国重汽科协获奖学术论文选编(2002-2003)[C];2004年
6 薛长勇;;学术论文的撰写[A];临床营养师实践技能培训班汇编[C];2012年
7 刘平;张康莉;刘国伟;张新国;;撰写医学论文的规律及怎样撰写学术论文[A];中华医学会医学科研管理学分会第十次学术年会暨第二届医学科研管理研讨会征文汇编[C];2006年
8 李克昭;;学术论文撰稿六忌[A];学报编辑文集[C];1991年
9 田力;;护理学术论文的选题(提纲)[A];全国血液净化护理学术交流暨专题讲座会议论文汇编[C];2003年
10 于方;;学术论文“引言”存在问题分析[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 骆远鑫;集邮学术论文“别说”[N];中国集邮报;2014年
2 记者 曾福泉 通讯员 周炜;浙大学术论文领跑全国高校[N];浙江日报;2014年
3 王泽华;学术论文当心走进三个误区[N];光明日报;2001年
4 冯长根;学术论文该不该受非议[N];光明日报;2005年
5 周云;重庆召开集邮学术论文发表会[N];中国集邮报;2007年
6 记者 杨乐 实习生 余芳;我市学术论文进步巨大[N];南宁日报;2010年
7 张中 复旦大学中文系;学术论文的“欲望生产”和“符号消费”[N];中国社会科学报;2009年
8 记者 李蓓;新疆论文首次入选中国百篇最具影响国际学术论文[N];新疆科技报(汉);2014年
9 杨元丰;市卫生监督所学术论文参加大会交流[N];大同日报;2008年
10 记者 谢宗惠;全国航海学术论文呈现兴旺景象[N];中国水运报;2008年
中国博士学位论文全文数据库 前1条
1 孟勐;基于语料库的中国作者和英语母语作者英文学术论文中评价语言的对比研究[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前10条
1 诸奇嫣;英汉学术论文引言和结论语类分析及其相关性对比研究[D];浙江工商大学;2011年
2 杨颖;高校教师网络发表学术论文的学术影响力评价研究[D];哈尔滨工程大学;2011年
3 冉井芳;英汉应用语言学类学术论文引言体裁结构的对比研究[D];西南交通大学;2006年
4 李慧艳;英汉社科学术论文的体裁对比分析[D];南昌大学;2006年
5 李春能;中西学者学术论文中连接状语对比研究[D];华中师范大学;2014年
6 王亚非;学术论文英文引言及其写作[D];长春理工大学;2004年
7 黄品全;高校教师学术论文失范问题研究[D];华东师范大学;2008年
8 芮琦家;《何为翻译—作为一门学科研究的翻译》(之七)翻译报告[D];南京农业大学;2013年
9 李明伟;学术论文结论部分的功能体裁分析[D];燕山大学;2012年
10 贺芳;经济类英语学术论文引言研究—从宏观分析到微观分析[D];重庆大学;2014年
本文关键词:基于PDFBox抽取学术论文信息的实现?,,由笔耕文化传播整理发布。
本文编号:493547
本文链接:https://www.wllwen.com/wenshubaike/lwzy/493547.html