网络科技信息监测中富文档识别与信息提取技术研究
本文关键词:网络科技信息监测中富文档识别与信息提取技术研究
【摘要】:【目的/意义】围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。【方法/过程】通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了良好的实际效果,为科研人员提供了大量的有学术价值的情报资源。【结果/结论】通过对富文档监测与识别的研究与探索,笔者拓展了文本知识内容的识别方法,为后续的深度知识分析提供了有效的支撑。
【作者单位】: 中国科学院文献情报中心;中国科学院大学;
【基金】:中国科学院文献情报能力建设专项(院1509) 教育部人文社科基金(14YJC870029)
【分类号】:G254
【正文快照】: 随着网络传播方式的广泛普及,越来越多的管理机构、科研机构在通过正式交流渠道(如期刊、图书等媒介)发布研究成果的同时,他们也选择通过Internet这类非正式交流平台发布、共享相关的科研新闻、重大成果或研究报告、年度预算等,这些内容除了以html形式存在,更多的以PDF、DOC、
【相似文献】
中国期刊全文数据库 前10条
1 王志军;;借助高级替换删除包含特定内容的行[J];电脑知识与技术(经验技巧);2011年10期
2 王兰富;;合并文档原来如此奥妙[J];电脑爱好者;2013年02期
3 张迎新;唯有源头活水来——用样式管理文档内容[J];电脑应用文萃;2004年01期
4 小威;;利用宏隐藏重要文档[J];网络与信息;2007年12期
5 友文;;让你的本本更商务化[J];电脑知识与技术(经验技巧);2013年11期
6 万立夫;;检索文档内容 查找需要文件[J];电脑迷;2014年07期
7 陈桂鑫;;文档异地打开不走样[J];家庭科技;2010年04期
8 阿珊;;第一次打印文档[J];电脑界.应用文萃;2000年07期
9 刘刘;;自动比对文章细节 轻松区分其不同之处[J];网络与信息;2010年04期
10 一页 ,王杰;用好“潜望镜”,文档内容早知道[J];电脑爱好者;2005年21期
中国重要会议论文全文数据库 前4条
1 李旭;余靖;;一种基于提取指纹方法的数字文档拷贝检测模型[A];2005年全国理论计算机科学学术年会论文集[C];2005年
2 李伟;;文档的标准化在MIS系统建设中的重要意义[A];中国烟草行业信息化研讨会论文集[C];2004年
3 祝建军;黄冬梅;;XML文档更新时键约束保持的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 于亚新;胡军安;吴刚;成杰峰;王国仁;于戈;;一个可视化的文档浏览器X-Explorer的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 华军;Word文档损坏后的修复[N];江苏科技报;2007年
2 张树忠;Word 2003中浏览多文档技巧[N];中国电脑教育报;2004年
3 ;快速将Word文档变为图片[N];电脑报;2005年
4 ;企业选择透明加密产品“四步曲”[N];网络世界;2010年
5 黑龙江 魏俊岭;PDF轻松看[N];电脑报;2001年
6 李锋白;汉王新系统可编辑11种PDF文档[N];中国计算机报;2007年
7 清风;认识帮助文档[N];中国电脑教育报;2002年
8 ;编辑HTML文档的利器[N];中国电脑教育报;2002年
9 新疆 张迎新;修订审阅有条不紊[N];电脑报;2002年
10 贾培武;Word文档混乱不用愁[N];中国证券报;2005年
中国硕士学位论文全文数据库 前6条
1 易姝仙;云环境下多安全级别的文档自毁机制研究[D];福建师范大学;2015年
2 顾钧;基于数字版权系统的PDF文档安全性研究与应用[D];合肥工业大学;2011年
3 王常有;基于固有特征的复印文档取证研究[D];大连理工大学;2013年
4 刘彤;基于BLP模型文档保护系统实现[D];天津大学;2012年
5 高蒙;基于PDF的电子文档保护系统的设计与实现[D];上海交通大学;2008年
6 吴皓;基于COM组件的智能文档模型及其实现研究[D];华中科技大学;2007年
,本文编号:1251738
本文链接:https://www.wllwen.com/tushudanganlunwen/1251738.html