针对科技路线图的文本挖掘研究:信息抽取方法
本文选题:科技路线图 + 文本挖掘 ; 参考:《情报理论与实践》2017年05期
【摘要】:[目的/意义]为了加强针对科技路线图的情报研究,探索从科技路线图报告中自动抽取核心信息的方法。[方法/过程]通过分析21个国家或组织发布的166份科技路线图的内容组织和表达特征,总结科技路线图中包含的核心信息,提出一种新的信息抽取思路"抽取—同步—分类",实现对科技路线图中核心内容的抽取。[结果/结论]以45篇科技路线图报告为测试案例进行方法验证,最终获取26736条有效数据信息,按时间序列可视化呈现,能够基本反映科技路线图的主要内容,表明该方法设计可行,能够快速获取科技路线图中的核心信息,提高针对科技路线图的情报获取效率。[局限]在文本清洗、关键词筛选等过程中尚需人工干预,技术方法的选择较为分散,有待进一步综合完善。
[Abstract]:Objective / significance] in order to strengthen the information research on the science and technology road map, to explore the method of extracting the core information automatically from the science and technology road map report. [methods / process] summarizing the core information contained in the science and technology road map by analysing the content organization and expressive characteristics of 166 science and technology road maps issued by 21 countries or organizations, In this paper, a new idea of information extraction, "extraction-synchronization-classification", is proposed to extract the core contents of the science and technology road map. [results / conclusion] using 45 science and technology road map reports as test cases, 26736 valid data information were obtained and visualized according to time series, which can basically reflect the main contents of science and technology road map. The results show that this method is feasible and can quickly acquire the core information in the science and technology road map, and improve the efficiency of information acquisition for the science and technology road map. In the process of text cleaning and keyword screening, manual intervention is needed, and the choice of technical methods is scattered and needs further comprehensive improvement.
【作者单位】: 中国科学院文献情报中心;首都医科大学卫生管理与教育学院;首都医科大学图书馆;
【基金】:中国科学院规划与决策科技支持系统建设项目“科技决策知识服务平台”(项目编号:院1405) 国家自然科学基金项目“科学结构特征及其演化动力学分析方法与应用研究”(项目编号:71173211)的成果
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 张雯雯;许鑫;;文本挖掘工具述评[J];图书情报工作;2012年08期
2 邢鸿飞;;文本挖掘口角升温[J];世界科学;2013年05期
3 王娜;李云松;;基于概念格的文本挖掘[J];计算机技术与发展;2006年01期
4 黄维金;顾益军;;刑侦档案文本挖掘系统平台中的文本精炼初探[J];中国人民公安大学学报(自然科学版);2006年02期
5 韩春;田大钢;;对股票市场信息的文本挖掘[J];中国高新技术企业;2008年23期
6 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期
7 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
8 杨霞;黄陈英;;文本挖掘综述[J];科技信息;2009年33期
9 韩洁;;文本挖掘:获取科学信息的新方式[J];福建电脑;2010年04期
10 郭洪涛;郑光;赵静;姜淼;何晓娟;吕爱平;;基于文本挖掘分析甲型H1N1流感的中医药治疗特色[J];世界科学技术(中医药现代化);2011年05期
相关会议论文 前10条
1 陈林;王晓华;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
2 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
3 高飞;荆继武;向继;;文本挖掘系统的可视化方法研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
5 钱程扬;龙毅;徐震;孙昊;;基于Web文本挖掘的地理位置信息重建技术[A];中国地理学会2007年学术年会论文摘要集[C];2007年
6 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 邱晓蕾;张聪超;;基于SVD和部分聚集分类的文本挖掘算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
10 ;TRS搜索引擎和文本挖掘系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
相关重要报纸文章 前1条
1 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
相关博士学位论文 前10条
1 曹奇敏;网络信息文本挖掘若干问题研究[D];北京理工大学;2015年
2 陈虹枢;基于主题模型的专利文本挖掘方法及应用研究[D];北京理工大学;2015年
3 李梅;文本挖掘中若干关键技术研究[D];西北农林科技大学;2016年
4 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
9 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
10 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
相关硕士学位论文 前10条
1 任振宇;基于网络新闻文本挖掘的英语写作训练应用[D];华南理工大学;2015年
2 刘超;基于文本挖掘的轻量级搜索引擎[D];西南大学;2015年
3 梁楠;基于文本挖掘的律师推荐方法研究与应用[D];电子科技大学;2015年
4 滕家雨;云框架下的文本挖掘算法并行化研究[D];中国矿业大学;2015年
5 唐东;基于XML和SVM的Web文本挖掘系统研究[D];电子科技大学;2014年
6 秦辉;基于文本挖掘的分布式网络监控系统的研究与实现[D];电子科技大学;2014年
7 谌语;文本挖掘关键技术的研究及模拟实现[D];电子科技大学;2014年
8 何敏;基于MapReduce的文本挖掘研究[D];电子科技大学;2015年
9 周先琳;基于动态Labeled-LDA模型的微博主题挖掘[D];合肥工业大学;2015年
10 张馨允;基于Spark的Web文本挖掘系统的研究与实现[D];吉林大学;2016年
,本文编号:1993317
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1993317.html