基于科技文献的技术脉络信息的抽取与分析
发布时间:2021-01-30 06:35
科技文献是科技创新发展的重要载体之一,科技文献网络是一种特殊的信息网络,每一篇文献都有对应的标题、作者、刊物、关键词以及引用关系等信息,从而形成了以文献为中心,其他对象通过文献链接在一起的文献网络结构。无论在实际工程方面还是在科学研究方面,探索基于科技文献的技术脉络辅助生成技术都显得尤为重要。首先,基于现有文献数据库动态采集计算机领域的文献数据。具体采集内容包括施引文献和被引文献的题录信息以及文献之间的引用关系,随后对采集的文献数据进行清洗,包括删除非文献数据、不完整的数据以及合并重复的数据。其次,利用文献网络特有的引用关系对文献数据进行聚类。文献的题录信息属于短文本,本文在传统层次聚类算法的基础上,融合了文献之间的共引关系,基于计算机领域文献数据集,采用三种不同的簇间距离计算方法进行聚类,轮廓系数值有明显提升,有效的改善了施引文献和被引文献之间的聚类效果。将聚类后的文献簇投影到时间轴上,选出代表性文献,得到线性的技术脉络,运用BDP可视化工具展示技术脉络图。最后,设计并实现了基于科技文献的技术脉络分析系统,该系统可以根据输入的检索词实现在线文献数据采集、文献数据预处理、文献聚类、技术...
【文章来源】:沈阳航空航天大学辽宁省
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
Aminer中的趋势分析图
分别是固定网址和施引文献的唯一编号,网页中被引文献数据的格式如图 3.2 所示。图 3.2 被引文献列表图3.2 文献数据清洗从万方数据库中抓取到的真实文献数据有的掺杂一些非文献信息如“会议通知”,“征稿信息”和“期刊介绍”等。有的文献数据存在缺失数据项的现象,有的文献数据格式不符合实验要求,有的数据项在抓取过程中存在错误的情况,如关键词或作者信息
沈阳航空航天大学硕士学位论文有误,关键词中掺杂着中文关键词和英文关键词,还有部分重复的数据。如果两篇文献的作者和刊物相同则认为两篇文献是重复的文献,则将重复的文献数据剔除。将文献信息有误的数据剔除掉后剩余文献22180篇。进行预处理后的文本数据变成了结构化数据。3.2.1 删除不符合要求的数据从万方数据库采集到的真实文献数据中含有一些征稿信息,会议通知,期刊介绍等非文献信息,这些数据会对后续的文献聚类效果产生影响,如图中第五到第七行,需要删除非文献信息。部分文献数据的题录信息不全,存在缺少标题,关键词或作者等信息的现象,后续会对两篇文献之间的相似度运算造成影响,图中的第二行到第四行数据属于缺少关键词信息的文献数据。部分文献数据的数据项不符合实验要求的情况,比如关键词中掺杂了中文关键词和英文关键词,数据列出现移位等现象,部分有误的文献数据如图 3.3 所示,如果不删除掉,后续会对两篇文献进行相似度运算造成影响,因此对缺失重要属性的文献数据一定要删除掉。
【参考文献】:
期刊论文
[1]基于文献共被引和共词分析的研究方法的比较研究——以共词分析和内容分析为例[J]. 魏瑞斌,蒋倩雯,张瑞丽. 情报杂志. 2019(02)
[2]基于自然最近邻相似图的谱聚类[J]. 刘友超,张曦煌. 计算机应用研究. 2020(01)
[3]一种基于社交事件关联的故事脉络生成方法[J]. 李莹莹,马帅,蒋浩谊,刘喆,胡春明,李雄. 计算机研究与发展. 2018(09)
[4]融合K均值聚类和低秩约束的属性选择算法[J]. 杨常清. 中文信息学报. 2018(07)
[5]基于概率模型的非均匀数据聚类算法[J]. 杨天鹏,陈黎飞. 计算机应用. 2018(10)
[6]Science Mapping:A Systematic Review of the Literature[J]. Chaomei Chen. Journal of Data and Information Science. 2017(02)
[7]基于词汇功能识别的科研文献分析系统设计与实现[J]. 李信,程齐凯,刘兴帮. 图书情报工作. 2017(01)
[8]基于作者共被引分析的破坏性创新研究学术群类与脉络探析[J]. 林春培,黄海媚,吴东儒. 科学学与科学技术管理. 2016(08)
[9]基于密度峰值的聚类集成[J]. 褚睿鸿,王红军,杨燕,李天瑞. 自动化学报. 2016(09)
[10]基于知识脉络的科技论文推荐[J]. 谭红叶,要一璐,梁颖红. 山东大学学报(理学版). 2016(05)
硕士论文
[1]基于时间点过程对科技文献引用行为的建模与预测[D]. 刘鑫.华东师范大学 2018
[2]基于LDA模型的实体解析技术的研究与实现[D]. 张田田.北京邮电大学 2013
[3]基于模糊测试方法的Web应用安全性测试技术的研究及其工具实现[D]. 都娟.华东师范大学 2011
本文编号:3008440
【文章来源】:沈阳航空航天大学辽宁省
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
Aminer中的趋势分析图
分别是固定网址和施引文献的唯一编号,网页中被引文献数据的格式如图 3.2 所示。图 3.2 被引文献列表图3.2 文献数据清洗从万方数据库中抓取到的真实文献数据有的掺杂一些非文献信息如“会议通知”,“征稿信息”和“期刊介绍”等。有的文献数据存在缺失数据项的现象,有的文献数据格式不符合实验要求,有的数据项在抓取过程中存在错误的情况,如关键词或作者信息
沈阳航空航天大学硕士学位论文有误,关键词中掺杂着中文关键词和英文关键词,还有部分重复的数据。如果两篇文献的作者和刊物相同则认为两篇文献是重复的文献,则将重复的文献数据剔除。将文献信息有误的数据剔除掉后剩余文献22180篇。进行预处理后的文本数据变成了结构化数据。3.2.1 删除不符合要求的数据从万方数据库采集到的真实文献数据中含有一些征稿信息,会议通知,期刊介绍等非文献信息,这些数据会对后续的文献聚类效果产生影响,如图中第五到第七行,需要删除非文献信息。部分文献数据的题录信息不全,存在缺少标题,关键词或作者等信息的现象,后续会对两篇文献之间的相似度运算造成影响,图中的第二行到第四行数据属于缺少关键词信息的文献数据。部分文献数据的数据项不符合实验要求的情况,比如关键词中掺杂了中文关键词和英文关键词,数据列出现移位等现象,部分有误的文献数据如图 3.3 所示,如果不删除掉,后续会对两篇文献进行相似度运算造成影响,因此对缺失重要属性的文献数据一定要删除掉。
【参考文献】:
期刊论文
[1]基于文献共被引和共词分析的研究方法的比较研究——以共词分析和内容分析为例[J]. 魏瑞斌,蒋倩雯,张瑞丽. 情报杂志. 2019(02)
[2]基于自然最近邻相似图的谱聚类[J]. 刘友超,张曦煌. 计算机应用研究. 2020(01)
[3]一种基于社交事件关联的故事脉络生成方法[J]. 李莹莹,马帅,蒋浩谊,刘喆,胡春明,李雄. 计算机研究与发展. 2018(09)
[4]融合K均值聚类和低秩约束的属性选择算法[J]. 杨常清. 中文信息学报. 2018(07)
[5]基于概率模型的非均匀数据聚类算法[J]. 杨天鹏,陈黎飞. 计算机应用. 2018(10)
[6]Science Mapping:A Systematic Review of the Literature[J]. Chaomei Chen. Journal of Data and Information Science. 2017(02)
[7]基于词汇功能识别的科研文献分析系统设计与实现[J]. 李信,程齐凯,刘兴帮. 图书情报工作. 2017(01)
[8]基于作者共被引分析的破坏性创新研究学术群类与脉络探析[J]. 林春培,黄海媚,吴东儒. 科学学与科学技术管理. 2016(08)
[9]基于密度峰值的聚类集成[J]. 褚睿鸿,王红军,杨燕,李天瑞. 自动化学报. 2016(09)
[10]基于知识脉络的科技论文推荐[J]. 谭红叶,要一璐,梁颖红. 山东大学学报(理学版). 2016(05)
硕士论文
[1]基于时间点过程对科技文献引用行为的建模与预测[D]. 刘鑫.华东师范大学 2018
[2]基于LDA模型的实体解析技术的研究与实现[D]. 张田田.北京邮电大学 2013
[3]基于模糊测试方法的Web应用安全性测试技术的研究及其工具实现[D]. 都娟.华东师范大学 2011
本文编号:3008440
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3008440.html
最近更新
教材专著