基于学术论文全文内容的算法提及行为与影响力分析研究
发布时间:2023-12-09 17:12
随着全文数据库向用户免费开放、自然语言处理与机器学习技术的快速发展,基于全文内容的文献计量与评价研究逐渐兴起,如知识实体抽取与评价研究等。算法是一种典型的知识实体,在当前大数据环境下,数据的处理与分析等关键步骤都离不开算法的应用。研究算法实体在特定领域学术论文中的提及,并在此基础上分析其影响力,能够揭示算法实体在学术论文中的分布,发现高影响力算法,从而为相关研究者了解和选择算法提供参考。为此,本文依据自然语言处理相关方法与技术,从全文数据中抽取出算法实体,分析其提及频次、提及位置以及提及时间,并在此基础上研究其学术影响力。在算法实体抽取方面,本研究将其看作一种特殊的命名实体识别任务。首先,通过人工识别的方法,从全部4,641篇国际计算语言学年会(ACL)论文中抽取出977种算法实体并构建算法实体词列表;其次,通过算法词匹配的方法从原始数据集中抽取出算法实体所在的句子,并以此为标注语料,训练算法实体自动抽取模型,从全部全文数据中剔除标注语料,在剩余语料上抽取出51,884个实体词,将频次为1的结果剔除后再进行人工筛选最终得到221种新算法实体;最后,将自动抽取结果与人工抽取结果进行整合得...
【文章页数】:101 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1.绪论
1.1 研究背景
1.2 研究意义
1.2.1 理论意义
1.2.2 应用价值
1.3 本研究要解决的关键问题
1.4 主要研究内容
1.5 本文组织结构
2.文献综述
2.1 实体识别研究概述
2.1.1 基于规则的实体识别
2.1.2 基于统计机器学习的实体识别
2.1.3 基于深度学习的实体识别
2.1.4 实体识别相关研究总结
2.2 知识实体评价研究概述
2.2.1 不同评价方法相关研究概述
2.2.2 不同类型知识实体相关研究概述
2.2.3 知识实体评价相关研究总结
2.3 全文内容分析研究概述
2.3.1 引文内容分析研究概述
2.3.2 知识抽取研究概述
2.3.3 全文内容分析相关研究总结
2.4 现有研究工作总结
3.基于学术论文全文的算法实体抽取研究
3.1 研究思路
3.2 算法实体抽取方法描述
3.2.1 基于人工的算法实体抽取
3.2.2 基于机器学习的算法实体自动抽取
3.2.3 算法实体自动抽取模型中使用的特征
3.3 实验与结果分析
3.3.1 实验数据概述
3.3.2 实验标注语料构建
3.3.3 结果评价指标
3.3.4 模型实现
3.3.5 结果分析
3.4 ACL未标注语料上的算法实体自动抽取结果分析
3.4.1 算法实体自动抽取过程
3.4.2 算法实体自动抽取结果
3.5 本章小结
4.基于频次的算法提及行为与影响力分析
4.1 研究思路与数据概述
4.1.1 研究思路
4.1.2 数据概述
4.2 算法实体提及频次结果分析
4.2.1 提及论文数
4.2.2 提及总次数
4.3 基于提及频次的算法影响力分析
4.4 本章小结
5.基于位置的算法提及行为与影响力分析
5.1 研究思路
5.2 算法实体提及位置信息获取
5.3 全部章节中的算法实体提及分析
5.4 重点章节中的算法实体提及分析
5.5 基于位置的算法实体影响力分析
5.6 本章小结
6.基于时间的算法提及行为与影响力分析
6.1 研究思路与数据概述
6.1.1 研究思路
6.1.2 数据概述
6.2 算法实体整体提及时间分析
6.3 高频算法实体在不同时间下的提及分析
6.4 基于时间的算法实体影响力分析
6.5 本章小结
7.结论与未来展望
7.1 研究总结
7.2 研究创新点
7.3 研究不足与未来展望
致谢
参考文献
附录1:人工抽取与机器抽取所得的全部算法实体(Top100)
附录2:攻读硕士学位期间发表论文、参与科研项目及获奖情况
本文编号:3871880
【文章页数】:101 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1.绪论
1.1 研究背景
1.2 研究意义
1.2.1 理论意义
1.2.2 应用价值
1.3 本研究要解决的关键问题
1.4 主要研究内容
1.5 本文组织结构
2.文献综述
2.1 实体识别研究概述
2.1.1 基于规则的实体识别
2.1.2 基于统计机器学习的实体识别
2.1.3 基于深度学习的实体识别
2.1.4 实体识别相关研究总结
2.2 知识实体评价研究概述
2.2.1 不同评价方法相关研究概述
2.2.2 不同类型知识实体相关研究概述
2.2.3 知识实体评价相关研究总结
2.3 全文内容分析研究概述
2.3.1 引文内容分析研究概述
2.3.2 知识抽取研究概述
2.3.3 全文内容分析相关研究总结
2.4 现有研究工作总结
3.基于学术论文全文的算法实体抽取研究
3.1 研究思路
3.2 算法实体抽取方法描述
3.2.1 基于人工的算法实体抽取
3.2.2 基于机器学习的算法实体自动抽取
3.2.3 算法实体自动抽取模型中使用的特征
3.3 实验与结果分析
3.3.1 实验数据概述
3.3.2 实验标注语料构建
3.3.3 结果评价指标
3.3.4 模型实现
3.3.5 结果分析
3.4 ACL未标注语料上的算法实体自动抽取结果分析
3.4.1 算法实体自动抽取过程
3.4.2 算法实体自动抽取结果
3.5 本章小结
4.基于频次的算法提及行为与影响力分析
4.1 研究思路与数据概述
4.1.1 研究思路
4.1.2 数据概述
4.2 算法实体提及频次结果分析
4.2.1 提及论文数
4.2.2 提及总次数
4.3 基于提及频次的算法影响力分析
4.4 本章小结
5.基于位置的算法提及行为与影响力分析
5.1 研究思路
5.2 算法实体提及位置信息获取
5.3 全部章节中的算法实体提及分析
5.4 重点章节中的算法实体提及分析
5.5 基于位置的算法实体影响力分析
5.6 本章小结
6.基于时间的算法提及行为与影响力分析
6.1 研究思路与数据概述
6.1.1 研究思路
6.1.2 数据概述
6.2 算法实体整体提及时间分析
6.3 高频算法实体在不同时间下的提及分析
6.4 基于时间的算法实体影响力分析
6.5 本章小结
7.结论与未来展望
7.1 研究总结
7.2 研究创新点
7.3 研究不足与未来展望
致谢
参考文献
附录1:人工抽取与机器抽取所得的全部算法实体(Top100)
附录2:攻读硕士学位期间发表论文、参与科研项目及获奖情况
本文编号:3871880
本文链接:https://www.wllwen.com/tushudanganlunwen/3871880.html
教材专著