基于共被引耦合与LDA模型的研究前沿识别方法优化研究
发布时间:2024-03-19 03:19
研究前沿(Research Front)是科学研究中最新、最具前瞻性和引领性的研究方向,其作为科技创新的突破口和新生长点,备受关注,尤其是在《国家创新驱动发展战略纲要》全面实施以来。面对科技创新发展新趋势,研究如何及早、准确识别研究前沿,预测未来方向和重点,对更好服务国家科技宏观决策、合理配置科技资源、帮助科研工作者及时把握科学研究动态,均具有重要意义。当前,研究前沿识别主要有基于引用、基于内容以及二者结合的方法体系。相对而言,以引用分析为基础辅以内容分析的混合识别方法是现阶段研究前沿识别研究的热点,较常见的是将共被引分析、引文耦合与文本内容分析相结合,但结合主要聚焦在文献聚类与类簇描述层面,在聚类基础即信息域上并没有扩展,在内容语义分析方面还较浅表,识别出的研究前沿的“前瞻价值”和“学术准确性”常被质疑。鉴于此,为了更吻合科学家专业视野中的“研究前沿”,本文尝试从识别信息域(聚类基础)和识别语义深度两个层面对引用-内容相结合的研究前沿识别方法进行优化,基于多种学术引用关系研究构建更新颖、更高学术关联、更好覆盖度的研究前沿域,利用LDA主题模型从文本内容语义层面直接进行研究前沿识别,全...
【文章页数】:139 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第1章 引言
1.1 研究背景
1.2 问题的提出
1.3 研究目标和意义
1.3.1 研究目标
1.3.2 研究意义
1.4 研究内容
1.4.1 主要研究内容概述
1.4.2 拟解决的关键问题
1.5 研究方法与技术路线
1.5.1 研究方法
1.5.2 技术路线
1.6 论文的组织结构
1.7 本章小结
第2章 相关理论与方法
2.1 引用关系网络
2.1.1 直接引用网络
2.1.2 共被引网络
2.1.3 文献耦合网络
2.2 主题模型
2.2.1 LDA主题模型
2.2.2 PhraseLDA主题模型
2.3 研究前沿及其识别方法
2.3.1 发展演进
2.3.2 内涵特征
2.3.3 识别方法
2.3.4 识别方法优化路径分析
2.4 本章小结
第3章 研究前沿识别信息域构建
3.1 构建原则与思路
3.1.1 构建原则
3.1.2 构建思路
3.2 构建过程
3.3 构建结果
3.3.1 基本描述
3.3.2 特征分析
3.4 本章小结
第4章 基于PhraseLDA的主题抽取
4.1 语料库构建
4.1.1 语料选取
4.1.2 语料预处理
4.2 PhraseLDA模型参数设置
4.2.1 频繁短语挖掘参数
4.2.2 主题抽取相关参数
4.3 主题抽取流程
4.4 本章小结
第5章 基于“引用-内容”的研究前沿识别
5.1 量值计算与指标解析
5.1.1 量值计算
5.1.2 指标解析
5.2 识别效果分析与评价
5.2.1 专家评价法
5.2.2 对比评价法
5.3 本章小结
第6章 “共被引耦合-LDA法”实证研究
6.1 免疫学研究前沿识别信息域构建
6.1.1 领域高被引文献获取
6.1.2 领域高共被引文献集合生成
6.1.3 共被引-施引文献集合生成
6.1.4 高耦合施引文献集合生成
6.1.5 共被引耦合文献网络生成
6.1.6 共被引耦合文献网络特征分析
6.2 基于PhraseLDA的免疫学研究主题抽取
6.2.1 语料库构建
6.2.2 数据预处理
6.2.3 研究主题抽取
6.3 基于“引用-内容”的免疫学研究前沿识别
6.4 方法评价
6.4.1 专家评价法
6.4.2 对比评价法
6.5 本章小结
第7章 总结与展望
7.1 研究总结
7.2 主要创新贡献
7.3 研究局限性
7.4 研究展望
参考文献
附录1 停用词表
附录2 研究前沿评价表
附录3 ESI免疫学研究前沿Top30
附录4 研究前沿识别程序代码
致谢
作者简历及攻读学位期间发表的学术论文与研究成果
本文编号:3932243
【文章页数】:139 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第1章 引言
1.1 研究背景
1.2 问题的提出
1.3 研究目标和意义
1.3.1 研究目标
1.3.2 研究意义
1.4 研究内容
1.4.1 主要研究内容概述
1.4.2 拟解决的关键问题
1.5 研究方法与技术路线
1.5.1 研究方法
1.5.2 技术路线
1.6 论文的组织结构
1.7 本章小结
第2章 相关理论与方法
2.1 引用关系网络
2.1.1 直接引用网络
2.1.2 共被引网络
2.1.3 文献耦合网络
2.2 主题模型
2.2.1 LDA主题模型
2.2.2 PhraseLDA主题模型
2.3 研究前沿及其识别方法
2.3.1 发展演进
2.3.2 内涵特征
2.3.3 识别方法
2.3.4 识别方法优化路径分析
2.4 本章小结
第3章 研究前沿识别信息域构建
3.1 构建原则与思路
3.1.1 构建原则
3.1.2 构建思路
3.2 构建过程
3.3 构建结果
3.3.1 基本描述
3.3.2 特征分析
3.4 本章小结
第4章 基于PhraseLDA的主题抽取
4.1 语料库构建
4.1.1 语料选取
4.1.2 语料预处理
4.2 PhraseLDA模型参数设置
4.2.1 频繁短语挖掘参数
4.2.2 主题抽取相关参数
4.3 主题抽取流程
4.4 本章小结
第5章 基于“引用-内容”的研究前沿识别
5.1 量值计算与指标解析
5.1.1 量值计算
5.1.2 指标解析
5.2 识别效果分析与评价
5.2.1 专家评价法
5.2.2 对比评价法
5.3 本章小结
第6章 “共被引耦合-LDA法”实证研究
6.1 免疫学研究前沿识别信息域构建
6.1.1 领域高被引文献获取
6.1.2 领域高共被引文献集合生成
6.1.3 共被引-施引文献集合生成
6.1.4 高耦合施引文献集合生成
6.1.5 共被引耦合文献网络生成
6.1.6 共被引耦合文献网络特征分析
6.2 基于PhraseLDA的免疫学研究主题抽取
6.2.1 语料库构建
6.2.2 数据预处理
6.2.3 研究主题抽取
6.3 基于“引用-内容”的免疫学研究前沿识别
6.4 方法评价
6.4.1 专家评价法
6.4.2 对比评价法
6.5 本章小结
第7章 总结与展望
7.1 研究总结
7.2 主要创新贡献
7.3 研究局限性
7.4 研究展望
参考文献
附录1 停用词表
附录2 研究前沿评价表
附录3 ESI免疫学研究前沿Top30
附录4 研究前沿识别程序代码
致谢
作者简历及攻读学位期间发表的学术论文与研究成果
本文编号:3932243
本文链接:https://www.wllwen.com/tushudanganlunwen/3932243.html