当前位置:主页 > 社科论文 > 图书档案论文 >

基于时间序列的学科热点主题预测

发布时间:2020-05-27 17:16
【摘要】:在特定学科研究领域中,从科技文献中快速和正确地识别研究热点主题是了解该学科研究领域发展状况的重要手段,也是推动科技政策制定的重要环节。本文采用Relim算法从“动物遗传与育种”领域文献中识别出研究热点主题,并采用了四种机器学习算法对研究热点主题进行预测,发现集成后的预测模型对时间序列预测效果较好,选择提前两步的预测效果最好。实验结果表明热点主题预测有助于了解未来一段时间内的研究热点主题状况。本文的主要研究工作:(1)基于Relim算法的研究热点主题识别。主要通过对若干个识别主题算法的对比研究,在前人研究基础上确定将Relim算法作为识别主题的核心算法,实现了从动物遗传与育种领域的科技文献中对研究热点主题的自动挖掘。本文从实验数据中共挖掘了“animal”、“association”、“behavior”、“animal_association_behavior”、“breed”等283个热点主题。为了去除冗余的数据,对研究热点主题进行精简,精简后为“animal_association_behavior”和“breed”等250个热点主题。将2000-2017年精简的主题的频数按年份顺序排列得到时间序列。(2)基于机器学习算法对热点主题的演变趋势预测。本文采用了线性回归、支持向量机、径向基函数回归、径向基函数神经网络四种机器学习算法,对单个主题“breed”进行预测。对比发现对于同一时间序列,由于不同算法彼此间的多样化或独立性的本质,导致四个单个预测模型的均方误差、均方根误差、平均绝对误差值之间存在着巨大的差异。通过将单个预测模型的预测值进行综合加权(集成预测)作为对热点主题演变趋势的预测模型。在集成预测模型中,将性能表现不好的预测模型与性能较好的预测模型进行加权组合,最终可以得到性能更加稳定的集成预测模型。通过对主题“weight body”提前五步的预测实验,发现提前2步的预测方案是最优的。最后,利用集成预测模型对主题“ability”、“acid”、“activation”进行提前2步的预测。主题“ability”在2017年之后,主题的频数有下降的趋势;主题“acid”在2017年到2018年频数有下降的趋势,但是2019年,主题的频数有所回升;主题“activation”在2017年之后主题的频数保持平稳的状态。实验结果表明,该方法能够较为准确地从动物遗传与育种领域的文献集合中预测该领域热点主题,特别是对未来2年的热点主题预测具有较好的预测结果。该方法也同样适合基于科技文献的其他学科或领域的热点主题预测,帮助用户快速了解未来一段时间内的研究热点主题状况。
【图文】:

技术路线图,技术路线,学科,热点


图 1.1 学科热点主题的预测的技术路线Figure 1.1 the technical roadmap of subject hot topic forecastin测的技术路线主要包括以下几个方面:建:从 Web of Science 数据库中采集数据,主要包括处理:利用自然语言处理技术对数据集作预处理,自停用词,词性标注,删除动词、代词、连词,保留的建立:对每个文档建立二进制矩阵,每个句子由一其中向量的大小就是词汇表的大小;利用频繁项数据集算法 Relim 发现主题,并对主题进阵的建立:每个主题由一个向量表示,其中向量的关联性分析;测:使用集合预测模型来预测研究主题的未来趋势。结构体安排如下:

趋势图,科技文献,发文量,趋势


图 3.2 动物遗传与育种领域的科技文献的发文趋势Figure 3.2 the scientific and technical literature trend in the field of animal genetics and breeding从图 3.2 可以看出动物遗传与育种领域的科技文献的发文趋势的具体变化为:发文量最多的是 2016 年,发文量为 6787 篇;发文量最少的是 2001 年,发文量为 2587 篇。从年发文量的发展趋势来看,除 2007 年发文量骤升,2000-2007 年发文量处于缓慢上升状态,表明动物遗传与育种领域的主题的研究热度处于缓慢上升趋势;除了 2015 年发文量骤降之外,其他年份的发文量总体处于一种波浪形且整体属于上升的状态。3.2 二进制矩阵的表示预处理阶段的主要目的是将每个句子转换为事务,通过提取所有关键字来创建二进制向量矩阵。对于每个文档,以句子为维度,句子向量中有关键字的位置都标为 1,而没有的关键字的位置被标记为 0,所有的事务向量可以被表示为一个二元二进制矩阵。图 3.3 表示的是文档转换为事务,,再将事务转换为二元二进制向量矩阵的过程。摘要和标题在句子层面上分别都使用了自然语言处理的方法进行规范化,然后转化为向量空间中的向量,其中,句子中的关键字是维度。对每个句子形成二元二进制关联矩阵,在进行主题挖掘的过程中使
【学位授予单位】:中国农业科学院
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP181;G254

【相似文献】

相关期刊论文 前10条

1 毕凌燕;王腾宇;左文明;;基于概率模型的微博热点主题识别实证研究[J];情报理论与实践;2014年02期

2 谷志军;;当代西方问责研究:理论框架、热点主题及其启示[J];中国行政管理;2017年07期

3 程肖;陆蓓;谌志群;;热点主题词提取方法研究[J];现代图书情报技术;2010年10期

4 郝晓玲;黄蕾;戴志宏;李艳红;;基于经济论坛数据的热点主题挖掘研究[J];情报科学;2016年05期

5 陆蓓;程肖;谌志群;;基于改进蚁群聚类的热点主题发现算法研究[J];现代图书情报技术;2010年04期

6 陈国权;黄振威;;地方政府创新研究的热点主题与理论前瞻[J];浙江大学学报(人文社会科学版)预印本;2010年06期

7 赵智兴;段鑫星;;“双一流”建设研究的热点主题与前沿窥探[J];广西社会科学;2019年03期

8 武强;邰杨芳;贺培凤;;国内信息行为研究的热点主题分析[J];中华医学图书情报杂志;2017年08期

9 丁晟春;王楠;吴靓婵媛;;基于关键词共现和社区发现的微博热点主题识别研究[J];现代情报;2018年03期

10 凌健;毛笛;;国际学科建设领域的热点主题和研究前沿探析[J];教育评论;2018年09期

相关会议论文 前2条

1 贺谦;肖辉;孔萍;;基于共词聚类的国内DRGs研究热点探析[A];2017年中国卫生统计学学术年会论文集[C];2017年

2 张东军;王斌;;体育组织文化研究现状与展望[A];第8届全国运动心理学学术会议论文汇编[C];2006年

相关重要报纸文章 前10条

1 记者 陈健;政策利好有望催生热点主题[N];上海金融报;2017年

2 本报记者 张焕昀;机构看好热点主题绩优股[N];中国证券报;2017年

3 本报见习记者 张颖晓;改革催生投资机会 华夏领先聚焦热点主题[N];证券日报;2015年

4 日信证券 杨震宇;围绕热点主题谨慎做多[N];中国证券报;2009年

5 金百临咨询 秦洪;震荡筑底中把握两大热点主题[N];证券时报;2011年

6 中国航空工业发展研究中心助理研究员 刘亚威;未来飞机制造的几个热点主题[N];中国航空报;2013年

7 民族证券 黄博;国企改革或成下半年热点主题[N];上海证券报;2016年

8 申银万国 金泽斐;零售业增速虽快 但趋势依然向下[N];上海证券报;2008年

9 刘一洁;画面美和文字美缺一不可[N];中国新闻出版广电报;2018年

10 记者 傅春荣;众筹产业9月“首秀”投洽会[N];中华工商时报;2015年

相关博士学位论文 前1条

1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年

相关硕士学位论文 前10条

1 聂秀萍;基于时间序列的学科热点主题预测[D];中国农业科学院;2019年

2 尚笑可;近十年来汉语国际教育研究的热点主题与研究前沿[D];辽宁师范大学;2018年

3 张景;基于CBOW-LDA主题模型的Stack Overflow网站热点主题发现研究[D];武汉大学;2018年

4 方志超;基于多元数据对象的科学计量学热点主题识别研究[D];大连理工大学;2017年

5 吴靓婵媛;基于社区发现的网络舆情热点主题识别研究[D];南京理工大学;2017年

6 张舒;基于信息抽取技术的博客知识发现研究[D];扬州大学;2007年

7 朱红艳;国内公共图书馆法人治理结构知识图谱构建与分析[D];安徽大学;2016年

8 马明;肺癌治疗研究的热点主题及其演化轨迹分析[D];中国协和医科大学;2009年

9 王晶;基于社交媒体的热点主题挖掘及主题演化分析[D];西南大学;2016年

10 蒋玉桃;热点主题的探测系统研究及技术实现[D];电子科技大学;2015年



本文编号:2683868

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2683868.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d2216***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com