当前位置:主页 > 科技论文 > 数学论文 >

基于文本挖掘的期刊决策参考研究

发布时间:2020-10-14 00:35
   随着国家对创新发展重视程度日益增加,各类期刊数据累积量亦不断增长,对其进行分析并挖掘有效知识对期刊业自身评估、作者评估、文章质量评估等方面具有重要意义。文章以为期刊决策提供参考为研究最终目的,提出基于分类词典的文本相似度量方法和基于关键词的期刊文本主题提取方法,以上述两种方法为主要研究方法,结合数据挖掘领域中的文本相似性度量、聚类和分类方法完成期刊决策参考研究。针对现有基于语义知识规则分析的文本挖掘存在时间复杂度高的局限性,提出基于分类词典的文本相似性度量方法。以现代汉语分类词典作为语义知识库,在已有语义相似度量方法的基础上对词语相似度量方法进行改进,选取其他基于语义知识库的文本相似度量方法对比该方法,通过聚类与分类实验对相似度量方法结果进行验证,证明了该方法的合理性。方法采用分类词典作为知识库,分类词典相较于词林和知网收录了更多的词语,词语编码匹配成功概率更高,对文本相似性度量影响较小;计算过程中仅在词语编码匹配一个阶段访问知识库,提高了基于语义知识库方法的时间效率;改进了词语相似度计算方法,计算结果优于其他基于语义知识库的方法。针对目前文献分析领域研究者普遍采用统计学方法对文献进行分析这一研究现状,采用基于语义知识库的文本相似性度量方法与基于关键词的期刊文本主题提取方法对期刊论文进行知识发现。以基于分类词典的相似度量方法为理论基础,以创新研究某期刊2007~2016年所有被引文献为研究对象,通过AP聚类对文献进行多次聚类,根据聚类层次对各类别进行关键词聚类、主题词提取和替换,并将最终主题提取结果以主题树的形式呈现。对主题提取结果构建主题树,直观展示主题提取结果,且研究对象主题框架清晰明了;以文献关键词作为文献主题,一定程度避免了文献中提取的词语不能表达文献主题的局限;采用基于语义词典的词语相似度量方法,一定程度减少了同义词导致的误差。在以上述两种理论方法研究的基础上,从期刊论文主题分析、引文-参考文献相关性、组织/基金-主题等方面对目标期刊进行深入分析,旨在为期刊决策提供一定的参考。期刊决策参考研究中,对2011~2016年目标期刊研究主题进行提取总结分析,对不同年度期刊的主要研究主题及年度期刊研究主题变化趋势可以清楚掌握;以词语相似度量为依据对引文-参考文献相关度进行测算,对期刊参考文献相关度进行大体了解,在提高期刊录用论文的被引用率的同时保障引文自身引用其他论文的质量;对期刊基金/机构发文进行分析,得出不同机构/基金发文的被引频次和主要研究主题等研究结论,对期刊论文录用和论文审稿等方面提供一定的决策参考。
【学位单位】:华侨大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1;O225
【部分图文】:

论文主题


论文主题部分逻辑关系图

实例图,关键词,实例,相似度计算


1 1.00 0.62 0.50 0.38 0.29 0.22 0.22 0.22 0.22 0.20 0.21 0.22 0.22 0.33 0.212 0.62 1.00 0.41 0.35 0.25 0.21 0.21 0.23 0.22 0.20 0.21 0.22 0.22 0.30 0.213 0.50 0.41 1.00 1.00 0.29 0.22 0.22 0.22 0.22 0.20 0.21 0.22 0.22 0.33 0.214 0.38 0.35 1.00 1.00 0.27 0.21 0.21 0.22 0.21 0.20 0.21 0.21 0.21 0.30 0.215 0.29 0.25 0.29 0.27 1.00 0.21 0.20 0.30 0.23 0.33 0.28 0.23 0.21 0.21 0.216 0.22 0.21 0.22 0.21 0.21 1.00 0.25 0.20 0.22 0.22 0.23 0.22 0.20 0.25 0.257 0.22 0.21 0.22 0.21 0.20 0.25 1.00 0.20 0.20 0.20 0.21 0.20 0.22 0.21 0.218 0.22 0.23 0.22 0.22 0.30 0.20 0.20 1.00 0.35 0.33 0.21 0.22 0.22 0.20 0.209 0.22 0.22 0.22 0.21 0.23 0.22 0.20 0.35 1.00 0.22 0.21 0.25 0.22 0.22 0.2210 0.20 0.20 0.20 0.20 0.33 0.22 0.20 0.33 0.22 1.00 0.26 0.22 0.20 0.22 0.2211 0.21 0.21 0.21 0.21 0.28 0.23 0.21 0.21 0.21 0.26 1.00 0.21 0.20 0.24 0.2412 0.22 0.22 0.22 0.21 0.23 0.22 0.20 0.22 0.25 0.22 0.21 1.00 0.40 0.22 0.2513 0.22 0.22 0.22 0.21 0.21 0.20 0.22 0.22 0.22 0.20 0.20 0.40 1.00 0.20 0.2014 0.33 0.30 0.33 0.30 0.21 0.25 0.21 0.20 0.22 0.22 0.24 0.22 0.20 1.00 0.2715 0.21 0.21 0.21 0.21 0.21 0.25 0.17 0.20 0.22 0.22 0.24 0.25 0.20 0.27 1.00根据关键词相似度计算结果,通过 AP 聚类方法对关键词进行聚类,并将原始关键词替换为该关键词聚类中心,该替换过程如图 4.1 所示:

主题树,意义,类别,节点


在该类别文献主题两个类别主题词替换同条文献信息进行多层聚取出类别主题词数分别树如图 4.2 所示。类别主题”和“包含该主为α ,主题平均他引文章数 t ,主题下被引11tsα =22tsβ =为:
【参考文献】

相关期刊论文 前10条

1 徐庆;段利国;李爱萍;阴桂梅;;基于实体词语义相似度的中文实体关系抽取[J];山东大学学报(工学版);2015年06期

2 吴菲菲;张辉;黄鲁成;;基于文献计量的技术转移问题研究主题分析[J];科技管理研究;2015年08期

3 李海林;郭韧;万校基;;基于特征矩阵的多元时间序列最小距离度量方法[J];智能系统学报;2015年03期

4 王小林;杨林;王东;;基于知网的新词语相似度算法研究[J];情报科学;2015年02期

5 李思志;李佳骏;李艳红;;管理科学与工程领域的创新轨迹研究——基于TOP期刊的文献计量和文本挖掘视角[J];中国管理科学;2014年S1期

6 易明;操玉杰;邓卫华;毛进;;基于文献聚类的国内外知识传播研究主题分析[J];情报科学;2014年11期

7 孟令恩;李颖;何彦青;屈鹏;王惠临;;基于语义角色标注的专利主题提取研究[J];图书情报工作;2014年19期

8 丁世飞;贾洪杰;史忠植;;基于自适应Nystrm采样的大数据谱聚类算法[J];软件学报;2014年09期

9 段炼;呙维;朱欣焰;胡宝清;;基于时空主题模型的微博主题提取[J];武汉大学学报(信息科学版);2014年02期

10 侯素芳;汤建民;;国内期刊评价研究综述和评估:1998-2011[J];情报科学;2014年01期


相关博士学位论文 前5条

1 陈虹枢;基于主题模型的专利文本挖掘方法及应用研究[D];北京理工大学;2015年

2 赵健;基于近20年中医期刊文献的肠易激综合征辨证用药规律研究[D];北京中医药大学;2014年

3 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年

4 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年

5 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年


相关硕士学位论文 前1条

1 史燕;基于HNC的汉语句子相似度算法的研究[D];江苏大学;2009年



本文编号:2839916

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2839916.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户85665***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com