当前位置:主页 > 社科论文 > 图书档案论文 >

基于文献计量的国内LDA主题模型研究进展分析

发布时间:2020-10-02 06:12
   [目的/意义]梳理"LDA主题模型"提出以来的国内研究现状,总结其研究趋势和发展情况,为进一步在情报学领域利用该模型进行研究提供参考和借鉴。[方法/过程]在CNKI中进行相关检索,得到符合要求的文献作为数据集,从年度发文量、高产出作者、高产出机构、作者之间的合著情况、高产科研机构之间的合作情况、文献来源情况以及相关文献的关键词之间的共现情况等方面进行分析,并通过可视化软件进行结果展示。[结果/结论]从年度发文量来看,LDA主题模型的研究论文呈现出数量逐步上升的趋势,说明进行该模型的有关研究具有一定的可行性;结合高产出作者和作者之间的合著情况来看,LDA主题模型的有关研究更加趋向于计算机相关领域;从高产出机构的情况来看,地理位置在东部和南部的相关科研机构更容易在LDA主题模型的有关领域占据领先位置,"985"、"211"以及"双一流"高校凭借自身优势更容易获得科研资源,产生出大量成果;从关键词之间的共现情况来分析,以"LDA"为主要出发点开展相关研究,主要涉及到"主题模型"和"主题挖掘"内容,这一点可以和"大数据"背景下的情报领域相关发展结合起来。
【部分图文】:

合作关系,机构


利用Bibexcel、ucinet6.0以及NetDraw2.084软件,结合表4中的“高产机构统计结构”生成合作关系矩阵,进而绘制出合作关系图,如图4所示。经计算,高产机构合作关系矩阵的密度为0.016 7,密度较小,反映到图4上的趋势即点与点之间的联系较为分散,无法形成比较紧密的联系。同时部分高产机构同一般机构合作,或者是独立完成科研任务,因此在图4中单独一列。在ucinet6.0中计算点度中心度和出度中心度,如下表4和表5所示,来寻找在该网络中重要性最高的科研机构,以及影响力较强的科研机构。该矩阵的点度中心度最高值为5.769,最低为0.000,平均值1.306。最高值出现在“闽南师范大学计算机学院”、“武汉大学信息管理学院”,其次重要性程度较高的科研机构还有“安徽理工大学经济与管理学院”、“合肥工业大学计算机与信息学院”、“吉林大学计算机科学与技术学院”等。从表4可以看出,科研机构大部分都同“计算机”以及“信息管理”相关,说明对于“LDA主题模型”的研究同这两个领域有着紧密的联系。随着数据的爆发式增长,各种非结构化和半结构化的数据随之越来越多,这种数据结构有别于传统的数据形式,在分析起来有相当的难度[7],应用传统的直观统计或者分析方法往往难以完成相应的分析任务。因此借助计算机领域的相关编程手段,如R语言和Python语言等来帮助对上述数据进行分析成为大多数研究人员进行文本挖掘,主题探究,文档相似性检测等活动的选择。

技术方法,社会网络,文献研究


为充分达到本文的研究目的,拟将文献研究法、社会网络分析法、统计分析法等各种可视化分析方法综合应用。各方法在本研究中所发挥的作用如下图1所示。由图1可知,统计分析法贯穿整个研究的始终,从开始的确定统计口径和指标一直到最后的社会网络分析法都离不开统计与分析,文献研究法负责基础的资料搜集与处理,为下一步的研究提供符合要求的材料,社会网络分析法在本次研究中起主要作用,从系统的角度对文本进行分析,从而揭示“LDA主题模型”在不同领域之间的研究趋势发展情况。

趋势图,年度,趋势图,趋势


表1 各年度发文量统计 年份 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 发文数目 1 3 3 8 13 16 37 47 61 88 91 107结合图1和表1可知,符合要求的文章发文数目从2007年开始呈现出递增的趋势,其中2008年和2009年的发文数量持平,均为3篇。在2012年之后递增幅度明显增大。从2007年发表相关文章1篇,到2018年的107篇,趋势如图1虚线所示,该趋势可以用一个R2=0.9 928的一元回归模型来进行表示,且该趋势线可以拟合12个年份中的10个年份,能够较好的同论文的发文数量趋势相拟合。该趋势可以用y=0.0 012×x6-14.796×x5+74 437×x4-2×108×x3+3×1 011×x2-2×1 014×x+8×1 016来表示,其中y代表年度发文数目,x代表从2007年开始直到2018年的每一年,利用上述一元回归模型进行计算,可知2018年的发文数目将近是2014年的2.27倍,说明使用该模型进行研究仍然是一个热点,使用该模型的上升趋势较为明显。

【相似文献】

相关期刊论文 前10条

1 欧卫;谢赞福;谢彬彬;欧缤忆;;基于LDA模型的社交网络主题社区挖掘[J];计算机与现代化;2014年08期

2 林丽丽;马秀峰;;基于LDA模型的国内图书情报学研究主题发现及演化分析[J];情报科学;2019年12期

3 蒋明敏;王雪芬;刘s

本文编号:2832027


资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2832027.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0b097***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com