基于自组织映射的期刊主题研究
发布时间:2020-07-15 18:36
【摘要】:学术期刊是科学交流的重要载体。随着科学的发展与人类知识的积累,学术期刊及其刊载论文的数量一直保持快速增长的趋势。期刊数量的不断增长必然导致期刊内容的交叉重复,同一学科或研究领域内可能包括许多期刊,如何从主题的角度有效地收藏、利用并管理学术期刊受到许多机构与个人的关注。早期人们对期刊数量的关心也逐渐转化为对期刊主题内容的注意。期刊主题研究具有重要的学术意义与实践价值,它可以为图书馆等收藏机构有效采购学术期刊、新进入的研究者选择研究方向、研究者选择与其研究内容相关的期刊进行投稿、学术期刊制定相应的发展策略以及科研政策与资助计划的制定提供有意义的参考。 学术期刊通常涉及大量的主题,这种高维数据的特点使得期刊主题研究开展起来不太容易。鉴于此,本文将采用一种可视化的降维方法,即自组织映射(SOM)人工神经网络方法来研究期刊主题,使高维的期刊主题数据显示在低维的SOM空间中,便于研究者观察期刊主题的特点。 本文共分为七个部分: 1.期刊主题研究的理论基础 本章阐述了期刊主题研究的对象、主要内容、研究方法以及走向与趋势。期刊主题研究的对象主要有两种,即期刊及其主题。其研究内容可归纳为八个方面:①期刊主题标引研究,②期刊主题的聚类研究,③特定类别的主题在期刊中的分布研究,④基于主题的期刊分类与聚类研究,⑤特定期刊的主题构成分析,⑥不同国家与地区的期刊主题比较研究,⑦期刊主题热点分析,⑧期刊主题发展趋势研究。期刊主题研究的方法主要是文献计量学方法、内容分析法与专家调查法。潜在语义分析、多维标度以及人工神经网络方法也可用于期刊主题研究。期刊主题研究的发展趋势可归纳为以下几点。首先,期刊主题研究的方法迫切需要从现有的大量繁琐的统计分析工作中解脱出来,引入能有效处理高维数据的新方法。其次,研究内容需要拓展,包括对期刊主题的聚类以及基于主题的期刊聚类等内容。最后,期刊主题研究的层次需要进一步提升。例如,在期刊主题发展趋势研究方面,需要研究如何测量期刊主题整体随着时间变化的程度,而不是仅限于统计归纳个别主题随时间发展的状况。 2.自组织映射用于期刊主题研究的方法论 本章描述了自组织映射(SOM)的原理,比较了两种主要学习算法的优缺点与适用条件,归纳了SOM的几种显示方式,讨论了三种性能较好的SOM软件工具,设计并详细阐述了SOM用于期刊主题研究的方法。SOM是一种无指导学习的人工神经网络方法,其学习算法主要是序列学习与批学习算法,U-matrix图和成分图是两种常见的SOM输出形式。三维输出较平面输出而言,可以避免“边缘效应”,具有更高的准确性。通过广泛调查与试用,笔者发现SOM Toolbox, Viscovery SOMine和Databionic ESOM Tools是三种性能较好的SOM软件工具,并采用SOM Toolbox作为本文的研究工具。为了利用SOM进行期刊主题研究,笔者定义了四种SOM输入矩阵,在Ultsch于2003年定义的U-matrix基础上进行修改,提出一种新的增强型U-matrix。此外,笔者提出了四种新的SOM输出方式,即综合成分图、属性叠加矩阵、属性方差矩阵以及关键属性投影,并详细阐述了它们的定义、原理以及在本文的期刊主题研究中的应用方法。 3.期刊主题聚类研究 本章旨在利用SOM算法对期刊的主题进行聚类,生成等级式的主题目录,为用户查找相关主题、浏览相关文献或改进搜索术语提供建议。笔者以53种与图书情报领域相关的英文期刊为样本,抽取它们在2007年的主题,构造了主题-期刊输入矩阵,利用SOM算法对该矩阵进行训练,将2330个主题映射到163个SOM非空结点上。通过比较自定义的增强型U-matrix与Ultsch于2003年定义的U-matrix应用于训练结果的显示效果,验证了第2章提出的新的增强型U-matrix的有效性与先进性。根据结点的相邻性,将SOM结点中的主题聚为21个类,例如计算机信息管理、计算机信息系统、教育等,分析了各个主题聚类的大小与分布特点,并评价了聚类的效果。最后,笔者将主题聚类的结果与相关研究者的研究结果进行了比较。 4.期刊主题的热点分析 本章旨在发现期刊的热点主题以及这些热点主题在期刊中的分布状况。笔者将属性叠加矩阵应用于第3章的SOM训练结果,识别这53种期刊在2007年的热点主题。结果发现,虽然这些期刊广泛涉及大量的主题,但热点主题仅占全部主题数量的1.1%,主要集中在图书馆、计算机信息系统、教育、企业信息化等领域。笔者将热点主题的分析结果与国内相关研究者的研究结果进行了比较,发现了国内外图书情报期刊在热点主题上的异同点。接着,笔者选择了三种重要期刊,分析了它们的热点主题。最后,通过分析图书馆、信息技术与管理信息化这三类热点主题对应的综合成分图,揭示这三类热点主题主要分布的期刊。 5.期刊的主题相似性与差异研究 本章旨在利用SOM算法根据期刊的主题对期刊进行聚类,识别使期刊之间产生主要差异的关键主题,并确定各期刊聚类的主题特点。笔者构造了期刊-主题输入矩阵,利用SOM算法对该矩阵进行训练,将53种期刊映射到140个SOM结点上。通过分析自定义的增强型U-matrix图,结合结点的相邻程度,将期刊聚成19个类,并对聚类效果进行了评价。然后,笔者将属性方差矩阵应用于第2章对主题-期刊矩阵的训练结果,识别使期刊之间产生主要差异的关键主题;将期刊SOM输出投影到由图书馆类、信息技术类与管理信息化类这三组主题形成的三维空间中,从而分析各期刊聚类的主题特点。 6.期刊主题发展趋势研究 本章旨在利用SOM算法确定期刊主题整体在一段时间内变化的程度,分析主题的时序活跃性以及活跃主题的变化趋势。笔者以Journal of Information Science(JIS)从1981-2007年的主题数据为样本,构造了年份-主题矩阵,利用SOM算法对该矩阵进行训练,将27个年份映射到26个SOM非空结点上,并以彗星模式显示SOM输出。通过分析连续年份在SOM输出中的位置之间的相邻程度,根据自定义的增强型U-matrix图,将27个年份聚成13个类,揭示了该期刊的主题在这27年间的整体变化规律。接着,通过构造主题-年份矩阵,利用SOM算法对该矩阵进行训练,将990个主题映射到153个SOM结点上,应用属性方差矩阵,识别随时间变化较为明显的活跃主题,结合属性叠加矩阵,识别平稳发展的热点主题。最后,利用综合成分图,分析了信息类、计算机与网络类以及图书馆类这三类活跃主题随时间发展的趋势。 7.研究的不足及展望 本章总结了本研究在数据收集与研究内容上的不足,指出后续将扩大研究的期刊范围与时间跨度,研究更多期刊在更长时间跨度内的主题特点;阐述了属性叠加矩阵与属性方差矩阵用于分析期刊的主题总数、主题侧重程度之间的差别以及这些指标随时间变化的规律的基本原理。此外,比较不同国家与地区的图书情报期刊在主题上的相似性与差异将有助于国内图书情报学研究与期刊发展。 图24,表22
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:G353.21
【图文】:
找出最佳的初始化与训练算法,我们进行了四轮前期试验,分别为:①随列学习算法;②线性初始化和序列学习算法;③随机初始化和批学习算法化和批学习算法。结果显示,试验④线性初始化和批学习算法的最终量化此,笔者采用线性初始化和批学习算法。为了避免平面输出产生的边缘效超环面的SOM输出形状,并用第2.5.2节自定义的增强型U一atrix作为OM心l}练的结果如图3.2所示,它有20行与12列,共240个SOM结点。数字表示映射到该结点的主题数量。需要注意的是,图3.2是超环面SO,实际上图的上边缘与下边缘相连,左边缘与右边缘相连。图右方的颜色matr议值的大小,例如,红色代表U一atrix值很大,蓝色代表U·matrix值很强型U一mat血有效性的验证
CCC2111其它 它 28885088818.111113.5.2主题聚类在s0M输出中的空间分布为了反映各个主题聚类之间的相对位置,图3.4显示了各个主题聚类在SOM输出中的空间分布。其中,颜色相同的连续区域表示一个主题聚类,用标签Ci表示,1=1,2,…,21。白色代表空结点,灰色(即CZI)表示其它类。由于本研究采用超环面的SOM输出形状,SOM输出的上边缘与下边缘、左边缘与右边缘是相连的,因此Cl、CZ、C10、C3、CS、C20等聚类虽然看上去由分离的区域构成
4.2.3结果分析与讨论 4.2.了.1琳,首宝题瀚数量分布图4.1显示,位于SOM输出的四个“角”(实际上在超环面空间中,这些角落与边缘是连在一起的)的少数几个结点的属性叠加矩阵的值较大,呈现红、橙、黄色,是所有被调查期刊的热点主题;位于SOM输出的“中间偏下方”区域的属性叠加矩阵的值居中,呈现绿、青、淡蓝色,是所有被调查期刊的一般主题;而位于SOM输出的“上方中间”的大片区域的属性叠加矩阵的值较小,呈现深蓝色,是所有被调查期刊的冷门主题。由此可见,被调查期刊发表论文的重点主要集中在少数几个热点主题上,而大部分主题在被调查期刊中出现的次数较少,符合常见的二八原则。根据图4.1中各结点的背景颜色
本文编号:2756864
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:G353.21
【图文】:
找出最佳的初始化与训练算法,我们进行了四轮前期试验,分别为:①随列学习算法;②线性初始化和序列学习算法;③随机初始化和批学习算法化和批学习算法。结果显示,试验④线性初始化和批学习算法的最终量化此,笔者采用线性初始化和批学习算法。为了避免平面输出产生的边缘效超环面的SOM输出形状,并用第2.5.2节自定义的增强型U一atrix作为OM心l}练的结果如图3.2所示,它有20行与12列,共240个SOM结点。数字表示映射到该结点的主题数量。需要注意的是,图3.2是超环面SO,实际上图的上边缘与下边缘相连,左边缘与右边缘相连。图右方的颜色matr议值的大小,例如,红色代表U一atrix值很大,蓝色代表U·matrix值很强型U一mat血有效性的验证
CCC2111其它 它 28885088818.111113.5.2主题聚类在s0M输出中的空间分布为了反映各个主题聚类之间的相对位置,图3.4显示了各个主题聚类在SOM输出中的空间分布。其中,颜色相同的连续区域表示一个主题聚类,用标签Ci表示,1=1,2,…,21。白色代表空结点,灰色(即CZI)表示其它类。由于本研究采用超环面的SOM输出形状,SOM输出的上边缘与下边缘、左边缘与右边缘是相连的,因此Cl、CZ、C10、C3、CS、C20等聚类虽然看上去由分离的区域构成
4.2.3结果分析与讨论 4.2.了.1琳,首宝题瀚数量分布图4.1显示,位于SOM输出的四个“角”(实际上在超环面空间中,这些角落与边缘是连在一起的)的少数几个结点的属性叠加矩阵的值较大,呈现红、橙、黄色,是所有被调查期刊的热点主题;位于SOM输出的“中间偏下方”区域的属性叠加矩阵的值居中,呈现绿、青、淡蓝色,是所有被调查期刊的一般主题;而位于SOM输出的“上方中间”的大片区域的属性叠加矩阵的值较小,呈现深蓝色,是所有被调查期刊的冷门主题。由此可见,被调查期刊发表论文的重点主要集中在少数几个热点主题上,而大部分主题在被调查期刊中出现的次数较少,符合常见的二八原则。根据图4.1中各结点的背景颜色
【引证文献】
相关期刊论文 前3条
1 覃丽金;吉家凡;唐朝胜;刘小香;邓玲;;主题式学科化服务模式研究——结合海南大学图书馆的案例分析[J];图书馆论坛;2014年04期
2 李湘东;张娇;袁满;;基于LDA模型的科技期刊主题演化研究[J];情报杂志;2014年07期
3 王聪;郑明慧;王振华;秦誉嘉;周贤;龚国祥;李志红;潘绪斌;;植物检疫性有害生物名单发展综述与制订方法探讨[J];植物检疫;2014年03期
相关硕士学位论文 前1条
1 夏欣;基于PSO-FNN的网络安全态势评测研究与实现[D];电子科技大学;2013年
本文编号:2756864
本文链接:https://www.wllwen.com/tushudanganlunwen/2756864.html
教材专著