当前位置:主页 > 管理论文 > 管理理论论文 >

基于文本挖掘和潜在狄利克雷分配的科学管理热门话题提取与预测

发布时间:2020-09-29 23:44
   管理科学是一个广泛的跨学科领域。如果研究者们不了解新兴话题,在这个领域进行研究会非常具有挑战性。本项研究的首要目标是通过减少仅以确定管理科学领域当前热点问题为目的多次初步阅读,解决学者选择研究方向的困难。通过分析管理科学领域的出版物,研究将有助于确定热门话题,绘制管理科学中核心领域地图。学者一但开始一项研究活动,他们的研究在科学领域具有意义和重要性是非常重要的。本研究的第二个目的是通过提供基于已确定趋势的热度预测工具,来更好地定位学者的研究活动来满足学者的科研需求。因此,学者们可以根据个人兴趣和学术前景,明确研究管理科学领域的研究侧重点。因此,这项研究的重要性在于它将为科学管理领域的同仁提供一个热门话题框架,以便更好地指导他们的研究工作。他们将能够识别短期和长期趋势,熟悉并建立管理科学领域的知识框架。此外,它可能会激发他们对忽视了的话题的兴趣,揭示未来需要研究的话题。本研究的结果还将提供一个审评人员对管理科学领域的兴趣概况,有助于期刊等出版物的传播。这项研究的结果也可能有助于研究人员熟悉管理科学中的主题发展链。这项研究将介绍用于分析如科学出版物等的文件的各种技术,这些出版物可能会使读者获得该领域的知识。根据许多其他学者谁在其他学科做的类似研究,文本挖掘方法在研究领域图谱是是有价值的工具。文本挖掘是处理结构化,半结构化甚至非结构化数据集(如文本文档)的特定类型的数据挖掘。文本挖掘是属于人工智能领域的一系列技术,它结合了语言学,语义学和语言学,统计学和计算机科学等领域。主题建模是文本挖掘的一种变体。主题建模方法基于的假设是:文档由主题构成,并且主题是基于词汇的分布。主题建模是一组统计方法,用于通过分析原始文本的文字来揭示贯穿整个语料库的话题。单个文本或文档可能包含多个主题。最流行的主题建模方法是潜在狄利克雷分布(LDA)。LDA是一个语料库的生成模型,其中文档是潜在主题的随机混合,其中每个主题的特征是词汇的概率分布。每个主题中概率最高的单词通常会对该主题的内容给出一个好主意。LDA在不同领域展示了在巨大信息和科学文献中确定隐藏结构的有效性,因此它是本研究选择的方法。为了缩小研究领域,分析INFORMS数据库中包含的出版物是一个妥当的选择。INFORMS(运筹学与管理科学研究所)是运筹研究(OR)管理科学以及分析领域学者的国际性论坛。INFORMS与ES发布所有相关的管理科学领域的学术同行评议期刊。因此,为了更好地达到研究目标,我们对2008年至2017年的INFORMS的文章出版物进行了十年的分析。大多数先前的研究使用摘要或关键词作为出版物的代表。然而,标题,摘要和关键词是更好地描述文章内容的特征。本研究中的方法是首先收集INFORMS期刊上发表的研究论文的标题,摘要和关键词,然后应用具有潜在狄利克雷分布的文本挖掘技术以识别管理科学领域的热门主题。为了测试热度预测工具的性能,收集了来自不同科学领域(包括管理科学)的各种来源的20份研究论文摘要,以便更好地评估该工具根据相关领域或非相关领域论文工作来确定热度的能力。开展这项研究的第一步是收集相关数据。使用网络爬虫来从Informs网站收集出版物元数据{标题,摘要和关键词}。共有6749篇研究论文,摘录自十年内(2008-2017)十二个学术期刊:《决策分析》,《信息系统研究》,《INFORMS计算学报》,《INFORMS教育交流》,《界面》,《管理科学》,《制造与服务运营管理》,《营销科学》,《运筹数学》,《运筹学》,《组织科学》,《服务科学》,《战略科学》,《运输科学》。收集出版物后,它们被存储在My SQL数据库中。下一步就是通过去除无价值的信息来清理数据。对收集的数据进行了四个主要操作:大小写字母统一,非字母字符移除,停用词移除,罕见字移除LDA模型的一个重要输入是推断的主题数量。初步分析表明,12种主题可以保证模型质量。LDA模型的输入是词向量语料库,主题数量和一些调整参数。经过连续的训练,LDA模型帮助发现了管理科学学科的12个主题。主题0与交通规划和交通管理有关,主题1与线性规划有关。主题2与运营管理和决策系统支持有关。主题3与数字营销有关。主题4与组织行为有关。主题5与数学优化有关。主题6与决策有关。主题7与知识管理有关。主题8与服务运营有关。议题9与财务风险有关。主题10与供求关系密切。议题11与博弈论有关的。在这些话题中,话题0,话题2,话题4.话题7,话题9.话题10,对应于管理科学领域中的著名研究领域。其余主题是与用于支持管理科学研究的数学,计算方法和理论相关的一般主题,但也用于解决许多其他科学应用中的问题。对往期期刊的分布在LDA模型的结果进行分析,有助于发现2013年至今,金融风险,数字营销和运输计划及交通管理是热门话题。从2008年到2001年,热门话题是知识管理,服务运营和供求关系。从2011年到2003年,最热门的话题是组织行为。对这些主题及其相关期刊的进一步分析有助于发现类似内容的期刊,例如:《INFORMS教育交流》和《界面》都是教育相关;《信息系统研究》和《组织科学》。也被发现了具有独特内容的期刊《决策分析》和《运输研究》。发现的热门话题主要与以下期刊有关:《市场营销科学》,《信息系统研究》和《交通规划》与《交通管理》,也进一步证实了此前有关这些主题的研究的预测。从LDA模型的输出结果中可知,构建的预测工具,将主题分配给新文档并预测热度。在该工具上进行的测试证实了它在分配主题,期刊和预测管理科学相关论文的热度方面的表现。遗憾的是,由于该学科的广泛性以及与其他学科的交织,该工具无法确定论文是否与管理科学有关。尽管进行的分析的有一定的有效性,但也发现了一些研究的局限。数据集的大小并不能确保对管理科学中的所有出版物进行分析,因此,其他一些热门话题可能还没有被发现。进行的预处理步骤是自定义的,可能不完美。用不同方法对相同数据集进行的其他研究可能会导致不同的结果。为了利用本研究并提升研究效果,可以在其他科学领域进行类似的分析。从获得的结果中,可以建立协作学术研究工具来帮助各学科的学者进行他们的研究。这个协作工具可以通过推荐热门话题以及领域专家。它也可以预测提交论文的热度,并最终建议出可以发表论文的期刊。总的来说,这项研究已经证明了主题模型在发现潜在话题方面的有效性,它有助于发现管理科学领域的一些热点话题,并提出了一种帮助管理科学学者进行研究活动的工具。
【学位单位】:哈尔滨工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:C93
【文章目录】:
摘要
Abstract
Description of Variables and Parameters
Chapter 1 Introduction
    1.1 Background
    1.2 Purpose and Significance
    1.3 Literature Review
        1.3.1 Topic Extraction from Scientific Publications
        1.3.2 Topic Modeling Approaches
        1.3.3 LDA and Management Science Publications
        1.3.4 Hotness Prediction of Scientific Paper or Research
        1.3.5 Comments on the Literature Review
    1.4 Delimitation of the Research
    1.5 Content of the Thesis
Chapter 2 Theoretical Foundation
    2.1 LDA Generative Model
    2.2 Posterior Inference of LDA Model
        2.2.1 Variational Inference
        2.2.2 Online Variational Inference
        2.2.3 Gibbs Sampling
    2.3 LDA Evaluation Metrics
        2.3.1 Perplexity
        2.3.2 Topic Coherence
    2.4 LDA-based Predictive Model
    2.5 Chapter Summary
Chapter 3 Data Acquisition and Preprocessing
    3.1 Process Overview
    3.2 Data Collection
        3.2.1 Data Source
        3.2.2 Extraction of Publications
    3.3 Data Preprocessing
    3.4 Chapter Summary
Chapter 4 Data Analysis and Results
    4.1 Hot Topics Extraction with LDA
        4.1.1 Running LDA
        4.1.2 The topics of Management Science
        4.1.3 Trends Analysis
    4.2 Hot Topics Prediction Tool
    4.3 Chapter Summary
Chapter 5 Findings, Limitations and Future Directions
    5.1 Major Findings of the Study
        5.1.1 Hot Topics Dynamics
        5.1.2 Hotness Prediction
        5.1.3 Discussion
    5.2 Limitations
    5.3 Future Directions
    5.4 Chapter Summary
Conclusion
References
Appendix I Python Source Code for LDA modeling
Appendix II Topics’ Top 10 Words
Appendix III Overtime Journal Topic Distribution
List of Abbreviations and Acronyms
Acknowledgements
Resume

【相似文献】

相关期刊论文 前10条

1 张祖明;谈高等学校人事管理的职能[J];信阳师范学院学报(哲学社会科学版);1989年03期

2 吴登生;李若筠;;中国管理科学领域机构合作的网络结构与演化规律研究[J];中国管理科学;2017年09期

3 杨列勋;;NSFC与RSE在管理科学领域合作取得进展[J];自然科学进展;2009年03期

4 闫相斌;宋晓龙;宋晓红;;我国管理科学领域机构学术合作网络分析[J];科研管理;2011年12期

5 李志宏;马倩;周广刚;;国内管理科学领域高校间学术论文合著网络的时间演化分析[J];管理工程学报;2013年04期

6 吴蓉;管理科学领域的新突破——高军教授和他的余弦管理理论与方法[J];吉林省经济管理干部学院学报;2001年05期

7 韩建国;陈乐生;朱东华;范英;黄璐;;科学基金国际评估的实践——中德科学中心评估工作[J];中国科学基金;2009年03期

8 陈安;;管物、理人,什么最难?[J];大学生;2013年18期

9 葛皎丽;;浅析项目管理中的风险管理[J];江苏商论;2014年06期

10 杨列勋;;NSFC与RSE在管理科学领域合作取得进展[J];中国科学基金;2009年02期

相关会议论文 前2条

1 吴冲锋;刘杰;席酉民;;编者的话[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第3卷)[C];1995年

2 席酉民;冯耕中;;应用于DSS设计并支持决策分析的决策环境模型[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年

相关重要报纸文章 前5条

1 张子倩 焉岿然;我市申报国家自然科学基金项目又创历史记录[N];青岛日报;2006年

2 ;解读知识管理[N];网络世界;2002年

3 本报记者 晏燕;“走出去”的法宝[N];科技日报;2005年

4 冰洁;让你管理时得心应手[N];中国人事报;2005年

5 杨明清;在平凡岗位上挑战极限[N];工人日报;2007年

相关硕士学位论文 前3条

1 GONCALVES ANTONELLA HONORIA IMANE(古韦斯);基于文本挖掘和潜在狄利克雷分配的科学管理热门话题提取与预测[D];哈尔滨工业大学;2018年

2 姜爱仙;管理科学领域的合作社会网络研究[D];哈尔滨工业大学;2008年

3 周广刚;国内管理科学领域高校间学术论文合作网络研究[D];华南理工大学;2012年



本文编号:2830433

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/glzh/2830433.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户83d31***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com