《经济研究》折射中国经济发展——对《经济研究》刊载文章的文本挖掘与统计分析

发布时间：2024-06-04 03:33

　　学术研究的重要环节之一是文献学习。作为学术文献的重要载体,学术期刊在大数据时代,积极转变学术交流的模式,创办了学术期刊官方网站。一方面,学术期刊官方网站的建立,将零散的文献资源系统化,使其以Web文本的形式呈现,提高了文献的综合利用价值;另一方面,网站的建立缩短了学术文献的发表周期,使学术文献发表数量剧增、知识与信息更是膨胀式增长,这无疑对学者快速准确获取有用的知识带来了挑战。文本挖掘技术的适时兴起让各界学者看到了充分发现学术文献潜在知识的可能性。然而,Web挖掘技术尚在发展阶段,仍无法全面系统地提炼文献信息。目前,阻碍学术文献文本信息的深层次挖掘和精准利用的因素有以下几点:文档主题生成模型存在主题阈值设定和主题漂移等问题;传统文本聚类算法在处理数据时存在着对初始值的依赖性较强、易获得局部最优的弊端;前人对学术期刊的核心作者群分析大都从作者发文数量角度进行,对其发展过程中形成的合作群体,以及群体间合作关系的研究较少。针对上述问题,本文在前期研究基础上着重探讨如何从大量短文本中发现主题并进行演化分析,提出一种改进的主题演化模型,解决单个主题演化分析方法中主题数目不确定和主题漂移的问题。此...

【文章页数】：75 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
1 引言
    1.1 论文的研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 文献综述
        1.2.1 文本挖掘
        1.2.2 《经济研究》的文本挖掘
        1.2.3 文献评述
    1.3 研究方法与创新点
        1.3.1 研究方法
        1.3.2 创新点
    1.4 研究内容及研究框架
        1.4.1 研究内容
        1.4.2 研究框架
2 文本建模相关理论与基础技术概述
    2.1 《经济研究》Web文本挖掘概述
        2.1.1 Web文本挖掘定义
        2.1.2 网络版《经济研究》数据结构特点
        2.1.3 《经济研究》Web文本挖掘的过程
    2.2 《经济研究》中文分词概述
        2.2.1 中文分词的介绍
        2.2.2 中文分词的方法
        2.2.3 《经济研究》中文分词工具
        2.2.4 《经济研究》中文分词的歧义处理
    2.3 《经济研究》文本特征提取
    2.4 LDA-AP主题模型
        2.4.1 LDA算法
        2.4.2 AP聚类算法
        2.4.3 LDA-AP主题演化模型
3 基于《经济研究》文本挖掘的实现与结果分析
    3.1 样本选择与数据处理
        3.1.1 《经济研究》文本数据采集
        3.1.2 文本预处理
    3.2 《经济研究》的历史阶段回顾与内容分析
    3.3 《经济研究》主题的演化分析
        3.3.1 主题建模
        3.3.2 主题内容聚类演化结果与分析
        3.3.3 主题强度的结果与分析
    3.4 核心作者群以及作者研究领域分析
        3.4.1 高产作者群
        3.4.2 外在合作关系分析
        3.4.3 潜在合作关系分析
        3.4.4 核心作者群
        3.4.5 核心作者群研究领域分析
4 总结与展望
    4.1 研究结论
    4.2 研究展望
参考文献
后记

本文编号：3988804

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/jingjilunwen/shijiejingjilunwen/3988804.html

上一篇：技术进步对中国区域碳排放的影响研究
下一篇：黑龙江省边境地区综合发展水平时空演变及影响因素研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|