基于文本挖掘及复杂网络的杂志开放度研究

发布时间:2020-12-30 05:25
  近期,翟天临学术门事件的发生,以及部分学者发现一些超高产的作者在同一本期刊上发表了大量的论文,这类学术事件引发了社会的热议。由此,也提出了一个问题:某一领域的学术平台开放度是怎样的一个状态呢?其背后存在什么样的社会网络关系呢?学术杂志是科研成果的一个重要展现平台。本文主要就通过文本挖掘技术,采集相关数据,对杂志期刊的开放度做出探索性研究,对学术杂志潜在的合著网络进行分析研究。本文以统计学领域较权威的杂志期刊《数理统计与管理》及《统计研究》为研究对象,通过Python爬虫技术收集1999—2018年的数据信息,得到机构单位、作者、年份及文章名等信息。通过复杂网络及简单统计学方法对杂志开放度做出衡量,主要选取复杂网络的网络结构熵、中心性、网络密度等属性特征对开放度做衡量,并建立新的开放度衡量指标“新作者”及“新机构单位”,据此衡量杂志开放度,最后通过UCINET软件构建合著网络并做可视化处理。本文主要的研究成果有:(1)统计学领域基于作者层面开放度整体呈上升趋势,机构单位层面开放度整体呈下降趋势,《数理统计与管理》杂志的作者层面开放度整体呈上升趋势,而《统计研究》杂志的作者层面开放度波动较... 

【文章来源】:江西财经大学江西省

【文章页数】:55 页

【学位级别】:硕士

【部分图文】:

基于文本挖掘及复杂网络的杂志开放度研究


爬虫部分代码在做好准备工作后,选择所需要爬取的数据信息所在的URL(网页地址),

流程图,流程图,网页,切入点


第4章基于复杂网络杂志开放度研究---以统计学两本杂志为例21图4-1爬虫部分代码在做好准备工作后,选择所需要爬取的数据信息所在的URL(网页地址),把URL列入任务中,从将要爬取的URL任务中选择要所需要提取的URL,并对DNS(域名系统)做出解释分析,得到电脑主机的地址,通过URL将相应的网页保存下来,并把以上URL排列进将要获取数据内容的URL任务,由此循环往复。对保存下来的网页做出解释分析,获得所需的具体的数据信息。具体步骤如下图4-2所示。图4-2爬虫流程图(1)初始化网络页面,进入网页,获取URL。要得到待抓取的中国知网文章的URL,就需要找到一个“切入点”URL,这个“切入点”的URL相对应中国知网中网站上的高级检索界面。入口网址是:https://kns.cnki.net/kns/brief/brief.aspx?curpage=1&RecordsPerPage=50&QueryID=10&ID=&turnpage=1&tpagemode=L&dbPrefix=SCDB&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&,这个网址所对应的网页是中国知网的一个高级检索的界面,curpage=1是指数据信息的第一页,curpage=2则

链接图,文章标题,源代码,数据部分


基于文本挖掘及复杂网络的杂志开放度研究22是指第二页,依次下去,每页文章篇幅达到50篇,RecordsPerPage=50也就是代表网页的一页下面共50篇文章。(2)通过Python包request请求响应,查找源网页。在数据爬取的过程中为了方便爬取知网数据,需要从中国知网网站的源代码进行分析。图4-3是中国知网的检索《统计研究》的部分网页源代码,里面给出了论文的链接地址及相关作者。图4-3是其论文链接地址对应的部分源代码,详细地给出了论文的题目、附属机构等信息。图4-3知网数据部分源代码根据图4-3可知,title后面是所需的文章标题,连接的是该文章的网址链接,接下来是所需要提取的文章的作者及附属机构单位等信息,(3)解析网页为了准确提取网页中的信息,能够通过Python自带的urllib2库和正则表达式来解析网页。根据源网页的网页标签和属性,利用正则表达式中find_all()函数提取论文的标题,作者,附属机构等信息,想要获取更多的数据信息,需要通过编写代码抓取更多信息,根据对readAll函数的使用将页面中的文件中的子文件进行调用,并且调用了parseWeb函数,用来对各个源代码的数据信息做出解释,并且使用了spiderUtil类中的save方法,保存数据。然后利用Xlwt模块打开Excel工作簿,并将提取出的数据信息写入Excel表格中,数据就会保存于.xls的文件中。笔者在对中国知网中爬取数据时,遇到了一些障碍,当通过re库中正则表达式获取到的内容为参数错误或验证码,就会结束爬虫,其中每次获取网页内容都会携带cookie(储存在用户本地终端上的数据),一般是利用cookie来验证访问网页的正确性。然后图4-4是部分代码。


本文编号:2947073

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2947073.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f5978***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com