中国互联网企业空间分布的数据挖掘—一种大数据分析模式
本文关键词:中国互联网企业空间分布的数据挖掘—一种大数据分析模式
更多相关文章: 数据挖掘 互联网企业 爬虫 关联规则 网络分析
【摘要】:在信息化社会,数据作为一种资源已然受到人们越来越多的关注。随着互联网技术的迅猛发展以及数据库的广泛应用,人类社会已经产生了海量的数据资源,并且仍在继续扩张。如何从海量的数据中挖掘出有用的知识是摆在人们面前的难题,因此数据挖掘便应运而生。本文在详述了数据挖掘的基础概念后,对拟解决的问题,按照数据挖掘的整个流程,通过采取一定的方法,对与互联网企业相关的各种字段数据进行挖掘,包括企业本身以及与企业相关的领导人等数据,从多方位角度来研究互联网企业,并对挖掘结果进行了一定的分析,最后文章开发了一个基于GIS的数据挖掘系统。文章的重点在于对互联网企业数据的获取以及对数据的挖掘。数据的获取分为自动获取和非自动获取两种方式,其中互联网企业的部分字段属性数据是通过自动的方式,也就是爬虫程序获取的。数据按照所要研究的问题主要分为两大类,针对互联网企业的宏观分布情况文章选用以网站建设为主要业务的互联网企业,针对属性特征的研究和互联网企业影响下城市网络结构的研究选用深圳证券交易所上市的互联网企业。其中,属性特征的研究主要是针对互联网企业各个字段所进行的,包括对董事长的年龄、性别、学历以及企业上市时间等属性特征分布情况的研究,所利用的方法是经典的关联规则模型以及传统的统计方法,而空间数据的挖掘则是基于互联网企业的分布城市所进行的,利用的模型是“连锁的世界城市网络”(IWCN)模型。最后,文章利用C#与ARCGIS Engine10.0相结合的方法,开发了一个关于互联网企业的基于GIS的数据挖掘系统,对互联网企业的相关数据进行在线获取,并实现地图的查看、图表显示、制图等功能。通过对互联网企业数据进行挖掘,文章得出以下结论:第一,互联网企业的空间分布整体呈现核心一边缘状分布,主要存在4个聚集区,分别为:珠江三角洲、长江三角洲、京津冀地带和福建厦门一带。第二,在互联网企业属性特征的研究方面,企业上市时间为7-10年、领导人年龄在48-55.5岁之间、学历为硕士这3者联系比较紧密。企业上市所需的时间从0年到19年先递增后递减,领导入学历中硕士最多,领导人年龄基本在40-49岁和50-59岁之间,且比例达到相当,男性领导人占据主要位置。第三,在城市网络结构研究中,对于互联网技术型企业和互联网+型企业,在城市连通度方面,都是北京最高,在城市连接方面,网络基本呈现“菱形”状态,最大的不同是互联网+企业“菱形”结构更加饱满,可以推测中西部地区着重使用互联网技术来改善传统商业模式。第四,文章针对互联网企业开发了一个基于GIS的数据挖掘系统,系统主要通过爬虫来获取互联网企业的相关属性数据,如企业董事长的年龄、学历、性别、籍贯等,并对数据能够进行地图查询、各类图表的显示、制图等功能。
【关键词】:数据挖掘 互联网企业 爬虫 关联规则 网络分析
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F49
【目录】:
- 摘要6-8
- Abstract8-12
- 第一章 绪论12-18
- 1.1 研究背景12-13
- 1.2 研究内容和意义13-14
- 1.3 国内外研究现状14-16
- 1.4 研究方法16
- 1.5 论文的主要结构16-18
- 第二章 数据挖掘相关知识18-24
- 2.1 数据挖掘概念18-19
- 2.2 空间数据挖掘概述19-20
- 2.3 挖掘对象界定20-21
- 2.4 爬虫程序介绍21-24
- 2.4.1 网页数据抓取21-22
- 2.4.2 网页数据解析22-24
- 第三章 互联网企业分布研究24-32
- 3.1 数据的准备24-25
- 3.2 中国互联网企业的分布特征25-29
- 3.2.1 地级市分布特征25-27
- 3.2.2 省际分布特征27-28
- 3.2.3 三大地带分布特征28-29
- 3.3 中国互联网企业空间分布格局的原因分析29-32
- 第四章 互联网企业字段属性特征分布研究32-41
- 4.1 数据的准备32
- 4.2 数据挖掘之关联规则模型32-34
- 4.2.1 关联规则的概念33
- 4.2.2 关联规则算法描述33-34
- 4.3 基于互联网企业字段值的关联规则分析34-36
- 4.4 利用统计方法分析企业属性特征36-41
- 第五章 互联网企业影响下的城市网络研究41-53
- 5.1 数据的准备41
- 5.2 社会网络分析模型41-45
- 5.2.1 社会网络的概念42
- 5.2.2 社会网络分析的原理42-43
- 5.2.3 城市网络具体模型43-45
- 5.3 基于互联网企业空间特征数据的城市网络分析45-53
- 第六章 基于GIS的数据挖掘系统开发53-72
- 6.1 系统的需求分析53-55
- 6.1.1 功能性需求分析53-54
- 6.1.2 非功能性需求分析54-55
- 6.2 系统的设计55-59
- 6.2.1 系统的结构设计55-56
- 6.2.2 数据库的设计56-58
- 6.2.3 GIS开发方式的选择58-59
- 6.3 系统的实现59-72
- 6.3.1 系统界面59-61
- 6.3.2 虫功能61-62
- 6.3.3 查询功能62-65
- 6.3.4 图表显示功能65-68
- 6.3.5 制图功能68-72
- 第七章 总结与展望72-75
- 7.1 总结72-73
- 7.2 展望73-75
- 参考文献75-79
- 致谢79
【参考文献】
中国期刊全文数据库 前10条
1 官思发;孟玺;李宗洁;刘扬;;大数据分析研究现状、问题与对策[J];情报杂志;2015年05期
2 于娟;刘强;;主题网络爬虫研究综述[J];计算机工程与科学;2015年02期
3 喻国明;;大数据分析及其技术的关键[J];国际公关;2014年03期
4 辛宇;郑鑫;;大数据驱动与客户生命周期——基于汽车行业的分析[J];河南社会科学;2014年03期
5 周顺平;徐枫;;大数据环境下地理信息产业发展的几点思考[J];地理信息世界;2014年01期
6 王婷;;互联网服务业的内涵和创新模式研究[J];科研管理;2012年07期
7 李志刚;刘晔;;中国城市“新移民”社会网络与空间分异[J];地理学报;2011年06期
8 宁进厅;邱娟;汪明峰;;中国互联网产业发展的区域差异及其动态演进——基于生产和消费的视角[J];世界地理研究;2010年04期
9 王明才;姚承宽;;对发展我国地理信息产业的若干建议[J];现代测绘;2010年02期
10 楼天阳;;我国互联网公司模式的演变路径及商业逻辑[J];商业时代;2009年06期
中国博士学位论文全文数据库 前1条
1 李新运;城市空间数据挖掘方法与应用研究[D];山东科技大学;2004年
中国硕士学位论文全文数据库 前1条
1 仇晶;城市社区居民邻里互动的实证研究[D];中南大学;2006年
,本文编号:953101
本文链接:https://www.wllwen.com/guanlilunwen/sjfx/953101.html