基于Scrapy的电子商务网络测量与网络特征分析
发布时间:2017-05-31 11:06
本文关键词:基于Scrapy的电子商务网络测量与网络特征分析,由笔耕文化传播整理发布。
【摘要】:互联网的广泛使用和互联网应用的不断丰富为电子商务蓬勃发展提供了良好的环境和契机。目前淘宝网是我国最具实力的个人对个人的网上交易网站,关于电子商务网络特征的研究主要集中在淘宝网上,都是以电子商务的营销为目的来剖析网上交易行为,主要包括信用评价体制、营销策略、卖家销售参数的统计分析等。本文将从图论的角度来研究电子商务网络,首先通过数据抓取技术得到一个真实的网络数据集,然后在该数据集上分析淘宝网的拓扑特征及其中用户行为特点。目的是探究在线社会网络中的用户行为对网上交易的影响。主要工作包括以下三个方面: 第一,由于网络规模非常庞大且网络结构非常复杂,引入抽样技术成为大规模网络数据测量中不可缺少的环节。本文提出了一种适用于二分网络的抽样算法,该算法是通过理论推导和算法实现的适应性修改将适用于普通图的抽样算法MHRW(Metropolis—Hastings Random Walk)算法推广到二分图上。MHRW算法是一种性能比较好的无偏的抽样算法。为了验证该算法在二分图上的抽样性能,本文分别在合成图和实际网络数据集上检测MHRW算法的抽样效果。 第二,本文选用Scrapy爬虫框架作为爬取数据的工具。通过对淘宝网页页面格式的深入分析,结合BFS和MHRW两种抽样方法,在5台PC上同时并发连续运行爬虫程序30天,最终得到淘宝分享网络的数据集。本文中列出了数据抓取过程中遇到的主要问题,并通过对问题本质的剖析给出了最终的解决方法。为了分析分享平台与卖家特性的关系,本文还抓取了淘宝网中服装类所有卖家的信息。分析发现:网络中的商家存在短时间内迅速崛起的现象,说明电子商务为新生的有强劲发展实力的卖家创造了良好的环境,为新创业者提供了一个较好的平台。 第三,在淘宝分享平台数据集上分析用户行为特征。本文给出了所得数据集的规模参数,分析了买家、宝贝、卖家三类节点的属性特征,进一步给出了卖家与相连买家的各属性之间的关系,最后讨论了在买家分享网络的特点。分析结果表明,淘宝分享网络中买家和宝贝节点的度值大部分处于10~100之间;宝分享平台本质上是大买家为大卖家做广告的一个平台,而其他的中小买家的分享行为只是帮助大买家支撑着这个平台,中小卖家也很少从这个分享平台中获益;最后发现相似买家的分享行为会有越来越相似的趋势,并且这个概率随着时间的推移逐渐增大,另外规模越大的买家团发生相同分享的概率也越大。
【关键词】:电子商务 淘宝网 二分网络 抽样方法 MHRW Scrapy 用户行为
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09
【目录】:
- 致谢5-6
- 中文摘要6-7
- ABSTRACT7-11
- 1 引言11-19
- 1.1 研究背景11-13
- 1.2 研究现状13-15
- 1.3 研究意义15-16
- 1.4 论文主要工作及结构安排16-19
- 2 电子商务网络测量中的抽样算法研究19-27
- 2.1 常见抽样算法简介19-20
- 2.2 MHRW算法在二分图上的推广20-22
- 2.2.1 算法推广的理论基础20-21
- 2.2.2 算法实现的适应性修改21-22
- 2.3 MHRW算法抽样结果测试22-26
- 2.3.1 关于抽样比的讨论22-23
- 2.3.2 合成图抽样性能23-25
- 2.3.3 实际网络数据抽样性能25-26
- 2.4 本章小结26-27
- 3 淘宝网数据爬取技术和爬取策略27-48
- 3.1 爬虫技术简介27-29
- 3.2 本文采用数据抓取技术29-34
- 3.2.1 Scrapy基本原理29-30
- 3.2.2 功能模块定制30-34
- 3.3 测量中的问题及解决方法34-42
- 3.3.1 网页动态数据提取问题34-37
- 3.3.2 存储问题37
- 3.3.3 下一页链接提取问题37-38
- 3.3.4 MHRW抽样算法应用问题38-41
- 3.3.5 测量频率限制问题41
- 3.3.6 连续抓取的安全性问题41-42
- 3.4 大规模数据抓取策略42-43
- 3.4.1 抓取策略思路42
- 3.4.2 数据规模分析42-43
- 3.5 数据集描述43-47
- 3.5.1 据结构描述43-45
- 3.5.2 所得数据集描述45-47
- 3.6 本章小结47-48
- 4 宝网用户行为特征分析48-66
- 4.1 淘宝网体系结构简介48-50
- 4.2 淘宝网中卖家特征的分析50-51
- 4.3 淘宝分享网络特征分析51-60
- 4.3.1 淘宝分享网络拓扑特征分析52-54
- 4.3.2 分享平台与卖家属性相关分析54-57
- 4.3.3 分享平台中两类节点分享效果分析57-60
- 4.4 买家网络特征分析60-64
- 4.4.1 买家网络拓扑特征分析60-62
- 4.4.2 买家团参数分析62-63
- 4.4.3 买家团后续分享行为变化趋势63-64
- 4.5 本章小结64-66
- 5 结论与展望66-68
- 5.1 全文总结66-67
- 5.2 未来展望67-68
- 参考文献68-70
- 作者简历70-72
- 学位论文数据集72
【参考文献】
中国期刊全文数据库 前6条
1 俞金国;王丽华;连显淼;;电子商铺空间分布规律及其影响因素探究——来自淘宝网的实证[J];地域研究与开发;2010年06期
2 胡侠;;C2C电子商务信用评价方法探析——对比Ebay与淘宝[J];大众标准化;2010年01期
3 郑倩冰;朱培栋;王永文;徐明;;基于在线社会网络的网络协议增强机制研究[J];计算机科学;2011年06期
4 李维安;吴德胜;徐皓;;网上交易中的声誉机制——来自淘宝网的证据[J];南开管理评论;2007年05期
5 江耘;;网络商业信用的价值 基于淘宝网交易评价的实证分析[J];商业时代;2010年32期
6 李晓虎;;淘宝网营销模式研究[J];中国商贸;2011年12期
中国博士学位论文全文数据库 前1条
1 张宇;在线社会网络信任计算与挖掘分析中若干模型与算法研究[D];浙江大学;2009年
本文关键词:基于Scrapy的电子商务网络测量与网络特征分析,由笔耕文化传播整理发布。
,本文编号:409268
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/409268.html