当前位置:主页 > 管理论文 > 移动网络论文 >

基于MapReduce模型的海量邮件社交关系分析研究

发布时间:2017-03-30 05:05

  本文关键词:基于MapReduce模型的海量邮件社交关系分析研究,由笔耕文化传播整理发布。


【摘要】:进入新世纪以来,随着Internet的高速发展,电子邮件作为Internet上的一种沟通交流方式,已经成为人们日常生活中必不可少的交流通信方式之一。电子邮件网络作为社会网络的一种,能够在一定程度上反映人们的社交关系。研究电子邮件网络拓扑模型的结构,可以为网络中消息或者病毒的传播模式以及人们的通信行为提供理论基础。然而,对于我们来说,如何快速有效地处理网络爆炸时代的海量电子邮件数据并从中挖掘分析其中蕴含的社交关系,如寻找网络中存在的用户之间的关系链以及发现网络中的朋友圈等社交关系,是一个难度不小的挑战。本文的主要研究内容如下:(1)由于电子邮件网络的复杂性,本文在充分研究复杂网络理论之后,从实际电子邮件网络出发,采用复杂网络理论处理电子邮件网络,构造了有向加权的电子邮件网络拓扑模型,并分析其拓扑特性。(2)参考复杂网络的搜索策略原理,从搜索路径的可靠性出发,提出了一种基于点权和边权(WNE)的电子邮件网络搜索策略,在兼顾搜索速度和搜索代价的基础上,找到一条可靠性高的路径。(3)提出了改进的边聚类系数社团划分(ICPECC)算法。该算法考虑电子邮件网络的社会网络特性,在社团划分之初,引入Canopy算法对网络进行初始粗糙划分,将网络划分为若干个较为紧密结合的子集,在此基础上,采用适宜社会网络分析的Radicchi社团划分算法对Canopy集合中的弱标记节点集进行处理,降低算法计算量,提高算法效率。本文提出的这种社团划分算法最终划分的结果比较适合分析社会网络的“圈子”特性,且算法的执行效率有了一定提升,同时优化后的算法流程非常适合在并行计算模型MapReduce上实现,对海量邮件数据的处理具有很高的实用价值。(4)就以上三个方面的研究内容,在某合作单位提供的电子邮件语料集上进行实验,详细分析验证模型及算法的效果,验证其合理性和有效性。
【关键词】:电子邮件网络 复杂网络 点权 边权 搜索策略 社团划分 Radicchi算法 Canopy算法 MapReduce
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.098
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 1 绪论8-13
  • 1.1 研究背景8
  • 1.2 国内外研究现状8-11
  • 1.2.1 社会网络研究现状8-9
  • 1.2.2 复杂网络研究现状9-10
  • 1.2.3 电子邮件网络研究现状10
  • 1.2.4 MapReduce模型应用研究现状10-11
  • 1.3 研究内容11
  • 1.4 组织结构11-13
  • 2 基于复杂网络的电子邮件网络建模与分析13-26
  • 2.1 复杂网络相关原理13-18
  • 2.1.1 复杂网络的基本性质13-15
  • 2.1.2 复杂网络的基本模型15-18
  • 2.2 电子邮件网络的建模18-21
  • 2.2.1 电子邮件必要信息提取18-19
  • 2.2.2 邮件网络关联关系分析19-20
  • 2.2.3 电子邮件网络的拓扑建模及形式化表达20-21
  • 2.3 电子邮件网络的拓扑特性分析21-25
  • 2.3.1 实验数据介绍22-23
  • 2.3.2 电子邮件数据预处理23-24
  • 2.3.3 网络拓扑特性计算与分析24-25
  • 2.4 小结25-26
  • 3 基于点权和边权的电子邮件网络搜索策略研究26-39
  • 3.1 现有复杂网络基本搜索策略26-29
  • 3.1.1 广度优先搜索策略26-27
  • 3.1.2 随机游走搜索策略27-28
  • 3.1.3 最大度搜索策略28-29
  • 3.2 基于点权和边权的电子邮件网络搜索策略29-30
  • 3.3 搜索评价指标30-31
  • 3.3.1 平均搜索步数31
  • 3.3.2 平均搜索代价31
  • 3.4 基于点权和边权的电子邮件网络搜索策略的实现31-35
  • 3.4.1 搜索相关数据类的设计31-32
  • 3.4.2 搜索过程的实现32-35
  • 3.5 仿真实验分析35-38
  • 3.5.1 不同搜索策略的搜索结果36
  • 3.5.2 结果分析评价36-38
  • 3.6 小结38-39
  • 4 改进的边聚类系数社团划分算法及并行化实现39-64
  • 4.1 复杂网络的社团发现方法39-44
  • 4.1.1 基于优化的算法40-42
  • 4.1.2 基于启发的算法42-43
  • 4.1.3 社团划分评价指标43-44
  • 4.2 改进的边聚类系数社团划分算法ICPECC44-54
  • 4.2.1 理论基础45-46
  • 4.2.2 算法思想46-47
  • 4.2.3 算法步骤47-49
  • 4.2.4 实验与结果分析49-54
  • 4.3 MapReduce计算模型相关介绍54-57
  • 4.3.1 MapReduce并行计算模型54-56
  • 4.3.2 HDFS文件系统56-57
  • 4.4 ICPECC算法的并行化实现57-62
  • 4.4.1 ICPECC算法并行化设计57-59
  • 4.4.2 实验与结果分析59-62
  • 4.6 小结62-64
  • 5 总结展望64-66
  • 5.1 研究工作总结64
  • 5.2 研究展望64-66
  • 致谢66-67
  • 参考文献67-71
  • 附录71

【参考文献】

中国期刊全文数据库 前7条

1 方锦清;汪小帆;郑志刚;;非线性网络的动力学复杂性的研究[J];复杂系统与复杂性科学;2010年Z1期

2 陶永才;薛正元;石磊;;基于MapReduce的贝叶斯垃圾邮件过滤机制[J];计算机应用;2011年09期

3 牛长喜;李乐民;许都;;一种用于电子邮件网络中的综合利用网络拓扑与传播参数的免疫方法设计[J];计算机应用研究;2012年01期

4 赵之滢;于海;朱志良;汪小帆;;基于网络社团结构的节点传播影响力分析[J];计算机学报;2014年04期

5 许春玲;张广泉;;分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析[J];苏州大学学报(工科版);2010年04期

6 许峰;毛钢;秦臻;;复杂网络特征量度及典型网络模型分析[J];通信技术;2010年09期

7 彭玲;徐汀荣;乔志伟;;基于核心图聚类的邮件网络社区发现[J];微型机与应用;2010年17期


  本文关键词:基于MapReduce模型的海量邮件社交关系分析研究,由笔耕文化传播整理发布。



本文编号:276271

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/276271.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1d7d5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com