当前位置:主页 > 管理论文 > 移动网络论文 >

邮件社团特殊人物发现算法的研究

发布时间:2018-08-02 09:07
【摘要】:随着信息化时代的到来,邮件成为人们普遍的一种信息传递方式,邮件网络通过人们的通信行为而形成,其中蕴藏着丰富的邮件使用者的社会关系信息。因此,社会网络分析(SNA)对社会关系中的电子邮件网络的挖掘具有很大的潜在意义。 本文主要的工作是挖掘邮件网络中的特殊人物,本文研究的特殊人物有两种:垃圾邮件发送者以及关键的领导者。 垃圾邮件发送者发现算法主要是在垃圾邮件社团挖掘算法的基础上改进提出的。利用有向赋权拓扑图来构建邮件网络通信,可以更好地反映邮件网络真实的传送信息情况,根据垃圾邮件发送者特征,通过先剥离再整合的思想,运用平均密度函数、Dijkstra算法(狄克斯特拉算法)中间中心度的计算,垃圾邮件发送者和其他评价函数就能找到垃圾邮件。 连接分析的思想,,则可以运用于寻找邮件网络重要领导人物,在有向图的基础上,首先运用PageRank算法,根据节点的发送和接收关系计算节点重要度,将重要度排序、拓展集合、计算相似度等筛选初始种子集合,并改进对单向恶意链接节点的发现和剔除。通过添加节点双向联系度作为剔除单向恶意节点的依据,筛选后的节点集合作为EHITS算法运用对象。并使用节点PageRank值为节点重要度,运用EHITS算法计算节点的权威值和枢纽值,权威值高的节点就是我们要寻找的重要领导人物。最后在数据集上与度数中心度、中间中心度、HITS、PageRank这些算法进行对比,定义混淆度作为评价指标,评价算法有效性和优越性。
[Abstract]:With the arrival of the information age, mail has become a universal way of information transmission. The mail network is formed through the communication behavior of people, which contains rich social information of users. Therefore, social network analysis of (SNA) has great potential significance for the mining of email networks in social relations. The main work of this paper is to mine the special characters in the mail network. There are two kinds of special people studied in this paper: the spammers and the key leaders. The spam senders discovery algorithm is mainly based on the spam community mining algorithm. By using directed weighted topology to construct mail network communication, it can better reflect the true transmission of information in mail network. According to the characteristics of spam sender, the idea of first stripping off and then integrating is adopted. Using the mean density function and Dijkstra algorithm (Dijkstra algorithm), the spam sender and other evaluation functions can find the spam. The idea of connection analysis can be used to find important leaders in mail network. On the basis of directed graph, PageRank algorithm is first used to calculate the importance of nodes according to the sending and receiving relationships of nodes, to sort the importance degrees and to expand the set. The initial seed set is filtered by calculating similarity, and the discovery and culling of one-way malicious link nodes are improved. By adding the bi-directional connection degree of nodes as the basis for eliminating one-way malicious nodes, the filtered set of nodes is used as the object of EHITS algorithm. The node PageRank value is used as the node importance, and the EHITS algorithm is used to calculate the node authority value and the hinge value. The node with high authority value is the important leader we are looking for. Finally, compared with the degree center degree, the intermediate center degree and the PageRank algorithm, the confusion degree is defined as the evaluation index to evaluate the validity and superiority of the algorithm.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.08;TP393.098

【参考文献】

相关期刊论文 前10条

1 刘馨月;赵明砚;张宪超;刘芳芳;;基于最大流HITS的改进算法[J];计算机工程与应用;2008年17期

2 孙名松;高庆国;王宣丹;;基于双隶属度模糊支持向量机的邮件过滤[J];计算机工程与应用;2010年02期

3 杨劲松;凌培亮;;搜索引擎PageRank算法的改进[J];计算机工程;2009年22期

4 乔少杰;唐常杰;彭京;刘威;温粉莲;邱江涛;;基于个性特征仿真邮件分析系统挖掘犯罪网络核心[J];计算机学报;2008年10期

5 唐常杰;刘威;温粉莲;乔少杰;;社会网络分析和社团信息挖掘的三项探索——挖掘虚拟社团的结构、核心和通信行为[J];计算机应用;2006年09期

6 邓维斌;洪智勇;;基于粗糙集的两阶段邮件过滤方法[J];计算机应用;2010年08期

7 熊金;刘悦;白硕;;基于结构的e-mail挖掘算法:EHITS[J];计算机应用研究;2008年04期

8 李潇;罗军勇;尹美娟;;基于邮件通联关系的邮箱用户权威别名评估[J];计算机应用与软件;2011年04期

9 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[J];中文信息学报;2007年05期

10 刘伍颖;王挺;;基于多过滤器集成学习的在线垃圾邮件过滤[J];中文信息学报;2008年01期



本文编号:2158943

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2158943.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bea56***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com