社交网络关联分析技术及应用研究

发布时间：2020-05-26 22:36

【摘要】：在互联网高速发展和大数据时代背景下,企业和用户对于获取数据背后潜在知识的要求更加迫切,数据挖掘正是发现潜在知识的重要途径。但在面向社交网络的数据挖掘中,社交网络数据复杂性对挖掘算法的准确性和执行效率提出了严峻挑战,如何提高算法效率成为了研究的核心问题。本文针对关联规则挖掘方法进行深入研究,对于挖掘社交网络数据间关联关系具有一定的理论和实际意义。本文首先详细阐述数据挖掘和关联规则挖掘基本理论,分析社交网络数据除具备传统互联网大数据特点外自身独有特征,并研究了社交网络数据特征对于关联分析算法的实际需求,在明确社交网络数据分析重点基础上,提出适用于社交网络数据分析流程。其次,针对经典关联规则挖掘算法Apriori进行深入研究,分析对于社交网络数据关联分析,Apriori还面临着多次迭代扫描数据库、产生候选项集过程中“连接”动作时间复杂度较高的问题。针对这些问题,本文利用Apriori频繁项集产生阶段从全局事务集中发现高阶频繁项集的特征,引入全局优化搜索算法遗传禁忌搜索产生频繁项集,提出基于遗传禁忌搜索的关联规则挖掘算法,经过实验评估,验证了算法的准确性和有效性,能够解决好上述问题。再次,分析遗传禁忌搜索在关联规则挖掘中的可行性与优势,设计关联规则编码方式,结合关联规则衡量标准构建为选择算子提供主要依据的适应度函数,针对遗传禁忌搜索中模拟染色体交叉、变异操作,设计关联规则挖掘相关遗传算子,使算法能够在全局事务集中快速发现高阶频繁项集,大幅度提升了关联规则挖掘效率,保证了挖掘结果准确性。最后,将上述研究成果应用于面向社交网络的实际场景中,设计并实现了在线教育学习平台“学习支持”系统,针对在线教育学习平台用户在社交网络发布微博内容与其在学习平台近期学习状态数据关联关系进行挖掘,并对系统数据采集和预处理模块进行详细设计。应用结果表明系统能够很好地运行于面向社交网络的实际场景。系统应用部分既是理论研究与实际相结合,同时为在线教育平台学生培养和成绩预警提供了一种新思路。
【图文】：

数据表,数据挖掘,冗余数据,数据类型

有其他一些常见的数据类型例如半结构化数据、时间数据、实时数据、Web 数据等均可应用于数据挖掘中，如图 2.2 所示。图2.2 数据挖掘数据类型关系数据库由多个规范化的数据表组成，这些数据表规范化后降低了冗余数据的可能性，，加快了数据访问时间，表中记录着多个元组，每个元组可以认为是一个数据对象，被唯一主键标识，通过数据库查询语言 SQL 获取表中数据子集，构建适合应用于数据挖掘的表。关系数据库数据在数据挖掘中同样以表格的形式或单个关系展示，表格的每一列代表数据对象所具有的各特征，而每一行则代表在指定特征下的特征值。

数据集,数据

法的有效性和准确性。本文用于评估的真实数据集来自于 UCI 的事务数据，共有103582 条事务，数据集大小 15116KB，图 4.6 展示了部分数据集数据。图4.6 数据集部分数据数据集中第一列标明各事务的编号，后续数据列表示每一事务中所有的购买物品，具体以物品编号显示。4.4.1 评分函数评价评分函数是对算法和模型有效性量化表示的一种评估方法，关联分析是描述性分析问题，故本文采用最大似然思想的评分函数对提出算法进行评估。评分函数设计定义为： 1, , ,NiEva s c p rule i s c (4-5)其中 p rule i , s ,c 为具体关联规则 rule(i)在支持度 s 和置信度 c 下的评分函数，本文将该函数定义为上文设计的具体关联规则的适应度函数： , , fitp rule i s c F (4-6)为了使评分函数值便于反应评估结果，需将评分函数值限定在[0，1]区间内，因此对式 4-5 取对数及取反
【学位授予单位】：西安电子科技大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP311.13;TP393.09

【参考文献】