基于图数据的模式挖掘研究
发布时间:2021-12-24 07:17
近年来,随着互联网技术的蓬勃发展,海量有价值的图或网络数据不断涌现。图中的节点或边之间普遍存在较强的关联性,例如,社交网络中用户间的消息传递,网络安全中网络节点间的攻防对抗,文献引用网络中文献间的引用等。该关联性可被表示为“序列模式”,针对其的挖掘研究具有重要的科学价值,不但能够总结出关联特性及分布规律,并用于分类、预测等实际应用场景;而且能够与图结构特征相结合,进而可提升图计算的效率与精度。基于以上背景,本文提出将图数据的结构特征与序列模式相结合,从基于图数据的序列模式的发现(discovery)、提炼(refinement)和实际应用(application)三个关键过程开展如下四项研究:1、图中前k项序列模式挖掘真实网络应用中,图节点往往关联了丰富的内容信息,导致已有方法在挖掘序列模式时存在存储困难、时间开销大、挖掘计算难等问题。基于此,本文首先提出一种全新的图模型——事务数据库图(transcation database graph),并提出一种高效的两步采样框架,能够在保证挖掘准确度的同时显著改善挖掘效率。该框架设计了针对序列模式频率的无偏估计量,根据该估计量首先从图中均匀随...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:120 页
【学位级别】:博士
【部分图文】:
图1-1几种真实世界网络的图表示??由节点和连边构成的图数据[3]天然存在于人们的生产生活当中
wei?.P40tatt,?cricket,?SG)?{awesome?camera,?poor?build?quality)?^|0)?Awesome?camera?but??P40?for?att?or?cricket?Lie.?{great,?P^O,?triple?camera)?poor?build?quality.??(3)?Great?P40,?triple? ̄ ̄ ̄ ̄??1?(2)???cameras.????<4)……?_??用户??图1-2图中连边关联丰富数据的示例??区别于传统的从序列数据库中挖掘频繁序列模式的任务,本文工作的研宄对??象是图数据,即挖掘分布于图中路径上的频繁序列模式(即频繁子序列)。这就??导致了己有的方法无法直接应用于图数据中,其原因是:第一,现有的方法无法??以图数据作为输入变量,缺乏从图到序列数据库的转化函数;第二,由图导出的??所有可能路径上的序列数量相对于图中节点数呈指数级,难以导出且存储序列全??集;第三,序列模式挖掘问题本身是#P-难的,随着序列数量的增多,挖掘任务所??需的时间开销呈现指数级上升。??因此,在序列模式的挖掘阶段,如何保证在取得较高质量序列模式的前提下??尽可能提升挖掘的效率,是基于图数据的模式挖掘问题的首要挑战。??2、融合图结构信息的序列模式提炼??挖掘所得序列模式的频率分布服从幂律分布,即少部分的序列模式具有较高??3??
I的-下尽可能的提升圈酸率J;?;?L_^?!??丨f序列模式提炼1丨?丨f如相11??;卜||图结膽息麵模式1?;??II?J丨?^?I融合达丽isss炼的目的j,?;?L_^?>??j?i?i?i?i?i??I?????}?]???1,1???a?I?^?1?r??""?"'""?"?x?I??;序列模式应用;?丨姻SSH?;??丨??S纏式的分湖;??!???!?K不合肺点和边^e__;?I?!??I?I?I?1?I?I??图1-3本工作的具体研究框架??1.3.1图中前/c项序列模式挖掘??针对已有标签图和属性图无法表征网络中丰富内容的问题,提出了基于事务??数据库的图模型一一事务数据库图,并定义了在其上的序列模式挖掘问题。形式??化地,事务数据库图由节点和有向边构成,任一节点均关联了包含若干事务数据??的数据库,每一条事务数据是一个项集。图中的每条路径为节点的序列,并可导??出多条事务序列,继而所有序列数据可构成庞大的序列数据库。可定义图上的序??列模式挖掘问题为,从基于事务数据库的图导出的序列数据库中,挖掘前々项频??繁序列模式(即包含于事务序列中的频繁子串)。由于此类序列数据库构建所需??空间和时间幵销过于巨大,难以直接导出并存储,且序列模式挖掘问题是一?t#P-??难的计算问题,本文提出了一种高效的两步采样方法,第一步对图中的路径进行??一次均匀采样,第二步在己采集路径上对事务序列进行一次均匀采样。理论证明??当采样数量足够大时,该方法能够以较高的质量求出近似的前A项频繁序列模式,??其有效性也得到了采样实验的验证。??1.3.2图中前/c项序列模
本文编号:3550052
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:120 页
【学位级别】:博士
【部分图文】:
图1-1几种真实世界网络的图表示??由节点和连边构成的图数据[3]天然存在于人们的生产生活当中
wei?.P40tatt,?cricket,?SG)?{awesome?camera,?poor?build?quality)?^|0)?Awesome?camera?but??P40?for?att?or?cricket?Lie.?{great,?P^O,?triple?camera)?poor?build?quality.??(3)?Great?P40,?triple? ̄ ̄ ̄ ̄??1?(2)???cameras.????<4)……?_??用户??图1-2图中连边关联丰富数据的示例??区别于传统的从序列数据库中挖掘频繁序列模式的任务,本文工作的研宄对??象是图数据,即挖掘分布于图中路径上的频繁序列模式(即频繁子序列)。这就??导致了己有的方法无法直接应用于图数据中,其原因是:第一,现有的方法无法??以图数据作为输入变量,缺乏从图到序列数据库的转化函数;第二,由图导出的??所有可能路径上的序列数量相对于图中节点数呈指数级,难以导出且存储序列全??集;第三,序列模式挖掘问题本身是#P-难的,随着序列数量的增多,挖掘任务所??需的时间开销呈现指数级上升。??因此,在序列模式的挖掘阶段,如何保证在取得较高质量序列模式的前提下??尽可能提升挖掘的效率,是基于图数据的模式挖掘问题的首要挑战。??2、融合图结构信息的序列模式提炼??挖掘所得序列模式的频率分布服从幂律分布,即少部分的序列模式具有较高??3??
I的-下尽可能的提升圈酸率J;?;?L_^?!??丨f序列模式提炼1丨?丨f如相11??;卜||图结膽息麵模式1?;??II?J丨?^?I融合达丽isss炼的目的j,?;?L_^?>??j?i?i?i?i?i??I?????}?]???1,1???a?I?^?1?r??""?"'""?"?x?I??;序列模式应用;?丨姻SSH?;??丨??S纏式的分湖;??!???!?K不合肺点和边^e__;?I?!??I?I?I?1?I?I??图1-3本工作的具体研究框架??1.3.1图中前/c项序列模式挖掘??针对已有标签图和属性图无法表征网络中丰富内容的问题,提出了基于事务??数据库的图模型一一事务数据库图,并定义了在其上的序列模式挖掘问题。形式??化地,事务数据库图由节点和有向边构成,任一节点均关联了包含若干事务数据??的数据库,每一条事务数据是一个项集。图中的每条路径为节点的序列,并可导??出多条事务序列,继而所有序列数据可构成庞大的序列数据库。可定义图上的序??列模式挖掘问题为,从基于事务数据库的图导出的序列数据库中,挖掘前々项频??繁序列模式(即包含于事务序列中的频繁子串)。由于此类序列数据库构建所需??空间和时间幵销过于巨大,难以直接导出并存储,且序列模式挖掘问题是一?t#P-??难的计算问题,本文提出了一种高效的两步采样方法,第一步对图中的路径进行??一次均匀采样,第二步在己采集路径上对事务序列进行一次均匀采样。理论证明??当采样数量足够大时,该方法能够以较高的质量求出近似的前A项频繁序列模式,??其有效性也得到了采样实验的验证。??1.3.2图中前/c项序列模
本文编号:3550052
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3550052.html