异质信息网络中离群点检测方法研究

发布时间:2018-01-15 01:01

  本文关键词:异质信息网络中离群点检测方法研究 出处:《吉林大学》2017年博士论文 论文类型:学位论文


  更多相关文章: 异质信息网络 离群点检测 离群点对 张量表示 增量计算 元路径 CFu树 k-步索引


【摘要】:异质信息网络是无处不在的。挖掘隐藏在异质网络中偏离正常数据对象的离群点是数据挖掘领域的重要任务之一。离群点检测在入侵检测、欺诈检测、预测恐怖袭击、预测可疑事件和数据去噪等领域都有着广泛的应用。研究表明,挖掘偏离正常对象的离群点比挖掘周期性出现的数据更能给用户带来有价值的信息。本文从静态网络离群点检测、动态网络离群点检测和挖掘离群点对等方面对离群点检测技术进行深入研究,具体研究工作如下:1)针对静态异质信息网络提出了一种基于元路径的离群点检测方法。该方法通过分析网络结构中的链接关系得到源对象与目标对象特征间的相关程度,进而计算对象间的语义相似度。结合元路径及对象间的相关程度度量不同类型对象之间的可达概率,最后通过可达概率和路径长度计算任意两个节点间的离群程度。另外,每个节点都被赋予了一个可信度权值来提高准确率。我们在真实数据集和模拟数据集上对该算法进行测试,实验结果表明,该方法在结合节点语义信息的前提下,能够有效地识别静态网络中的离群点;2)聚类作为数据挖掘领域最重要的信息获取方法之一,在异质网络离群点检测中也有广泛的应用。大多数传统的聚类方法在插入新数据的过程中需要重新计算整个数据集而不是增量更新一部分数据。针对上述不足,本文提出了一种自底向上的增量聚类方法并将其用于异质网络的动态离群点检测过程中。进行聚类前,每个节点都作为单独的聚簇。此外,定义了一个新的度量标准CV(comparison variation),来迭代判断距离最近的两个聚簇是否能进行合并或当聚簇发生变化时已有聚簇是否能被分裂,并通过调节参数λ来动态控制聚类的严格程度。该度量标准不需要提前确定聚类个数,可以根据不同的数据集大小和数据质量动态确定最适合的聚类个数。实验结果表明,该聚类方法可以有效地进行聚类并且增量地更新数据;3)针对动态异质信息网络提出了一种基于张量表示的离群点检测方法。该方法根据张量表示的高阶数据构建张量索引树。通过搜索张量索引树,将特征加入到直接项集和间接项集中。根据基于短文本相关性的聚类方法判断数据集中的数据对象是否偏离其原本所在聚簇来动态检测网络中的离群点。该模型能够在充分降低时间和空间复杂度的情况下保留异质网络中的语义信息。实验结果表明,该方法能够快速有效地进行动态网络环境下的离群点检测;4)为了深入研究并分析异质网络中链接结构相似度与语义关系相似度间的差异带来的影响,本文还提出了一种基于链接结构与语义关系的差异性来检测离群点对(outlier pair)的方法。首先,构造目标对象间的链接结构相似度与语义关系相似度的邻接矩阵,分别通过分析链接结构和语义关系来得到对象间的相似程度。分析对象在结构上的关联关系,得到目标对象的链接结构相似度。提出k-步索引方法来得到目标对象的特征表示,从语义关系的角度计算目标对象的相似度。最后,利用矩阵的线性变换得到任意目标对象对在链接结构和语义关系上的差异,较高差异值对应的对象对被视为离群点对。实验结果表明,该方法可以有效地识别异质网络中存在的离群点对;5)为了能够增量检测离群点对,本文还提出了一种基于元组的增量离群点对检测方法。利用三元组的形式来表示异质网络中的数据,存储了目标对象以及对象间的链接权值,通过合并及镜像过程得到对象间的结构相似度。定义了前驱节点、后继节点以及覆盖率的概念,在减少参数个数的同时可以高效计算基于内容的相似度。结合基于结构相似度与基于内容相似度来计算离群分数。最后,说明了如何通过对三元组进行插入和删除操作来更新对象对的结构相似度以及内容相似度,进而更新对象对间的离群分数。增量更新离群分数可以有效降低时间及空间复杂度。实验结果表明,用元组形式表示异质网络中的数据可以动态更新离群分数,很大程度上提高了效率。本文对离群点检测的研究主要包含两个方面,首先,是对于单个离群点检测的研究;其次,是对于离群点对检测的研究。对于这两方面的工作,本文分别提出了两种检测方法:1)对于单个离群点检测,分别在静态网络、动态网络的环境下通过基于元路径和基于张量表示的方法对异质网络中的离群点检测进行深入研究;2)对于离群点对检测,分别提出了基于链接结构和语义关系的离群点对检测方法以及基于元组的增量离群点对检测方法。另外,在进行动态网络离群点检测的过程中,提出了一种增量的聚类方法。在异质网络的环境下进行离群点检测研究是一个新的尝试,具有一定实际意义。
[Abstract]:In this paper , a new method of outlier detection based on meta - path is proposed in this paper . This paper presents a new method for detecting outliers in heterogeneous networks , which is based on the similarity of structure similarity and content similarity .

【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期

2 薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;离群点挖掘方法综述[J];计算机科学;2008年11期

3 李存华;;l_∞度量意义下的离群点检测[J];淮海工学院学报(自然科学版);2008年02期

4 李昕;颜学峰;;融合离群点判别的稳态检测方法及其应用[J];华东理工大学学报(自然科学版);2009年01期

5 封海岳;薛安荣;;基于重叠模块度的社区离群点检测[J];计算机应用与软件;2013年05期

6 王柏钧,王力勤;《稳健回归与离群点检测》介绍[J];成都气象学院学报;1989年04期

7 黄添强;秦小麟;叶飞跃;;基于方形邻域的离群点查找新方法[J];控制与决策;2006年05期

8 熊君丽;;高维空间下基于密度的离群点探测算法实现[J];现代电子技术;2006年15期

9 黄添强;秦小麟;王钦敏;;空间离群点的模型与跳跃取样查找算法[J];中国图象图形学报;2006年09期

10 陈光平;叶东毅;;一种改进的离群点检测方法[J];福州大学学报(自然科学版);2007年03期

相关会议论文 前9条

1 张锋;常会友;;茫然第三方支持的隐私保持离群点探测协议[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

2 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

3 梁雪琴;刘红生;代秀梅;周亚芬;;聚类离群点挖掘技术在内部审计信息化中的应用——一个来自商业银行信用卡审计的实例[A];全国内部审计理论研讨优秀论文集(2013)[C];2014年

4 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

5 许龙飞;熊君丽;段敏;;基于粗糙集的高维空间离群点发现算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

6 刘文远;李振平;王宝文;裴继辉;;一种多维数据的离群点检测算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年

7 魏藜;钱卫宁;周傲英;;HOT:寻找高维空间中的离群点[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

8 周红福;钱卫宁;魏藜;周傲英;;EDOLOIS:高效准确的子空间局部离群点发现[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

9 魏藜;钱卫宁;周傲英;;SLOT:基于估计的高效子空间局部离群点发现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

相关博士学位论文 前10条

1 刘莘;基于时空分析的CCS泄漏预警关键技术研究[D];中国矿业大学;2016年

2 刘露;异质信息网络中离群点检测方法研究[D];吉林大学;2017年

3 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年

4 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年

5 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年

6 杨茂林;离群检测算法研究[D];华中科技大学;2012年

7 金义富;高维稀疏离群数据集延伸知识发现研究[D];重庆大学;2007年

8 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年

9 万家强;基于连通性的离群检测与聚类研究[D];重庆大学;2014年

10 唐向红;数据流离群点检测研究[D];华中科技大学;2010年

相关硕士学位论文 前10条

1 韩红霞;基于距离离群点的分析与研究[D];江苏大学;2007年

2 黄馨玉;基于邻域重心变化的离群点检测算法研究[D];辽宁大学;2015年

3 程百球;基于EP模式的离群点发现[D];安庆师范学院;2015年

4 欧阳根平;Hadoop云平台下基于离群点挖掘的入侵检测技术研究[D];电子科技大学;2015年

5 邓璇;数据流挖掘关键技术研究与实现[D];电子科技大学;2015年

6 周莹莹;利用离群点检测改进协同过滤推荐算法[D];南京邮电大学;2015年

7 陈娟;基于离群特征提取和能量计算的SVM股市预测研究[D];合肥工业大学;2014年

8 文静云;基于加权自然邻域属性和熵的离群检测研究[D];重庆大学;2015年

9 梅孝辉;基于聚类的离群点挖掘在入侵检测中的应用研究[D];重庆大学;2015年

10 秦浩;基于密度的局部离群点挖掘及在入侵检测中应用研究[D];大连海事大学;2016年



本文编号:1426058

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1426058.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户24c52***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com