析取空间中频繁项集精简表示模型研究
发布时间:2020-06-05 21:21
【摘要】:频繁模式挖掘是数据挖掘领域的经典课题。频繁模式挖掘在实际应用中的基本问题是频繁模式通常数量庞大,冗余严重。究其原因,主要是因为传统挖掘方法基于刚性的支持度-置信度阈值来区分模式,由于受到数据中随机噪声的影响,容易导致实际相同的模式因为细微差异而被挖掘系统认作了不同的模式。为此本文致力于研究利用析取空间的项集模式来设计频繁模式精简表示模型,以消除频繁模式挖掘结果集中存在的冗余。本文的主要研究工作如下:(1)针对析取空间中的析取模式,本文研究发现,析取模式集中仍然存在着模式冗余现象,因随机噪声造成的这一类冗余,具有局部和扰动量微小等特点。为此,本文引入析取模式的δ-邻域概念,以消除随机噪声造成的冗余,并以此为基础,提出一种新的频繁模式精简表示模型。分析了此模型的性质和频繁模式恢复的精度和算法策略等问题,并利用深度优先递归搜索方法,辅以启发性策略,设计了高效率的精简的析取模式集挖掘算法DCPM。实验结果表明,通过该模型得到的精简集,规模比传统析取闭合项集明显减少,并且恢复全体频繁项集的支持度错误也较小。(2)在δ-邻域划分过程中,本文研究发现,多组不同δ-邻域之间会存在重叠现象,而且这种重叠现象十分广泛,对于重叠现象处理不当,会导致支持度恢复误差加大,甚至在最终结果集中引入冗余。本文提出从中继节点、交叉节点和替代集析取支持度等三个方面,来解决δ-邻域划分的最优化问题,并据此对算法DCPM进行改造形成了新算法NDCPM。利用DCPM算法中使用的有效技术改造MEP形成了算法NFMEP。实验结果表明,NDCPM算法挖掘结果更精确,NFMEP具有较高的执行效率。
【图文】:
对于表2.1示例数据库Z),给定最小支持度/m_mwp=0.125。以项集丨ACD}和逡逑{AC}为例,,分析它们是否是频繁核心项集的过程。判断她们是否是频繁核心项集逡逑的过程如图3.2所示。为了直观地表示某个项4是否在事务中出现,用0和1逡逑进行描述。若项4在事务/;.中出现,则它们之间构成的二元关系的对应位用1表逡逑不,否则用0表不。逡逑对于表2.1示例数据库,给定最小支持度Mfrawp=0.125。根据定理3.1,{AC}逡逑和{ACD丨是否是频繁核心项集的判断流程如下:{AC}e/,g(AC)Q/(A)={5,8},逡逑23逡逑
逑剪枝步3.2:由性质3.6可知,在求解7的矣邻域过程中,若Z逡逑的子集都不属于7的邻域。如图3.3所示,/m>m(p=0.125,5=l时,NBSct/?e/?(ABC,J),逡逑求解ABC的表邻域时,AB的子集都不需要进行判断。逡逑深度优先搜索树逡逑频繁核心项集搜索过程中,存在路径逡逑、I邋^逦root—>邋A—>邋ACr^邋ACD;逡逑3^-Lv逦有:ACcASwXvAQ^wAvACD),逡逑逦(A)逦则:ACD<zf。逡逑/"逦性质3.5可知:ACD剪枝,不再向下拓展。逡逑irQp邋?逡逑H,邋T逦,邋^逦求ABC的邻域时,对于路径逡逑(^ACD^)逦root->邋A->AB->邋ABC:逡逑VLy逦有:/r(ABC>=ABCD,AB<z/te/?(ABC,l),AeAB,逡逑*(ABC)={ABCD}逦性质3.6可知:AB的子集不属于ABC^J邻域集合
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13
本文编号:2698631
【图文】:
对于表2.1示例数据库Z),给定最小支持度/m_mwp=0.125。以项集丨ACD}和逡逑{AC}为例,,分析它们是否是频繁核心项集的过程。判断她们是否是频繁核心项集逡逑的过程如图3.2所示。为了直观地表示某个项4是否在事务中出现,用0和1逡逑进行描述。若项4在事务/;.中出现,则它们之间构成的二元关系的对应位用1表逡逑不,否则用0表不。逡逑对于表2.1示例数据库,给定最小支持度Mfrawp=0.125。根据定理3.1,{AC}逡逑和{ACD丨是否是频繁核心项集的判断流程如下:{AC}e/,g(AC)Q/(A)={5,8},逡逑23逡逑
逑剪枝步3.2:由性质3.6可知,在求解7的矣邻域过程中,若Z逡逑的子集都不属于7的邻域。如图3.3所示,/m>m(p=0.125,5=l时,NBSct/?e/?(ABC,J),逡逑求解ABC的表邻域时,AB的子集都不需要进行判断。逡逑深度优先搜索树逡逑频繁核心项集搜索过程中,存在路径逡逑、I邋^逦root—>邋A—>邋ACr^邋ACD;逡逑3^-Lv逦有:ACcASwXvAQ^wAvACD),逡逑逦(A)逦则:ACD<zf。逡逑/"逦性质3.5可知:ACD剪枝,不再向下拓展。逡逑irQp邋?逡逑H,邋T逦,邋^逦求ABC的邻域时,对于路径逡逑(^ACD^)逦root->邋A->AB->邋ABC:逡逑VLy逦有:/r(ABC>=ABCD,AB<z/te/?(ABC,l),AeAB,逡逑*(ABC)={ABCD}逦性质3.6可知:AB的子集不属于ABC^J邻域集合
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13
【参考文献】
相关期刊论文 前10条
1 杨鹏坤;彭慧;周晓锋;孙玉庆;;改进的基于频繁模式树的最大频繁项集挖掘算法——FP-MFIA[J];计算机应用;2015年03期
2 田卫东;陈浩;;一种精简的关联规则表示模型[J];计算机应用研究;2015年03期
3 田卫东;纪允;;一种频繁核心项集的快速挖掘算法[J];计算机工程;2014年06期
4 胡健;吴毛毛;;一种改进的数据流最大频繁项集挖掘算法[J];计算机工程与科学;2014年05期
5 尹绍宏;单坤玉;范桂丹;;滑动窗口中数据流最大频繁项集挖掘算法研究[J];计算机工程与应用;2015年22期
6 李海峰;章宁;;数据流上的最大频繁项集挖掘方法[J];计算机工程;2012年21期
7 宋威;李晋宏;徐章艳;杨炳儒;;一种新的频繁项集精简表示方法及其挖掘算法的研究[J];计算机研究与发展;2010年02期
8 俞扬信;;基于语义相似度的信息检索研究[J];情报杂志;2009年09期
9 陈晨;鞠时光;;基于改进FP-tree的最大频繁项集挖掘算法[J];计算机工程与设计;2008年24期
10 程转流;胡学钢;;数据流中频繁闭合模式的挖掘[J];计算机工程;2008年16期
相关硕士学位论文 前1条
1 许静文;基于模糊等价类的频繁项集精简表示算法研究[D];合肥工业大学;2015年
本文编号:2698631
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2698631.html