一种基于关联规则挖掘的查询扩展算法及应用研究
发布时间:2024-04-02 23:29
在当今这个信息爆炸的时代,信息迷失、信息过量已成为许多人在进行查询时面对的问题。而随着互联网使用的普及,搜索引擎作为一种查询工具,已经应用的越来越广泛了。但是,目前大部分搜索引擎的技术是依赖于关键词进行检索,因此常常会返回大量无用信息,致使查询效率低下。因此,如何通过关联规则挖掘,提高扩展查询中的查全率和查准率,已经成为近年来研究的一大热点和难点。 关联规则挖掘是数据挖掘中最基本、也是最重要的功能。通过关联规则挖掘发现更多的查询词,从而提高查询扩展的效率,是查询扩展的主要研究方向之一。本文首先对关联规则、关联规则挖掘及查询扩展的相关基础理论进行了梳理;然后着重对关联规则挖掘各个算法进行了深入研究,并对FP-growth算法的性质与优缺点进行了剖析;在此基础上,本文设计了一种基于关联规则挖掘的查询扩展算法,新算法对FP-growth中挖掘频繁模式的方法进行了改进,降低了时间复杂度,并设计了一个基于网页标记信息的查询扩展模型,将新发现的关键词应用到查询扩展中,该模型通过对网页关联度进行量化表示,从而对扩展得到的结果集进行筛选。本算法通过实现关联规则挖掘-扩展查询的循环,在保证了关联规则挖掘...
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
本文编号:3946362
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1.1本文的技术路线
图1.1本文的技术路线网页数量增加,从而导致系统开销过,并将改进后的挖掘算法应用到其中效率。
图3.1FP-growth算法流程
用函数Fp-growth(βtree,β);}GROWTH算法的过程的研究,我们可以看出:无论是法都表现出了较强的可伸缩性,同时,由于在算法的之以Apriori为代表的一类算法相比,有了较大程度种数据结构,它初始的根节点为null,分枝由各个项频繁1-项集的项头....
图3.3FP-tree的生成3)将事务数据库中所有的信息成功压缩到一棵FP树上之后,下一步即开始对Fp树的挖掘,具体方法如下:先从频繁1-项集开始挖掘,首先构建其频繁1-项集的条件模式基
树中重新构建一个分枝:<b:1,d:1>。以此类推,当依次扫描完数据库D中的所有事务之后,Fp树的主体部分也就构建完成了。为了在下一步对Fp树进行遍历操作时可方便进行,在图3.2右侧频繁1-项集L的基础上,算法针对表中的各个项目,建立了与各项目相对应的项头表(....
图3.4数据库D的形成
据链表组V{V1,V2,…},然后,将新事的首项,保存到数据链表组V中的各个数数据库的全部信息都保存在数据链表组Vedbaeebbcdbcbc图3.5数据链表组集中各频繁项的排列顺序,进行倒序遍历示,根据频繁1-项集L,首先将头项为a的数
本文编号:3946362
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3946362.html