当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于关联规则的查询扩展技术研究

发布时间:2018-08-30 12:07
【摘要】:随着网络信息量的日益剧增,通过搜索引擎找到人们想要的确切信息还存在一定的困难,,查询率不高和查准率低,成为搜索引擎迫切需要解决的问题。针对这一问题,本文依据Van Rijsbergen学者提出的利用对原查询进行修改来提高检索能力的观点,对基于关联规则的查询扩展技术进行研究。主要内容如下: 1.首先对本文研究的基础内容:数据挖掘、关联规则、查询扩展,进行详细介绍,针对现有的基于关联规则的查询扩展技术进行分析,指出优缺点,针对共性的缺点:现有的基于关联规则的查询扩展算法都不注意关联规则挖掘算法的挖掘效率以及采用的挖掘算法是否适合,作为本文的研究重点。 2.针对上述问题,本文首次提出基于最大频繁项目集挖掘的查询扩展算法,算法采用基于向量空间模型的查询技术,对初次检索到的n篇文档进行分词处理,将处理后的分词以垂直数据格式进行表示,采用求交集的方法得到项目集支持度,同时采用集合枚举树数据结构、一定的剪枝策略进行最大频繁项目集挖掘,得到扩展词库;扩展词和初始查询词相结合,进行二次检索。实验证明,同以往算法相比,算法效率得到提高。 3.本文提出的基于最大频繁项目集挖掘的查询扩展算法,是假设原查询词和扩展词的重要程度一样的基础上进行的,没有考虑原查询词和扩展词的权重问题;同时最大频繁项目集挖掘,丢失了部分频繁项的支持度信息。针对上述问题,本文提出基于频繁闭合项目集的查询扩展算法。算法采用HT-struct链接结构,采用深度优先搜索策略,结合一定的剪枝技术,挖掘出频繁闭合项目集,得到关联规则,得到扩展词库;算法同时根据规则置信度衡量扩展词的权重。实验证明,算法的效率得到了提高,算法具有可行性。
[Abstract]:With the rapid increase of network information, it is still difficult to find the exact information that people want through search engine, and the query rate is not high and the precision rate is low, which becomes the urgent problem that search engine needs to solve. In order to solve this problem, this paper studies the query extension technology based on association rules according to the viewpoint of Van Rijsbergen scholars to improve the retrieval ability by modifying the original query. The main contents are as follows: 1. Firstly, the basic contents of this paper: data mining, association rules, query expansion, detailed introduction, and analysis of the existing query extension technology based on association rules. Pointing out the advantages and disadvantages, aiming at the common shortcomings: the existing query expansion algorithms based on association rules do not pay attention to the mining efficiency of association rules mining algorithms and whether the mining algorithms are suitable or not. 2. Aiming at the above problems, this paper proposes a query expansion algorithm based on maximum frequent itemset mining for the first time, which adopts the query technology based on vector space model. The first retrieval of n documents is partitioned, the processed participle is represented by vertical data format, the support degree of item set is obtained by the method of intersection, and the data structure of set enumeration tree is adopted at the same time. A certain pruning strategy is used to mine the maximum frequent itemsets, and the extended lexicon is obtained, and the extended words are combined with the initial query words for secondary retrieval. Experimental results show that compared with the previous algorithms, the efficiency of the algorithm is improved. 3. The query expansion algorithm based on maximum frequent itemsets mining is proposed in this paper. It is based on the assumption that the importance of the original query word and the extension word is the same, and the weight of the original query word and the extended word is not considered. At the same time, the maximal frequent itemsets are mined, and the support degree information of some frequent items is lost. To solve the above problems, this paper proposes a query expansion algorithm based on frequently closed itemsets. The algorithm adopts HT-struct link structure, adopts depth-first search strategy, combines certain pruning technology, mining frequent closed itemsets, obtains association rules, and obtains extended lexicon. At the same time, the algorithm measures the weight of extended words according to the confidence degree of the rules. Experiments show that the efficiency of the algorithm is improved and the algorithm is feasible.
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13

【参考文献】

相关期刊论文 前5条

1 黄美璇;;基于主题发现的舆情分析系统的设计与实现[J];北京联合大学学报(自然科学版);2012年01期

2 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期

3 崔航,文继荣,李敏强;基于用户日志的查询扩展统计模型[J];软件学报;2003年09期

4 黄名选;严小卫;张师超;;基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J];软件学报;2009年07期

5 缪裕青;金波;陈国良;;HTCLOSE:快速挖掘微阵列数据集中的频繁闭合模式[J];小型微型计算机系统;2008年02期

相关博士学位论文 前2条

1 缪裕青;关联规则挖掘及其在基因表达数据中的应用[D];中国科学技术大学;2007年

2 米杨;基于顶级本体整合的医学领域语义标注研究[D];吉林大学;2012年

相关硕士学位论文 前7条

1 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年

2 唐蓉;搜索引擎重复网页检测技术研究[D];重庆理工大学;2011年

3 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年

4 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

5 朱冀;以概念分层为背景知识的关联规则挖掘算法的分析[D];电子科技大学;2004年

6 黄名选;基于完全加权关联规则挖掘的查询扩展研究[D];广西师范大学;2007年

7 彭程;关联规则在搜索引擎中的应用及研究[D];西安理工大学;2010年



本文编号:2213026

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2213026.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户72a27***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com