当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于高平均效用的模式挖掘算法研究

发布时间:2020-03-21 00:04
【摘要】:数据挖掘的主要目标是从不同类型的数据集中挖掘出重要的,有意义的,具有潜在价值的信息。频繁项集和关联规则挖掘是模式挖掘中经典的课题之一,其主要考虑项集的频繁度并对得到的项集进行关联分析。频繁项集挖掘仅考虑项集在数据集中出现的频繁度,没有涉及其他维度的信息。为发现更多有意义的模式,例如高利润的商品组合,通过综合考虑项集的数量和利润,高效用项集挖掘被提出用于挖掘出具有高效用的项集。高效用项集挖掘的缺点在于其没有考虑项集的长度,容易挖掘出无效的长模式,其中组成长模式的项的效用非常低。因此,通过综合考虑效用和长度,高平均效用项集挖掘被提出,在高平均效用的概念框架下,本文主要解决目前存在的三个问题。针对现有算法在挖掘增量式数据集时效率低下问题,本文提出了一个基于HAUP-tree树模式的算法。该算法在内存中维护一个特殊的树结构,用于保存历史数据集的必要信息。每当有新数据插入时,算法只需要对新增数据进行遍历获取必要信息,然后基于设计的快速更新策略,更新内存中的树结构,并执行挖掘算法。相比现有算法,该算法仅需要很少次数的数据集遍历就能达到和现有算法一样的挖掘效果。由于现有算法采用的上限模型过于宽松,因此本文提出了一个更加高效的算法,该算法通过设计的二个新上限模型和基于该模型的剪枝策略,减小了搜索空间,提升了项集挖掘的效率。新的上限模型从理论上保证了新算法的搜索空间小于采用旧上限模型的算法。由于现有算法都是在设置单一阈值的情况下挖掘项集,忽略了数据集中不同项的特点,容易导致稀有项解问题,即设置过大的阈值容易漏掉有意义的项集,而设置过小则又易挖掘出许多无意义的项集。针对该问题,本文提出了基于多阈值的高平均效用项集算法,该算法能够克服现有算法低效的弱点,通过设计的排序搜索树保证上限模型的向下封闭性,并基于优化的平均效用表结构设计剪枝策略,减小搜索空间,避免现有算法频繁扫描数据库的缺点。本文针对性的解决了高平均效用项集中的三个基本问题,并设计和运行大量实验验证了本文所提出算法的有效性,其均能克服现有算法的缺点,达到更高效更节省内存的目标。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 徐涵;黄卫东;刘国祥;张歆;刘帅;吴群红;徐岳;;成本-效用分析中效用值的测量方法[J];中国卫生经济;2016年01期

2 徐喜卿;王珉;李顺平;陈钢;;乳腺癌患者健康效用值测量研究[J];中国卫生经济;2016年03期

3 伍红艳;孙利华;;时间权衡法在测量健康状态效用值中的应用及问题探讨[J];中国药房;2012年44期

4 王倬彦;一种确定效用值的隶属函数[J];系统工程理论与实践;1988年03期

5 高振峰;刘喜更;;效用值决策法在分析品种区域结果中的应用[J];河北农业大学学报;1988年04期

6 付希婧;梁敏洪;孙茂;高鹏;孔彩;朱文涛;;映射法在健康效用值测量中的应用研究[J];中国卫生经济;2014年10期

7 周挺;马爱霞;;不同时间权衡法在健康效用值研究中的应用[J];中国卫生经济;2017年01期

8 孙园园;余正;李洪超;;健康效用值测量中的映射法及其相关模型概述[J];中国药房;2017年29期

9 伍红艳;孙利华;;欧洲五维健康量表效用值积分体系构建方法及结果的国际比较[J];中国新药杂志;2012年06期

10 邢文荣,邵元福,张纯,陈盛新;健康效用值及其测量方法的选择[J];药物流行病学杂志;1999年04期

相关会议论文 前3条

1 杨东升;苗永强;;改进模糊Borda法在风险分析过程中应用研究[A];2012年中国航空学会管理科学分会学术交流会论文集[C];2012年

2 张培培;韩明亮;;旅客运输综合交通网络运能分配优化[A];中国企业运筹学第十届学术年会论文集[C];2015年

3 张雨;李汉文;;政府采购多目标风险型概率决策[A];第二届全国大学生政府采购论坛论文集[C];2014年

相关重要报纸文章 前6条

1 华高莱斯国际地产顾问(北京)有限公司;地产行业的深度调研[N];中国房地产报;2004年

2 廖联明 黄静;QALY脱颖而出[N];医药经济报;2018年

3 冯刚耀;药品怎能不看市场的脸色?[N];医药经济报;2003年

4 记者 刘小微;环境风险管理“利器”效用值得期待[N];金融时报;2013年

5 刘秀罗 刘宝宏;数字化真实世界[N];计算机世界;2001年

6 哈尔滨工业大学 董雪艳 王铁男 赵超;合理利用企业资源的效用度量和匹配测度模型促进龙江经济可持续发展[N];哈尔滨日报;2017年

相关博士学位论文 前4条

1 伍红艳;健康效用值测量研究[D];沈阳药科大学;2012年

2 吴春眉;EQ-5D效用值中国积分体系应用于中国人群的可适性研究[D];华中科技大学;2017年

3 杨君;支持敏捷服务优化的绿色云计算关键技术研究[D];南京大学;2017年

4 周欢;机会移动网络中的数据传输机制研究[D];浙江大学;2014年

相关硕士学位论文 前10条

1 任师锋;基于高平均效用的模式挖掘算法研究[D];哈尔滨工业大学;2018年

2 管娟中;基于时间权衡法的安徽省农村人群健康效用值测量研究[D];安徽医科大学;2018年

3 刘利;成本效用分析中效用值测量方法的应用研究[D];北京中医药大学;2012年

4 徐喜卿;乳腺癌患者不同健康效用值测量方式的比较研究[D];山东大学;2015年

5 付希婧;映射法在健康效用值测量中的应用研究[D];北京中医药大学;2015年

6 吕存伟;面向效用的模式挖掘算法研究[D];浙江工业大学;2017年

7 徐斌;中国上市公司财务指标评估体系研究[D];清华大学;2005年

8 Geoffrey Eustace Mtui;面向最优效用的机器学习隐私模型[D];哈尔滨工业大学;2017年

9 丛建辉;品牌、价格与绿色认证:食用油消费影响因素的联合分析[D];山东师范大学;2011年

10 李霆;基于不确定数据的高平均效用序列模式挖掘算法的研究[D];哈尔滨工业大学;2016年



本文编号:2592408

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2592408.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b7d65***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com