基于关联算法的人体检测数据的处理与分析
发布时间:2021-12-23 03:06
关联分析技术作为数据挖掘领域的热门研究分支之一,其研究内容是从大量潜在隐含未知关系的数据项中发现有用的关系。高血压作为一种常见的严重危害人类健康的慢性病,近年来,其患病率和死亡率在全球范围内持续攀升。伴随着医疗信息产业的发展,医疗数据库中储存的高血压等慢性病的临床数据越来越多。如何从这些历史医疗数据中发现有用的信息为今后的疾病诊断和病理研究提供科学准确的依据成了目前亟待解决的问题之一。相较于传统数据分析方法,数据挖掘技术可以有效地解决这一难题。本课题使用关联分析技术从大规模的高血压患者诊治数据中探究高血压患者生理体征参数与高血压患病风险水平之间的潜在关系。重点完成了以下工作:(1)对数据挖掘技术和关联分析技术的相关理论进行了阐述,研究了关联分析技术在医学领域的应用情况,对关联分析中的Apriori算法做了重点研究,分析了Apriori算法的不足之处,引入了目前通用的一些优化方法,为后面的优化提供了思路。(2)改进的Apriori算法结合课题研究内容引入项约束条件对事务数据库D进行筛选排除得到事务数据库D1,然后在事务数据库D1中求得频繁项集。为了避免Apriori算法反复扫描数据库、耗...
【文章来源】:西安科技大学陕西省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
实例执行过程图
j++; end if end if end if end for if (i >= j && n == k-1) //满足连接条件 insert p 并集{ext} to Ck+1; end ifend forriori 算法的性能分析后的算法进行实验验证,实验在 12GB 内存,Intel(R) Core(TMdows7 系统的 PC 机上进行。首先选取 UCI标准测试数据库中的验验证数据,该数据包含了 8124 条记录,每条记录有 23 个属性图 3.3 所示。
图 3.4 accidents 数据集部分原始数据表 3.10 同一最小支持度阈值不同数据集下算法所需执行的时间测试数据集算法所需执行的时间(ms)Apriori 算法 改进算法mushroom 1644 574accidents 145618 38801从运行结果可以得出结论:在最小支持度阈值都为 40%的情况下,两个算dents 数据集中执行的时间都要比在 mushroom 数据集中执行的时间要多,这说挖掘所需要的时间与数据集本身的数据特点有很大的关系;但是可以得出的结算法在两个实验数据集上执行耗时要明显优于原始 Apriori 算法。 本章小结本章首先引入了关联规则中的项目约束的概念,指出了用户参与挖掘过程的从课题的研究内容出发提出了改进算法选取的约束条件。之后针对原始 Apri繁扫描事务数据库的缺点给出了映射的优化方式,并借鉴 Separate 算法对频繁
【参考文献】:
期刊论文
[1]数据挖掘中并行离散化数据准备优化[J]. 刘云,袁浩恒. 四川大学学报(自然科学版). 2018(05)
[2]浅析数据挖掘中的数据预处理技术[J]. 张治斌,刘威. 数字技术与应用. 2017(10)
[3]基于上三角矩阵构造多叉树的多维关联规则挖掘算法[J]. 叶涛,于利霞,张亚平. 软件工程. 2017(06)
[4]慢性病大数据分析平台设计[J]. 邱航,龙虎,潘惊萍,王利亚,余海燕. 中国卫生信息管理杂志. 2017(02)
[5]基于数据挖掘的曹克光教授治疗慢性胃炎用药规律分析[J]. 吴清秀,韩德军,杨锡燕. 河北中医. 2017(02)
[6]遗传算法的数据挖掘技术在医疗大数据中的应用[J]. 吕峰,杨宏,普奕,贾婧蓥. 电子技术与软件工程. 2017(05)
[7]四大类主要慢性病流行现状与应对策略[J]. 刘国栋,王桦,汪琦,李晨芳,曾尔亢,吴晓玲. 中国社会医学杂志. 2017(01)
[8]数据挖掘技术综述[J]. 邹祎. 信息通信. 2016(12)
[9]基于病案首页的医疗大数据挖掘研究[J]. 熊志刚,姚刚. 中国数字医学. 2016(09)
[10]一种基于Apriori算法的优化挖掘算法[J]. 陈志飞,冯钧. 计算机与现代化. 2016(09)
硕士论文
[1]改进的关联规则算法在慢性病数据挖掘中的研究[D]. 杨余垒.浙江理工大学 2017
[2]基于数据挖掘的郭立中教授辨治常见慢性病的病案研究[D]. 季飞.南京中医药大学 2015
[3]基于C4.5算法的高血压分类规则提取的研究[D]. 林玲玲.太原理工大学 2012
本文编号:3547653
【文章来源】:西安科技大学陕西省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
实例执行过程图
j++; end if end if end if end for if (i >= j && n == k-1) //满足连接条件 insert p 并集{ext} to Ck+1; end ifend forriori 算法的性能分析后的算法进行实验验证,实验在 12GB 内存,Intel(R) Core(TMdows7 系统的 PC 机上进行。首先选取 UCI标准测试数据库中的验验证数据,该数据包含了 8124 条记录,每条记录有 23 个属性图 3.3 所示。
图 3.4 accidents 数据集部分原始数据表 3.10 同一最小支持度阈值不同数据集下算法所需执行的时间测试数据集算法所需执行的时间(ms)Apriori 算法 改进算法mushroom 1644 574accidents 145618 38801从运行结果可以得出结论:在最小支持度阈值都为 40%的情况下,两个算dents 数据集中执行的时间都要比在 mushroom 数据集中执行的时间要多,这说挖掘所需要的时间与数据集本身的数据特点有很大的关系;但是可以得出的结算法在两个实验数据集上执行耗时要明显优于原始 Apriori 算法。 本章小结本章首先引入了关联规则中的项目约束的概念,指出了用户参与挖掘过程的从课题的研究内容出发提出了改进算法选取的约束条件。之后针对原始 Apri繁扫描事务数据库的缺点给出了映射的优化方式,并借鉴 Separate 算法对频繁
【参考文献】:
期刊论文
[1]数据挖掘中并行离散化数据准备优化[J]. 刘云,袁浩恒. 四川大学学报(自然科学版). 2018(05)
[2]浅析数据挖掘中的数据预处理技术[J]. 张治斌,刘威. 数字技术与应用. 2017(10)
[3]基于上三角矩阵构造多叉树的多维关联规则挖掘算法[J]. 叶涛,于利霞,张亚平. 软件工程. 2017(06)
[4]慢性病大数据分析平台设计[J]. 邱航,龙虎,潘惊萍,王利亚,余海燕. 中国卫生信息管理杂志. 2017(02)
[5]基于数据挖掘的曹克光教授治疗慢性胃炎用药规律分析[J]. 吴清秀,韩德军,杨锡燕. 河北中医. 2017(02)
[6]遗传算法的数据挖掘技术在医疗大数据中的应用[J]. 吕峰,杨宏,普奕,贾婧蓥. 电子技术与软件工程. 2017(05)
[7]四大类主要慢性病流行现状与应对策略[J]. 刘国栋,王桦,汪琦,李晨芳,曾尔亢,吴晓玲. 中国社会医学杂志. 2017(01)
[8]数据挖掘技术综述[J]. 邹祎. 信息通信. 2016(12)
[9]基于病案首页的医疗大数据挖掘研究[J]. 熊志刚,姚刚. 中国数字医学. 2016(09)
[10]一种基于Apriori算法的优化挖掘算法[J]. 陈志飞,冯钧. 计算机与现代化. 2016(09)
硕士论文
[1]改进的关联规则算法在慢性病数据挖掘中的研究[D]. 杨余垒.浙江理工大学 2017
[2]基于数据挖掘的郭立中教授辨治常见慢性病的病案研究[D]. 季飞.南京中医药大学 2015
[3]基于C4.5算法的高血压分类规则提取的研究[D]. 林玲玲.太原理工大学 2012
本文编号:3547653
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3547653.html