基于子序列分布变化的对比序列模式挖掘研究
发布时间:2021-08-04 20:31
对比序列模式挖掘是数据挖掘中的一项重要研究任务,旨在发现不同类别的序列数据之间的差异。如何从序列数据中高效地挖掘有意义且易于分析的模式是当前研究需要解决的一大难题。目前研究人员已经设计了许多关于对比序列模式挖掘的算法,然而大多数算法都是基于出现次数或支持度框架,忽略了子序列的分布对模式的影响。虽然已有算法在显露序列模式挖掘中考虑了子序列的位置信息,但是该算法使用固定位置来识别不同子序列在不同类别的序列数据中的分布差异,即,子序列模式在一类序列数据集中频繁出现在给定区分位置之前,而在另一类序列数据集中频繁出现在该给定位置之后。在没有足够先验知识的情况下,用户很难设置恰当的位置阈值,并且不同的子序列其区分位置可能不同,因此,设置固定位置阈值可能会忽略许多有意义的模式。考虑到大量序列数据包含时间标签,在分析序列数据时其时间属性也是不可忽略的一个要素,设计一种能够自动分析事件时间分布差异的算法将有助于决策者做出正确的决策。此外,随着大量生物数据的产生,研究能够自动地分析不同类别的生物序列差异的方法是亟待解决的难题。然而,之前以对比序列模式挖掘为中心的相关研究均未考虑基因/氨基酸的空间位置分布对...
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及研究意义
1.2 国内外研究现状
1.2.1 序列模式及其局限性
1.2.2 序列模式在生物中的应用研究现状
1.2.3 对比序列模式研究现状
1.3 主要研究内容
1.4 本文组织结构
第2章 相关理论基础
2.1 序列模式挖掘基本概念
2.2 典型的序列模式挖掘方法
2.2.1 基于广度优先搜索的方法
2.2.2 基于深度优先搜索的方法
2.2.3 基于模式增长的方法
2.3 对比序列模式挖掘方法
2.3.1 基于集合枚举树的方法
2.3.2 基于基因表达编程的方法
2.3.3 基于树型结构的方法
2.3.4 剪枝策略
2.3.5 特征选择
2.4 本章小结
第3章 基于时间分布的模式挖掘算法
3.1 引言
3.2 问题定义
3.3 基于时间分布的模式挖掘算法
3.3.1 算法思想
3.3.2 TDCSP-tree的构建
3.3.3 对比序列模式STDV-CSP挖掘算法
3.3.4 时间复杂度分析
3.4 实验结果与分析
3.4.1 实验方案
3.4.2 参数对模式数量的影响
3.4.3 参数对运行时间的影响
3.4.4 有效性分析
3.4.5 分类准确率
3.4.6 可伸缩性分析
3.4.7 内存使用情况
3.5 本章小结
第4章 基于空间位置分布的模式挖掘算法
4.1 引言
4.2 问题定义
4.3 基于空间位置分布的模式挖掘算法
4.3.1 算法思想
4.3.2 SLD-tree的构建
4.3.3 对比序列模式SLD-CSP挖掘算法
4.3.4 时间复杂度分析
4.4 实验结果与分析
4.4.1 实验方案
4.4.2 有效性分析
4.4.3 分类性能
4.4.4 参数对模式数量的影响
4.4.5 参数对分类性能的影响
4.4.6 参数对运行时间的影响
4.4.7 可伸缩性分析
4.5 本章小结
结论
参考文献
附录A 发表论文和参加科研情况说明
致谢
【参考文献】:
期刊论文
[1]去冗余Top-k对比序列模式挖掘[J]. 江冰,谷飞洋,何增有. 智能系统学报. 2018(05)
[2]基于Spark的Top-k对比序列模式挖掘[J]. 张鹏,段磊,秦攀,左劼,唐常杰,元昌安,彭舰. 计算机研究与发展. 2017(07)
[3]基于位置信息的显露序列模式挖掘研究[J]. 陈湘涛,肖碧文. 计算机科学. 2017(07)
[4]基于时序数据的top-k时间区间对比序列模式挖掘算法[J]. 晏力. 现代计算机(专业版). 2017(09)
[5]免预设间隔约束的对比序列模式高效挖掘[J]. 王慧锋,段磊,左劼,王文韬,李钟麒,唐常杰. 计算机学报. 2016(10)
[6]带间隔约束的Top-k对比序列模式挖掘[J]. 杨皓,段磊,胡斌,邓松,王文韬,秦攀. 软件学报. 2015(11)
[7]带有间隔约束的多序列模式挖掘[J]. 王华东,杨杰,李亚娟. 计算机应用. 2014(09)
本文编号:3322358
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及研究意义
1.2 国内外研究现状
1.2.1 序列模式及其局限性
1.2.2 序列模式在生物中的应用研究现状
1.2.3 对比序列模式研究现状
1.3 主要研究内容
1.4 本文组织结构
第2章 相关理论基础
2.1 序列模式挖掘基本概念
2.2 典型的序列模式挖掘方法
2.2.1 基于广度优先搜索的方法
2.2.2 基于深度优先搜索的方法
2.2.3 基于模式增长的方法
2.3 对比序列模式挖掘方法
2.3.1 基于集合枚举树的方法
2.3.2 基于基因表达编程的方法
2.3.3 基于树型结构的方法
2.3.4 剪枝策略
2.3.5 特征选择
2.4 本章小结
第3章 基于时间分布的模式挖掘算法
3.1 引言
3.2 问题定义
3.3 基于时间分布的模式挖掘算法
3.3.1 算法思想
3.3.2 TDCSP-tree的构建
3.3.3 对比序列模式STDV-CSP挖掘算法
3.3.4 时间复杂度分析
3.4 实验结果与分析
3.4.1 实验方案
3.4.2 参数对模式数量的影响
3.4.3 参数对运行时间的影响
3.4.4 有效性分析
3.4.5 分类准确率
3.4.6 可伸缩性分析
3.4.7 内存使用情况
3.5 本章小结
第4章 基于空间位置分布的模式挖掘算法
4.1 引言
4.2 问题定义
4.3 基于空间位置分布的模式挖掘算法
4.3.1 算法思想
4.3.2 SLD-tree的构建
4.3.3 对比序列模式SLD-CSP挖掘算法
4.3.4 时间复杂度分析
4.4 实验结果与分析
4.4.1 实验方案
4.4.2 有效性分析
4.4.3 分类性能
4.4.4 参数对模式数量的影响
4.4.5 参数对分类性能的影响
4.4.6 参数对运行时间的影响
4.4.7 可伸缩性分析
4.5 本章小结
结论
参考文献
附录A 发表论文和参加科研情况说明
致谢
【参考文献】:
期刊论文
[1]去冗余Top-k对比序列模式挖掘[J]. 江冰,谷飞洋,何增有. 智能系统学报. 2018(05)
[2]基于Spark的Top-k对比序列模式挖掘[J]. 张鹏,段磊,秦攀,左劼,唐常杰,元昌安,彭舰. 计算机研究与发展. 2017(07)
[3]基于位置信息的显露序列模式挖掘研究[J]. 陈湘涛,肖碧文. 计算机科学. 2017(07)
[4]基于时序数据的top-k时间区间对比序列模式挖掘算法[J]. 晏力. 现代计算机(专业版). 2017(09)
[5]免预设间隔约束的对比序列模式高效挖掘[J]. 王慧锋,段磊,左劼,王文韬,李钟麒,唐常杰. 计算机学报. 2016(10)
[6]带间隔约束的Top-k对比序列模式挖掘[J]. 杨皓,段磊,胡斌,邓松,王文韬,秦攀. 软件学报. 2015(11)
[7]带有间隔约束的多序列模式挖掘[J]. 王华东,杨杰,李亚娟. 计算机应用. 2014(09)
本文编号:3322358
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3322358.html