基于形态特征的时间序列相似性搜索研究
本文关键词:基于形态特征的时间序列相似性搜索研究
【摘要】:如今,我们生活在一个复杂多变的数据时代,这些数据正源源不断地产生于各个领域,并潜移默化的改变着我们的生活节奏和生活方式。在这些数据中,能够给人们的生活带来巨大影响的时间序列是一类重要的数据,所以对其的分析变得十分重要。但由于高维和杂乱等因素的影响使得对时间序列的研究变得十分困难,为了找出序列中隐含的重要信息,研究人员开始运用数据挖掘的手段对时间序列进行探索研究。在时间序列数据挖掘算法中,时间序列相似性搜索占有重要地位,吸引了大多数学者的深入研究。随着时间的推移,时间序列相似性搜索研究的方法和成果普遍应用于人们日常生活中的各个领域,譬如:证券的投资与决策、地震勘探与预测、医疗保险等。在时间序列相似性搜索中,形态特征反映时间序列的主要特性,既能客观的反映出序列的全部变化趋势,又可以体现出细节变化特点。同时,基于形态特征的距离度量算法能够很好地计算出序列间的形态差别,对时间序列相似性搜索技术的研究具有深远影响。经过阅读和专研大量海内外关于时间序列形态特征范畴内的相关文献,本文全面细致地概况了基于形态特征的时间序列相似性搜索算法的近况,并对其发展阶段中的各个经典算法进行了详细的描述和分析,指出所存在问题,在此基础上提出了相应的解决方法,本文主要研究工作包括:(1)将算术编码技术应用到时间序列相似性搜索中,此方法首先运用关键点分段技术提取时间序列的均值和斜率等序列的特征信息,采取数字符号化方法得到能充分体现序列均值和斜率信息的符号序列;然后通过编码技术将符号序列转化为编码序列,实现时间序列在概率区间上的模式表示;最后采用分层欧式距离算法进行相似性搜索,由粗到细进行筛选,从而达到序列整体趋势匹配以及细节拟合的目标。(2)提出基于符号聚合近似(Symbolic Aggregate approximation,SAX)和角点弯曲值的复合搜索算法。该方法将时间序列进行角点分段并提取序列的角点弯曲度值和均值信息,利用二者组成二元组的形式对时间序列进行复合表示;在此基础上,采用具有较高质量的复合距离算法在时间序列集中进行相似性搜索,得到的结果集可以达到数值和形态两方面都相似的目的。
【关键词】:时间序列 相似性搜索 形态特征 统计特征
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;O211.61
【目录】:
- 摘要7-8
- Abstract8-12
- 第1章 绪论12-25
- 1.1 课题研究背景与意义12-14
- 1.2 国内外研究现状14-23
- 1.2.1 时间序列数据挖掘的研究现状14-17
- 1.2.2 基于形态特征的时间序列相似性搜索的现状分析17-22
- 1.2.3 存在的问题22-23
- 1.3 本文主要工作23
- 1.4 本文内容安排23-25
- 第2章 基于形态特征的时间序列相似性搜索相关技术及算法25-36
- 2.1 引言25
- 2.2 基于形态特征的时间序列模式表示25-30
- 2.2.1 模式表示的概述25-26
- 2.2.2 形态特征模式表示的主要方法26-30
- 2.3 基于形态特征的时间序列相似性度量30-35
- 2.3.1 Minkowski距离31-32
- 2.3.2 动态时间弯曲32-34
- 2.3.3 模式距离34-35
- 2.3.4 复合距离35
- 2.4 本章小结35-36
- 第3章 算术编码技术在时间序列分层搜索上的应用36-45
- 3.1 引言36
- 3.2 相关理论及数据预处理36-38
- 3.2.1 数据规范化36-37
- 3.2.2 关键点分段与对等37-38
- 3.3 时间序列符号化与算术编码算法38-42
- 3.3.1 均值和斜率符号化38
- 3.3.2 编码38-40
- 3.3.3 相似性度量40-42
- 3.4 实验仿真42-44
- 3.4.1 实验数据42
- 3.4.2 相似性度量的比较42-44
- 3.5 结论44-45
- 第4章 基于角点弯曲度和均值的时间序列相似性匹配算法45-53
- 4.1 引言45
- 4.2 时间序列模式表示45-48
- 4.2.1 角点分段与对等46-47
- 4.2.2 符号化与角点表示47-48
- 4.2.3 复合表示48
- 4.3 相似性距离计算48-49
- 4.3.1 符号化距离和角点弯曲度距离48-49
- 4.3.2 复合距离49
- 4.4 实验仿真49-52
- 4.4.1 实验环境与实验数据49-50
- 4.4.2 实验与分析50-52
- 4.5 结论52-53
- 结论与展望53-55
- 参考文献55-59
- 致谢59-60
- 附录A 攻读学位期间所发表的学术论文60
【相似文献】
中国期刊全文数据库 前10条
1 彭敏;方慧生;;酶功能分类与序列相似性研究进展[J];国外医学.药学分册;2006年06期
2 杜云龙;;基于时间序列的数据相似性统计[J];内蒙古电大学刊;2007年06期
3 杨敏,王志坚,尹燕敏;时间序列相似性搜索算法研究[J];山东师大学报(自然科学版);2001年04期
4 朱渊萍;;一种新的时间序列相似性模式发现算法[J];海南师范大学学报(自然科学版);2011年02期
5 李峰;;关于时间序列相似性问题中间隔因子讨论[J];科技信息(科学教研);2007年14期
6 于海龙;肖云;艾静;李霞;宫滨生;;毒蕈乙酰胆碱受体亚型关系的研究[J];遗传;2007年10期
7 周勇;林旬;;时间序列相似性的图形相似方法研究[J];统计与决策;2007年10期
8 郑华;李炜;邱剑锋;林晨;蒋阿芳;;基于时间序列相似性匹配算法的研究[J];井冈山大学学报(自然科学版);2010年03期
9 滕传远,吴绍熙;热变性法测定红色毛癣菌核中DNA鸟嘌呤加胞嘧啶含量的研究[J];中国医学科学院学报;1989年04期
10 李梅;白凤兰;;基于DTW距离的DNA序列相似性分析[J];生物数学学报;2009年02期
中国重要会议论文全文数据库 前3条
1 卓明;王丽珍;谭旭;;基于时间序列相似性搜索的预测算法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 邱均平;王菲菲;;时间序列相似性查询与索引方法研究[A];2009年中国索引学会年会暨学术研讨会论文集[C];2009年
3 李凤敏;李前忠;张俊萍;;基于离散增量和协变判别式识别小鼠蛋白质亚细胞定位[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年
中国博士学位论文全文数据库 前1条
1 李俊奎;时间序列相似性问题研究[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 左芳;十二株放线菌系统发育的研究[D];河北大学;2007年
2 孙宏伟;基于DTW距离的时间序列相似性查询和shapelets分类算法研究[D];太原理工大学;2016年
3 涂俐兰;基于快速沃尔什变换的生物序列相似性比对[D];华中科技大学;2004年
4 陈伟;生物信息学中的序列相似性比对算法[D];中国海洋大学;2006年
5 李明亮;时间序列相似性聚类算法研究[D];湖南大学;2010年
6 王克龙;离散小波变换分析蛋白质序列相似性[D];四川大学;2004年
7 刘芳;基于信息离散度的DNA序列相似性分析研究[D];湖南大学;2009年
8 孙达辰;基于DTW的时间序列相似性搜索的研究[D];大庆石油学院;2010年
9 杜洪波;时间序列相似性查询及异常检测算法的研究[D];沈阳工业大学;2008年
10 朱天;关于时间序列相似性及时序规则发现的研究[D];南昌大学;2007年
,本文编号:1041255
本文链接:https://www.wllwen.com/kejilunwen/yysx/1041255.html