基于时间序列的决策树生成算法研究
本文选题:时间序列分类 + 正例-未标注学习 ; 参考:《西北农林科技大学》2017年硕士论文
【摘要】:时间序列数据是一类与我们的生活息息相关的高维数据,具有时间跨度大、实值有序、数据间存在自相关性等特点,其广泛存在于商业、医学、气象等领域。在众多时间序列分类算法研究中,相比于其他分类算法,基于决策树算法的时间序列分类算法有着很强的决策分析能力,且不基于正态统计分布假设,有较高的分类精度和鲁棒性。在以往基于决策树的时间序列分类研究中,处理结点分裂时,将时间序列的每一个时刻作为一个属性,按照时间轴一一对应,忽略了时间序列内部的自相关性和时间序列间不对齐性对属性选择的影响,即在时间序列内某个时刻的取值与其前后相邻的若干个时刻的取值相关,在时间序列间,同一时刻对应的数据的意义不同。针对传统决策树算法没有考虑到时间序列自相关性和不对齐性对算法影响的不足,本文在有监督学习和正例-未标注学习两个方面,讨论了新的基于序列对的时间序列决策树分类研究,具体成果如下:(1)有监督学习下的基于时间序列对的决策树生成算法研究。该算法从时间序列与其他序列相比所具有的自相关性和序列不对齐性的特点出发,提出序列熵的概念以代替传统决策树中所使用的信息熵,作为属性选择标准。并在属性值划分上,将序列对作为决策树分裂属性,基于动态时间规整距离(DTW)对时间序列集合进行划分,提出了基于决策树的时间序列分类算法(TSDT)。在此基础上,利用动态分类器集成技术,首先根据待测样本,使用最近邻算法在训练集合中构造验证集,通过随机构造的TSDT分类器在验证集上的分类性能,动态选择若干最优分类器,构造了时间序列动态集成分类模型(_En-TSDT)。在UCR时间序列公共数据集上的实验表明,相比于目前最强的分类器——基于动态时间规整技术的最近邻分类器,En-TSDT平均分类性能指标F1值提高了 1.47%,错误率下降了 9.80%。实验结果表明,基于序列熵和序列对信息增益的决策树算法,可有效克服传统决策树算法忽略时间序列数据自相关性和不对齐性的不足,提高了决策树算法在时间序列数据上的分类性能。(2)正例-未标注学习下的基于时间序列对的决策树生成算法研究。该算法在正例-未标注决策树算法(POSC4.5)基础上,将分裂属性扩展为以序列整体作为特征属性,由结点中正例集合和从未标注集合中挖掘到的负例集合随机组合成序列对,以分裂信息增益最大的序列对作为结点分裂属性,根据结点集合中样本与序列对的动态时间规整距离(DTW),对结点进行分裂,构造正例-未标注场景下的时间序列决策树(TSPOSC4.5)。其中负例集合是通过计算未标注集合中序列与正例集合间的距离,将与正例集合距离最远的序列作为负例,并通过最近邻方法在未标注集合中将挖掘到的负例的最近邻集合作为负例集合。在此算法的基础上,通过对参数估计多次计算取均值,降低了参数估计误差对分类性能的影响。并利用集成学习技术构造了正例-未标注时间序列集成决策树模型(En-TSPOSC4.5)。在UCR数据集中符合正例-未标注场景的16个数据集上,与目前最优的基于Markvo性质的正例-未标注时间序列分类模型PU Markvo和广泛应用的基于动态时间规整的正例最近邻算法相比,基于集成学习技术的En-TSPOSC4.5的分类性能指标F1值在不同正例标注比下分别平均提高了 4.95%和11.45%。结果表明,基于序列对的正例-未标注时间序列集成决策树算法有更强的分类性能。
[Abstract]:Time series data is a kind of high dimensional data which is closely related to our life. It has the characteristics of large time span, orderly real value, and autocorrelation among data. It widely exists in the fields of business, medicine, meteorology and so on. In the study of many time series classification algorithms, the time sequence based on the decision tree algorithm is compared to other classification algorithms. The column classification algorithm has a strong ability of decision analysis, and is not based on the hypothesis of normal statistical distribution. It has high classification accuracy and robustness. In the previous study of time series classification based on decision tree, each time sequence was taken as an attribute when dealing with node splitting, and the time sequence was ignored in accordance with the time sequence. The influence of the internal autocorrelation and the inhomogeneity between time series and time series on the selection of attributes, that is, the value of the value of the time series is related to the values of several adjacent moments in the time series. In the time series, the meaning of the data corresponding to the same time is different. In this paper, a new classification of time series decision tree classification based on sequence pairs is discussed in two aspects of supervised learning and untagged learning. The specific results are as follows: (1) research on the decision tree generation algorithm based on time series pairs under supervised learning. Compared with the characteristics of autocorrelation and sequence inhomogeneity, the sequence entropy concept is proposed to replace the information entropy used in the traditional decision tree as the attribute selection criterion. In the attribute value division, the sequence pair is used as the division attribute of the decision tree and the time sequence based on the dynamic time normalization distance (DTW). In line division, a time series classification algorithm based on decision tree (TSDT) is proposed. On this basis, the dynamic classifier ensemble technology is used. First, according to the samples to be measured, the nearest neighbor algorithm is used to construct the validation set in the training set, and a number of optimal classifiers are dynamically selected through the random construction of the TSDT classifier on the verification set. The time series dynamic integrated classification model (_En-TSDT) is constructed. The experiment on the public data set of the UCR time series shows that compared to the nearest neighbor classifier based on the dynamic time warping technology, the F1 value of the En-TSDT average classification performance index is increased by 1.47%, and the error rate is reduced by the 9.80%. experiment results. The decision tree algorithm for the information gain of sequence entropy and sequence can effectively overcome the shortcomings of the traditional decision tree algorithm ignoring the autocorrelation and inhomogeneity of the time series data, and improve the classification performance of the decision tree algorithm on the time series data. (2) a decision tree generation algorithm based on time series pairs under untagged learning. On the basis of the positive example untagged decision tree algorithm (POSC4.5), the split attribute is extended to the sequence whole as the feature attribute, and the negative example set excavated from the set in the node and the untagged set are randomly combined into sequence pairs, and the sequence pairs with the most splitting information gain are used as node splitting attributes and based on the set of nodes. The dynamic time normalization distance (DTW) of the medium sample and sequence pair, splitting the nodes and constructing the time series decision tree (TSPOSC4.5) under the untagged scene, which is a negative example by calculating the distance between the sequence of the untagged set and the set of the positive example, as a negative example, and through the nearest neighbor. Methods the nearest neighbor set of negative examples in untagged sets is used as a set of negative examples. On the basis of this algorithm, the influence of the parameter estimation error on the classification performance is reduced by calculating the mean value many times in the parameter estimation. And the integrated learning technique is used to construct an integrated decision tree model of the untagged time series (En-TSPOS C4.5). On the 16 datasets of the UCR data set that conforms to the untagged scene, the classification performance index of En-TSPOSC4.5 based on the integrated learning technology is compared to the current optimal Markvo based positive example of the untagged time series classification model PU Markvo and the widely applied dynamic time regularization based nearest neighbor algorithm, the F1 value of the classification performance index based on the integrated learning technique. The average increase of 4.95% and 11.45%. results on the different positive example annotation shows that the sequence pair unlabeled time series integrated decision tree algorithm based on sequence pairs has a stronger classification performance.
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 李健;孙广中;许胤龙;;基于时间序列的预测模型应用与异常检测[J];计算机辅助工程;2006年02期
2 左爱文;郭宏武;王保保;;气象时间序列规则发现及其应用[J];陕西气象;2006年06期
3 刘猛洪;汪爱丽;;基于模糊时间序列的短期电力负荷预测[J];电子世界;2013年07期
4 K.D.C.Stoodley,卢润德;非连续含有准周期分量时间序列的实时监测(英文)[J];控制理论与应用;1986年01期
5 吴红花;刘国华;;不确定时间序列的规约方法[J];计算机工程;2012年21期
6 W.Gersch;黄劲涛;;混合自回归动平均时间序列的自回归参数估计[J];水声译丛;1980年03期
7 王立柱;刘晓东;;Granger相关性与时间序列预测[J];控制与决策;2014年04期
8 周巧临;傅彦;;科学数据时间序列的预测方法[J];电子科技大学学报;2007年06期
9 王阅;高学东;;基于重标级差分析的时间序列分割方法[J];计算机工程与应用;2008年29期
10 修春波;;时间序列一步预测方法[J];计算机应用研究;2010年04期
相关会议论文 前10条
1 周家斌;张海福;杨桂英;;多维多步时间序列预报方法及其应用[A];中国现场统计研究会第九届学术年会论文集[C];1999年
2 马培蓓;纪军;;基于时间序列的航空备件消耗预测[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年
3 卢世坤;李夕海;牛超;陈蛟;;时间序列的非线性非平稳特性研究综述[A];国家安全地球物理丛书(八)——遥感地球物理与国家安全[C];2012年
4 李强;;基于线性模型方法对时间序列中异常值的检测及证券实证分析[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(上册)[C];2002年
5 戴丽金;何振峰;;基于云模型的时间序列相似性度量方法[A];第八届中国不确定系统年会论文集[C];2010年
6 谢美萍;赵希人;庄秀龙;;多维非线性时间序列的投影寻踪学习逼近[A];'99系统仿真技术及其应用学术交流会论文集[C];1999年
7 张大斌;李红燕;刘肖;张文生;;非线性时问序列的小波-模糊神经网络集成预测方法[A];第十五届中国管理科学学术年会论文集(下)[C];2013年
8 黄云贵;;基于时间序列的电网固定资产投资规模研究[A];2012年云南电力技术论坛论文集(文摘部分)[C];2012年
9 李松臣;张世英;;时间序列高阶矩持续和协同持续性研究[A];21世纪数量经济学(第8卷)[C];2007年
10 陈赫;罗声求;;历史横断面数据的时间序列化[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
相关重要报纸文章 前6条
1 ;《时间序列与金融数据分析》[N];中国信息报;2004年
2 何德旭 王朝阳;时间序列计量经济学:协整与有条件的异方差自回归[N];中国社会科学院院报;2003年
3 刘俏;让数据坦白真相[N];21世纪经济报道;2003年
4 西南证券高级研究员 董先安邋德圣基金研究中心 郭奔宇;预计6月CPI同比上涨7.2%[N];证券时报;2008年
5 东证期货 王爱华 杨卫东;两年涨跌轮回 秋季普遍下跌[N];期货日报;2009年
6 任勇邋郑重;中国对世界钢材价格的影响实证分析[N];现代物流报;2007年
相关博士学位论文 前10条
1 张墨谦;遥感时间序列数据的特征挖掘:在生态学中的应用[D];复旦大学;2014年
2 张德成;滑坡预测预报研究[D];昆明理工大学;2015年
3 苗圣法;时间序列的模式检测[D];兰州大学;2015年
4 翁同峰;时间序列与复杂网络之间等价性问题及表征应用研究[D];哈尔滨工业大学;2015年
5 杨婷婷;用Argo浮标结合卫星观测估算北太平洋经向热输运[D];中国科学院研究生院(海洋研究所);2015年
6 史文彬;时间序列的相关性及信息熵分析[D];北京交通大学;2016年
7 原继东;时间序列分类算法研究[D];北京交通大学;2016年
8 卢伟;基于粒计算的时间序列分析与建模方法研究[D];大连理工大学;2015年
9 胡建明;基于正则化核学习模型的时间序列多步预测的研究与应用[D];兰州大学;2016年
10 黄标兵;回声状态网络时间序列预测方法及应用研究[D];吉林大学;2017年
相关硕士学位论文 前10条
1 陈健;基于多变量相空间重构的投资组合策略研究[D];华南理工大学;2015年
2 兰鑫;时间序列的复杂网络转换策略研究[D];西南大学;2015年
3 米晓将;区域尺度下月均气温的时空演化格局研究[D];昆明理工大学;2015年
4 张鸣敏;基于支持向量回归的PM_(2.5)浓度预测研究[D];南京信息工程大学;2015年
5 林健;基于改进小世界回声状态网的时间序列预测[D];渤海大学;2015年
6 曹智丽;日气温和干旱指数支持向量回归预测方法[D];南京信息工程大学;2015年
7 高雄飞;基于分形理论的土壤含水量时间序列特性分析[D];长安大学;2015年
8 姚茜;城市安全生产发展目标研究[D];中国地质大学(北京);2015年
9 谢翠颖;苏州社会消费品零售总额简析[D];苏州大学;2015年
10 包仁义;基于时间序列的搜索引擎评估模型算法研究[D];东北师范大学;2015年
,本文编号:2098352
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2098352.html