当前位置:主页 > 科技论文 > 软件论文 >

数据挖掘的信息论方法研究

发布时间:2021-09-09 20:11
  随着无线移动通信、互联网以及各种智能终端设备等技术的发展与进步,海量数据在呈指数爆炸式地不断地被产生和收集。如何对如此海量数据进行处理和分析,以及如何从中发现和提取有用的或有价值的知识或信息是一系列值得考虑的问题。这些问题都涉及到大数据技术中的一个关键的技术即数据挖掘技术。数据挖掘与信息论之间具有一定联系。近年来,一些学者尝试从信息与通信理论这一新颖的角度去理解和解决(大)数据挖掘分析问题,相关工作已经表明信息论可以为数据挖掘提供一些方法和策略,且这些方法能取得相当不错的效果。同时,适用于大型数据集且可解释性很强。基于此,本文基于信息论分别提出了两个数据挖掘方法:基于自适应均衡器的时间序列分析模型以及基于J散度的决策树分类算法。基于自适应均衡器的时间序列分析模型假设目标时间序列和其相关时间序列之间有信息传递,因此本文在相关时间序列和目标时间序列之间建立单输入均衡器实现对目标时间序列进行预测估计。在模型构建的过程中,对均衡器进行训练得到最佳均衡器长度以及均衡器抽头系数。保持最佳均衡器长度不变同时使用梯度下降法在线更新均衡器抽头系数,最终实现对时间序列的预测估计。接着,引入历史目标时间序列... 

【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:84 页

【学位级别】:硕士

【部分图文】:

数据挖掘的信息论方法研究


–1表示信息熵、条件熵、互信息及联合熵之间关系的Venn图

模型图,数据网络,数据,模型


相关工作中已经指出,数据之间具有相互联系可以共同构建一个数据网络如图3–1所示,图中每个结点代表一个数据实体,而如果结点之间的存在连接,则表示两个结点代表的数据实体之间有相互联系,这种相互联系表示数据之间可能呈现相关性、因果性,或者两组数据相互影响。这种理论的基础源于当前大数据的产生主要是基于万物互联的互联网,主要包括:人与人之间的社交网络,人与智能终端设备的交互以及物联网等。因此,数据网络建立在社交网络和信息传输网络之上,而相应地,一些信号传输与处理理论和网络信息与通信理论可以提供一些角度和方法去理解和解决一些数据分析和数据处理的任务。假设两组数据之间存在相互联系,其中感兴趣的目标数据为X,而其相关数据或对其能产生一定影响的数据为Y。那么,根据前面提到的理论基础,假设X和Y存在一条使二者相互联系的信道,就像一条典型的点对点通信信道如图3–2所示。假设感兴趣的目标数据为假定的“发送信号”X,而假定“接受信号”为与其相关的数据Y。则整个模型表示,目标数据实体X通过某种信道向其相关数据实体Y传递了某些信息;换句话说,X和Y之间存在信息流动,使得从X中产生的一些信息流入到Y中。因此可以通过了解或者借助Y来进一步了解和确定目标数据X。

模型图,信息流,数据,模型


假设两组数据之间存在相互联系,其中感兴趣的目标数据为X,而其相关数据或对其能产生一定影响的数据为Y。那么,根据前面提到的理论基础,假设X和Y存在一条使二者相互联系的信道,就像一条典型的点对点通信信道如图3–2所示。假设感兴趣的目标数据为假定的“发送信号”X,而假定“接受信号”为与其相关的数据Y。则整个模型表示,目标数据实体X通过某种信道向其相关数据实体Y传递了某些信息;换句话说,X和Y之间存在信息流动,使得从X中产生的一些信息流入到Y中。因此可以通过了解或者借助Y来进一步了解和确定目标数据X。考虑极端情况,当Y和X完全不相关,则表示X和Y之间没有联系,二者之间也就不存在信息流动;而当Y和X完全相关,即通过Y可以完全确定X,则表示目标数据X把所有关于其自身的信息都流入到Y中。第二种极端情况也就是通信中所谓的信号的无失真传输,信道也成为无失真信道。然而,实际中大多数信息传输和信息模型都是有失真的,数据之间的信息流也表现出同样的特点,即通过对一组数据的了解大多数情况下只能片面地了解或确定另一组数据。因此,类比于通信的信道模型,建立数据之间的信息流模型为:

【参考文献】:
期刊论文
[1]大数据存储技术综述(英文)[J]. Aisha SIDDIQA,Ahmad KARIM,Abdullah GANI.  Frontiers of Information Technology & Electronic Engineering. 2017(08)

博士论文
[1]基于信息论的数据挖掘算法[D]. 沙朝锋.复旦大学 2008

硕士论文
[1]基于信息理论的特征选择算法研究[D]. 陆景辉.北京交通大学 2007



本文编号:3392712

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3392712.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ce5ac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com