事件序列概括与可视化分析
发布时间:2021-10-24 15:56
事件序列数据是指一系列根据时间先后顺序排列的离散事件,通常用以描述事件主体在一段时间内的活动。例如病人的电子医疗数据可以抽象成一系列带有时间标签的医疗事件(例如诊断,化验,用药信息),用以描述病人在一段时间内的治疗过程。类似的,网络访客的点击流事件(例如点击鼠标,访问页面)也以事件序列的形式记录了用户从打开网页到关闭网页期间的浏览行为。事件序列数据有着非常广泛的应用场景,随着信息电子化的进程不断被推进,越来越多的数据以事件序列的形式被记录下来。分析人员也希望通过分析大量的事件序列数据,从中找到事件之间的相关规律以及事件演化的普遍模式。然而由于事件序列具有很高的复杂性,主要体现在大量的事件类型以及事件在时间维度上的动态变化上,因此需要通过事件序列概括分析的方法总结出简洁的事件序列中隐藏的规律。近些年数据挖掘领域和可视化领域都有很多针对这一问题的研究。其中,数据挖掘领域的工作主要集中在通过对事件序列建模学习到事件间的相关性,或者是挖掘潜在的序列发展阶段。这些方法的确可以学习到事件序列中存在的抽象结构,例如事件频率之间的相互影响,序列之间的相似性,潜在的阶段划分方式等,但通常不能很好的将这些...
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:127 页
【学位级别】:博士
【部分图文】:
可视化分析的研究结合了三个领域的研究知识,包括可视化,数据分析和交互
可视分析更加注重信息的视觉展示以及人的感知及反馈。可视分析过程就是将自动化分析模型与信息的可视化展示通过用户交互和反馈相联通的过程 (见图1.2)。在许多应用场景中,异构数据需要被预先整合才能被送进模型训练或者是进行可视化展示,因此可视分析流程的第一步就是数据预处理,包括数据转换,数据清洗,归一化等等。数据在预处理完成后有两种分析方式,一种是直接通过可视化展示传递给用户进行分析,另一种则是通过后台的自动化算法进行分析后传递给可视化模块进行展示。可视分析工具的使用者则可以通过可视化展示界面与数据和模型分析的结果进行交互,比如过滤某一个子数据集合进行分析,选择分析模型或是指定分析的参数等。通过直观的可视化展示,用户可以去衡量和评估模型传达的结果是否有效。就是这种允许用户不断的通过可视化界面对分析的所使用的方法或者是数据集进行反馈的特性,使得可视分析方法比传统自动化的数据分析方法更为有效
是序列中事件的发出者或者是影响者,例如在电子医疗病例中,事件的主体就是病人,网络访问日志的事件主体是网络访问者,汽车保养记录中事件的主体就是每一辆汽车。我们可以将事件序列集 D (图1.3所示) 定义为包含 m 序列的集合:D = {S1, S2, . . . , Sm} (1.1)其中每一个序列 Si, i = 1, 2, . . . , m 都是一系列带有时间戳的事件。我们假设所有事件类型可构成有限集合 E, 那么每一个事件就是一个二元组 (e,t), 其中 e ∈ E是事件类型,t ∈ R 是时间戳,每一个序列包含 n 个事件 (序列长度为 n 的序列)则可以被描述为:S = (e1, t1) , (e2, t2) , . . . , (en, tn) , ti≤ ti+1(1.2)其中 ei与 ti, i = 1, 2, . . . , n 分别为序列中第 i 个事件对应的事件类型与时间戳,值得注意的是,本文的研究充分考虑到了事件序列数据在时间上的动态灵活性,因此允许数据集中出现同一时间发生的事件 (ti= ti+1)。1.2事件序列概括分析与可视化的机遇与挑战事件序列的概括分析的基本目标是找到事件序列数据集中潜在的事件相关关系以及序列演化模式。事件序列往往维度很高,包含很多事件类型,且具有时间动态性,这给事件序列数据集的浏览以及规律的挖掘都带来很大困难。事件序列概括则可以从两个方面解决事件序列数据分析的难题:一方面事件序列概括可以帮助解决序列数据浏览困难的问题。面对不确定的数据集
本文编号:3455554
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:127 页
【学位级别】:博士
【部分图文】:
可视化分析的研究结合了三个领域的研究知识,包括可视化,数据分析和交互
可视分析更加注重信息的视觉展示以及人的感知及反馈。可视分析过程就是将自动化分析模型与信息的可视化展示通过用户交互和反馈相联通的过程 (见图1.2)。在许多应用场景中,异构数据需要被预先整合才能被送进模型训练或者是进行可视化展示,因此可视分析流程的第一步就是数据预处理,包括数据转换,数据清洗,归一化等等。数据在预处理完成后有两种分析方式,一种是直接通过可视化展示传递给用户进行分析,另一种则是通过后台的自动化算法进行分析后传递给可视化模块进行展示。可视分析工具的使用者则可以通过可视化展示界面与数据和模型分析的结果进行交互,比如过滤某一个子数据集合进行分析,选择分析模型或是指定分析的参数等。通过直观的可视化展示,用户可以去衡量和评估模型传达的结果是否有效。就是这种允许用户不断的通过可视化界面对分析的所使用的方法或者是数据集进行反馈的特性,使得可视分析方法比传统自动化的数据分析方法更为有效
是序列中事件的发出者或者是影响者,例如在电子医疗病例中,事件的主体就是病人,网络访问日志的事件主体是网络访问者,汽车保养记录中事件的主体就是每一辆汽车。我们可以将事件序列集 D (图1.3所示) 定义为包含 m 序列的集合:D = {S1, S2, . . . , Sm} (1.1)其中每一个序列 Si, i = 1, 2, . . . , m 都是一系列带有时间戳的事件。我们假设所有事件类型可构成有限集合 E, 那么每一个事件就是一个二元组 (e,t), 其中 e ∈ E是事件类型,t ∈ R 是时间戳,每一个序列包含 n 个事件 (序列长度为 n 的序列)则可以被描述为:S = (e1, t1) , (e2, t2) , . . . , (en, tn) , ti≤ ti+1(1.2)其中 ei与 ti, i = 1, 2, . . . , n 分别为序列中第 i 个事件对应的事件类型与时间戳,值得注意的是,本文的研究充分考虑到了事件序列数据在时间上的动态灵活性,因此允许数据集中出现同一时间发生的事件 (ti= ti+1)。1.2事件序列概括分析与可视化的机遇与挑战事件序列的概括分析的基本目标是找到事件序列数据集中潜在的事件相关关系以及序列演化模式。事件序列往往维度很高,包含很多事件类型,且具有时间动态性,这给事件序列数据集的浏览以及规律的挖掘都带来很大困难。事件序列概括则可以从两个方面解决事件序列数据分析的难题:一方面事件序列概括可以帮助解决序列数据浏览困难的问题。面对不确定的数据集
本文编号:3455554
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3455554.html