数据挖掘过程中的可解释性问题研究
发布时间:2020-09-16 07:02
数据挖掘是指从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料。这些海量数据中往往隐含着各种各样有用的信息。数据挖掘的过程中通常需要应用机器学习算法来建立模型。在机器学习和数据挖掘领域,模型的可解释性一直具有重要的理论和实践价值。可解释性高的机器学习模型更值得信赖,也更可能被用户采纳。可解释性研究已有二十多年的发展历史,并且积累了丰富的研究成果。然而,当前的可解释性研究仍然存在着一些不足之处,如很少考虑人的认知因素、无监督学习可解释性研究较少等。特别地,当前的可解释性研究主要针对建模阶段的可解释性问题,忽略了数据挖掘过程中其它阶段可解释性问题的研究。针对这些不足,本文在已有研究工作的基础上,对数据挖掘过程中涉及的可解释性问题进行了系统研究,主要工作如下:(1)提出了一种基于数据挖掘过程的可解释性研究框架。针对可解释性研究领域至今没有一个公认的可解释性的定义的情况,本文对可解释性的定义、内涵进行了分析。然后从数据挖掘过程的角度,提出了一种基于CRISP-DM(Cross-Industry Standard Process for Data Mining)的可解释性研究框架,充分考虑了数据挖掘过程中各个阶段对可解释性的影响,并提出了“可解释性平面”对最重要的阶段(建模阶段)的可解释性问题进行划分。(2)提出了一种原始数据理解流程。数据理解阶段的可解释性研究目标是使用合适的方法提高人对原始数据的理解程度。本文提出的原始数据理解流程考虑了有监督学习和无监督学习两种情况,并且运用了可视化技术,可以很好的满足用户在数据理解阶段中希望能够快速直观的了解数据的需求,以便尽快开展后续工作的目标。对于有监督学习而言,该流程主要从样本和特征两个维度考虑,包括理解问题的难度、找出各类的典型样本和识别重要特征。对于无监督学习而言,该流程包括理解问题的难度和探索数据。(3)提出了一种高维稀疏数据特征选择框架。鉴于数据准备阶段中高维数据的特征选择对最终模型可解释性的影响很大,本文提出了一种高维稀疏数据特征选择框架,用于提高待建模数据集的可解释性。该框架主要针对具有稀疏性的高维数据的特征选择。它集成了去稀疏列特征、Filter方法和Wrapper方法。同时还对实际应用中常用的一种特征选择算法(SFS算法)进行了改进,并将改进后的SFS算法应用在该高维特征选择框架中。实验证实该特征选择框架具有较高的有效性。(4)提出了一种基于人分类学习的黑盒模型解释方法。鉴于可解释性与人的认知能力相关,该黑盒模型解释方案通过集成人分类学习理论中的原型理论、范例理论和选择性注意理论对黑盒分类器进行解释,它包括原型解释和范例解释。当解释一条数据时,首先使用原型进行解释,如果该数据不符合原型解释,则采用范例进行解释。实验表明该方法能够比较有效地解释黑盒分类器的分类结果。(5)提出了一种基于用户满意度的聚类方法。由于无监督学习的可解释性研究相对较少,而聚类是无监督学习的代表,其可解释性研究具有重要的应用价值。因此,本文对聚类的可解释性进行了研究。鉴于目前还没有一个通用的指标去评估一个聚类的好坏,本文提出将用户满意度作为评价聚类结果的指标,同时将可解释性纳入满意度指标中。然后根据该指标,提出了基于用户满意度的聚类方法,实验表明该方法能有效地提高聚类的可解释性。本文关于数据挖掘过程可解释性问题的研究在一定程度上弥补了现有研究的不足,其研究结果为数据挖掘领域可解释性研究提供了有价值的线索。
【学位单位】:重庆大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP311.13
【部分图文】:
并且其参数很容易确定[108]。1)算法思想DP 算法假设聚类中心被较低局部密度的点所围绕,并且这些聚类中心离具有更高局部密度的点有相对较远。因此,对于数据集中的任意数据点 i, DP 算法需要计算出它的局部密度(ρi)和它离更高密度点的距离(δi),其计算公式如下:( )i ij cj d d(3.1)如果 x<0,则 ( x) 1,否则 ( x) 0。ρi的值等价于到数据点 i 的距离小于dc的所有数据点的数量。:min ( )j ii ijj p p d (3.2)2)聚类过程通常认为局部密度 ρi较大且离更高密度点的距离 δi较大的点是类簇的中心点;局部密度 ρi较小但 δi较大的点是异常点。在确定了类簇中心之后,其他数据点根据其最邻近高密度点的类标进行分类。
重庆大学博士学位论文小,所以是异常点。3)聚类分析聚类分析中通常需要确定每个点划分给某个类簇的可靠性。在该算法中首先为每个类簇定义一个边界区域,即划分给该类簇但是距离其他类簇的点的距离小于dc的点。然后为每个类簇找到其边界区域的局部密度最大的点,假设其局部密度为 ρh。该类簇中所有局部密度大于 ρh的点被认为是类簇核心的一部分,即将该点划分给该类簇的可靠性很大。其余的点被认为是该类簇的光晕(halo),即可以认为是噪音。图 3.3 为 DP 算法在人工合成数据上的实验结果。
图 3.4 DP 算法在不同数据分布上的测试结果Fig. 3.4 Results for test cases in different data distributions②一种改进后的 DP 算法DP 算法是一种简洁的能识别各种形状类簇的优秀聚类算法,由于该算法是基于密度的,因此,可以稍加改进使其能识别各个类簇的任意高密度区域。该功能适用于选择典型样本的情况。DP 算法改进的基本思想是首先预设一个密度值 p 作为参数,然后使 DP 算法能够接收该参数,最后将 DP 算法中的光晕(halo)点定义为所有局部密度值小于参数 p 的数据点。改进后的 DP 算法的描述如下:算法 3.1 改进后的 DP 算法输入:数据集 X = { x1, x2, , xn∈RN},X 中样本的维数为 d预设密度参数 p
本文编号:2819548
【学位单位】:重庆大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP311.13
【部分图文】:
并且其参数很容易确定[108]。1)算法思想DP 算法假设聚类中心被较低局部密度的点所围绕,并且这些聚类中心离具有更高局部密度的点有相对较远。因此,对于数据集中的任意数据点 i, DP 算法需要计算出它的局部密度(ρi)和它离更高密度点的距离(δi),其计算公式如下:( )i ij cj d d(3.1)如果 x<0,则 ( x) 1,否则 ( x) 0。ρi的值等价于到数据点 i 的距离小于dc的所有数据点的数量。:min ( )j ii ijj p p d (3.2)2)聚类过程通常认为局部密度 ρi较大且离更高密度点的距离 δi较大的点是类簇的中心点;局部密度 ρi较小但 δi较大的点是异常点。在确定了类簇中心之后,其他数据点根据其最邻近高密度点的类标进行分类。
重庆大学博士学位论文小,所以是异常点。3)聚类分析聚类分析中通常需要确定每个点划分给某个类簇的可靠性。在该算法中首先为每个类簇定义一个边界区域,即划分给该类簇但是距离其他类簇的点的距离小于dc的点。然后为每个类簇找到其边界区域的局部密度最大的点,假设其局部密度为 ρh。该类簇中所有局部密度大于 ρh的点被认为是类簇核心的一部分,即将该点划分给该类簇的可靠性很大。其余的点被认为是该类簇的光晕(halo),即可以认为是噪音。图 3.3 为 DP 算法在人工合成数据上的实验结果。
图 3.4 DP 算法在不同数据分布上的测试结果Fig. 3.4 Results for test cases in different data distributions②一种改进后的 DP 算法DP 算法是一种简洁的能识别各种形状类簇的优秀聚类算法,由于该算法是基于密度的,因此,可以稍加改进使其能识别各个类簇的任意高密度区域。该功能适用于选择典型样本的情况。DP 算法改进的基本思想是首先预设一个密度值 p 作为参数,然后使 DP 算法能够接收该参数,最后将 DP 算法中的光晕(halo)点定义为所有局部密度值小于参数 p 的数据点。改进后的 DP 算法的描述如下:算法 3.1 改进后的 DP 算法输入:数据集 X = { x1, x2, , xn∈RN},X 中样本的维数为 d预设密度参数 p
【参考文献】
相关期刊论文 前7条
1 袁晓蕾;李晓东;吉运;王茁;;大学生上网情况与学业成绩关系的实证研究[J];中国教育信息化;2015年10期
2 王国霞;刘贺平;;个性化推荐系统综述[J];计算机工程与应用;2012年07期
3 化柏林;;数据挖掘与知识发现关系探析[J];情报理论与实践;2008年04期
4 杨燕;靳蕃;KAMEL Mohamed;;聚类有效性评价综述[J];计算机应用研究;2008年06期
5 陈凯;朱钰;;机器学习及其相关算法综述[J];统计与信息论坛;2007年05期
6 毛勇;周晓波;夏铮;尹征;孙优贤;;特征选择算法研究综述[J];模式识别与人工智能;2007年02期
7 梁晓红;;浅析网络游戏对大学生的影响[J];科教文汇(上半月);2006年07期
相关博士学位论文 前1条
1 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
相关硕士学位论文 前1条
1 姜百宁;机器学习中的特征选择算法研究[D];中国海洋大学;2009年
本文编号:2819548
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2819548.html