基于复杂异构数据的表征学习研究
发布时间:2021-11-18 05:28
随着智能时代和大数据时代的到来,各种复杂异构数据不断涌现,它们成为数据驱动的人工智能方法、机器学习模型的基础。复杂异构数据的表征直接关系着后续模型的学习性能,所以如何有效地表征复杂异构数据成为机器学习面临的一个重要挑战。本文对典型的复杂异构数据进行了深入的分析,根据数据的内部特点和复杂性进行了一系列表征学习模型研究,提出了多种新型的表征学习方法。(1)离散数据的表征学习框架及实例化算法。真实世界的离散数据中包含复杂的数据耦合关系,这种耦合关系不仅存在于两两的特征之间或者特征值之间,还可能由此产生不同粒度的特征值类(即交互关系较强的特征值组成的类),同时这些特征值类之间也可能存在一定的耦合关系。本文提出了一个通用的无监督离散数据表征学习框架(CURE),它不仅能够捕获离散数据中的层次化耦合关系,还能被实例化为不同的算法从而应用于不同的应用场景。CURE根据两个特征值耦合关系函数学习不同粒度的特征值类,并在此基础上学习特征值类之间的耦合关系。同时我们将CURE实例化为两个模型:适用于聚类的耦合数据嵌入算法(CDE)和适用于高维数据异常检测的耦合异常打分算法(COSH)。CDE将离散数据嵌入...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:130 页
【学位级别】:博士
【部分图文】:
机器学习依赖于数据和数据表征异构性也越来越多
国防科技大学研究生院博士学位论文1.3文章结构本文共分为七章,结构如图1.2所示:第一章是绪论部分,简要说明了研究背景,包括数据表征和表征学习的一些基本概念,同时介绍了本文的研究内容以及创新点。图1.2本文组织结构第二章介绍了与本文相关的现有数据表征学习相关研究,并根据数据类型划分为单一类型数据表征和复合数据类型表征。第三章对离散数据的表征学习进行研究,针对离散数据中存在的层次化耦合关系提出了新的离散数据表征框架以及在此框架上的两个表征学习算法,并分别在多个数据集上用不同的应用对表征学习算法进行了有效性测试、可扩展性测试和参数敏感性测试。第四章对混合数据的表征学习进行研究,提出了自指导式的表征学习机制以及基于度量学习的表征学习模型,并通过多个数据集上的实验效果验证了其有效性,并通过可视化展示了表征的效果。第五章对属性网络的表征学习进行研究,发现了属性网络中节点存在多方面的影响力,节点之间也存在多方面的交互关系,由此提出了基于演化耦合模型的属性网络数据表征模型,多个应用展示了模型相对于现有方法的优越性,以及可解释性。第六章对跨领域多模态数据的表征学习进行研究,从人类的同理心学习受到启发,提出了同理感知机,可以进行跨领域的表征学习,并将其应用于领域适应和多模态学习,大量实验展示了模型的有效性。第10页
国防科技大学研究生院博士学位论文图2.3由单一类型数据复合而来的复杂异构数据也同样采用与spectralCAT相同的连续数据离散化方案。不同的是,coupledMC将连续特征转化到离散空间之后,采用离散变量的相似度来表示离散特征,然后计算各个特征之间的皮尔逊相关系数(PearsonCorrelationCoefficient)。因为离散化连续变量带来了信息丢失,所以仅仅采用皮尔逊相关系数不能很好捕获连续特征和离散特征之间的关系。除了离散化连续特征之外,还有一些其他的方法可以将离散特征转换成连续特征,比如独热编码,CDE[56,57],UFT[58]等,但是他们都不能处理混合数据中的特征异构性。其他一些方法直接计算混合数据对象之间的距离或者相似度。K-prototype[59]是k-means聚类算法的扩展,它将连续特征的欧式距离和离散特征的汉明距离进行加权求和,从而计算混合数据之间的距离。按照k-prototype的模式,其他一些方法[21,60–62]通过改变连续特征的距离计算方法或离散特征的距离计算方法,产生了针对混合数据的不同距离度量方法。他们中的大部分都是通过衡量离散化的连续特征与离散特征之间的共现关系来量化连续特征和离散特征的交互。距离度量学习是学习对象区分信息的一个重要方法,通过距离度量将训练数据集从原始空间转换到度量空间同时保持其原有的距离关系[63]。但是大部分的度量学习方法都需要类别标签来指导训练过程而且不能直接应用于混合数据[64–66]。无监督距离度量学习,也被称为流形学习,其目的是为了学习数据的低维表示,如PCA,ISOMAP[67]和LLE[68]。但是他们只关注连续数据,不能处理混合数据也不能学习离散特征和连续特征之间的异构关系。自动编码机已经在图像和文本数据上展示出了它的表征学习能力[69,70],它能够产生语义丰富的和可区分
本文编号:3502302
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:130 页
【学位级别】:博士
【部分图文】:
机器学习依赖于数据和数据表征异构性也越来越多
国防科技大学研究生院博士学位论文1.3文章结构本文共分为七章,结构如图1.2所示:第一章是绪论部分,简要说明了研究背景,包括数据表征和表征学习的一些基本概念,同时介绍了本文的研究内容以及创新点。图1.2本文组织结构第二章介绍了与本文相关的现有数据表征学习相关研究,并根据数据类型划分为单一类型数据表征和复合数据类型表征。第三章对离散数据的表征学习进行研究,针对离散数据中存在的层次化耦合关系提出了新的离散数据表征框架以及在此框架上的两个表征学习算法,并分别在多个数据集上用不同的应用对表征学习算法进行了有效性测试、可扩展性测试和参数敏感性测试。第四章对混合数据的表征学习进行研究,提出了自指导式的表征学习机制以及基于度量学习的表征学习模型,并通过多个数据集上的实验效果验证了其有效性,并通过可视化展示了表征的效果。第五章对属性网络的表征学习进行研究,发现了属性网络中节点存在多方面的影响力,节点之间也存在多方面的交互关系,由此提出了基于演化耦合模型的属性网络数据表征模型,多个应用展示了模型相对于现有方法的优越性,以及可解释性。第六章对跨领域多模态数据的表征学习进行研究,从人类的同理心学习受到启发,提出了同理感知机,可以进行跨领域的表征学习,并将其应用于领域适应和多模态学习,大量实验展示了模型的有效性。第10页
国防科技大学研究生院博士学位论文图2.3由单一类型数据复合而来的复杂异构数据也同样采用与spectralCAT相同的连续数据离散化方案。不同的是,coupledMC将连续特征转化到离散空间之后,采用离散变量的相似度来表示离散特征,然后计算各个特征之间的皮尔逊相关系数(PearsonCorrelationCoefficient)。因为离散化连续变量带来了信息丢失,所以仅仅采用皮尔逊相关系数不能很好捕获连续特征和离散特征之间的关系。除了离散化连续特征之外,还有一些其他的方法可以将离散特征转换成连续特征,比如独热编码,CDE[56,57],UFT[58]等,但是他们都不能处理混合数据中的特征异构性。其他一些方法直接计算混合数据对象之间的距离或者相似度。K-prototype[59]是k-means聚类算法的扩展,它将连续特征的欧式距离和离散特征的汉明距离进行加权求和,从而计算混合数据之间的距离。按照k-prototype的模式,其他一些方法[21,60–62]通过改变连续特征的距离计算方法或离散特征的距离计算方法,产生了针对混合数据的不同距离度量方法。他们中的大部分都是通过衡量离散化的连续特征与离散特征之间的共现关系来量化连续特征和离散特征的交互。距离度量学习是学习对象区分信息的一个重要方法,通过距离度量将训练数据集从原始空间转换到度量空间同时保持其原有的距离关系[63]。但是大部分的度量学习方法都需要类别标签来指导训练过程而且不能直接应用于混合数据[64–66]。无监督距离度量学习,也被称为流形学习,其目的是为了学习数据的低维表示,如PCA,ISOMAP[67]和LLE[68]。但是他们只关注连续数据,不能处理混合数据也不能学习离散特征和连续特征之间的异构关系。自动编码机已经在图像和文本数据上展示出了它的表征学习能力[69,70],它能够产生语义丰富的和可区分
本文编号:3502302
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3502302.html