基于随机投影维度规约方法的研究
本文选题:随机投影 切入点:维度规约 出处:《哈尔滨工业大学》2017年硕士论文 论文类型:学位论文
【摘要】:维度规约技术在大数据分析中扮演着重要的角色。传统的维度规约技术,比如主成分分析(Principle Component Analysis,PCA),线性判别分析(Linear Discriminant Analysis,LDA)已经在过去的几十年中被广泛研究。然而,随着数据维度的增加,这些传统维度规约方法的计算负载也急剧增长,令人望而却步。这推动了随机投影(Random Projection,RP)技术的发展。随机投影可以在短时间内将高维空间的数据映射到低维空间。然而,随机投影在生成变换矩阵时并没有考虑数据本身的固有结构,因此常常会导致相对较高的误差。在过去的几年中,很多基于随机投影的方法被提出以解决这个问题。我们总结了基于随机投影的方法在不同领域中的应用,旨在帮助研究者们在各自特定的研究领域中选择适合自己的方法。并且,我们归纳了这些改进随机投影的策略,指出了他们优缺点,希望为研究者们在未来改进随机投影的工作提供参考。实验结果表明,传统的特征抽取方法(如线性判别分析和Bag of Words等)和其他特定领域的特征抽取方法都可以显著改进随机投影的性能。随着基因芯片数据容量的飞速增长,数据处理时的计算负载已经远远超过了实时处理的计算能力。为了改进随机投影在基因表达谱数据上的性能,我们尝试将主成分分析,线性判别分析和特征选择(Feature Selection,FS)引入至随机投影中。我们在3个基因表达谱数据集上比较了所提出算法的分类精度和运行时间。在基因芯片数据的帮助下,医学工作者可以为病例提供更精确的诊疗方案。过去的研究表明,基因表达相似的病例属于相同的亚型,因此可以采用相似的诊疗方案。因此,我们开发了一个轻量级的Web应用,通过一系列的机器学习算法帮助医学工作者发现相似的病例。在这个Web应用中,我们将基于随机投影的相关算法应用至基因表达谱数据上以降低聚类算法的计算负载。
[Abstract]:Dimension specification plays an important role in big data analysis. Traditional dimensionality specification techniques, such as principle Component Analysis (PCA), Linear Discriminant Analysis (LDAA), have been widely studied in the past decades. As the data dimension increases, the computational load of these traditional dimension specification methods increases dramatically. It's prohibitive. This is driving the development of Random projection RPs. Random projection can map high-dimensional data to low-dimensional space in a short period of time. However, Random projection does not take into account the inherent structure of the data itself when generating the transformation matrix, so it often leads to relatively high errors. Many methods based on random projection have been proposed to solve this problem. The aim is to help researchers choose their own methods in their specific fields of study. Furthermore, we summarize these strategies for improving random projection, and point out their advantages and disadvantages. We hope to provide a reference for the researchers to improve the random projection in the future. The experimental results show that. Traditional feature extraction methods (such as linear discriminant analysis and Bag of Words) and other feature extraction methods in specific fields can significantly improve the performance of random projection. In order to improve the performance of random projection on gene expression profile data, we try to analyze the principal component. Linear discriminant analysis (LDA) and feature selection (FSs) are introduced into random projection. The classification accuracy and running time of the proposed algorithm are compared on three gene expression data sets. Past studies have shown that cases with similar gene expression belong to the same subtype and can therefore be treated with similar protocols. We've developed a lightweight Web application that uses a series of machine learning algorithms to help medical workers find similar cases. We apply the correlation algorithm based on random projection to the gene expression profile data to reduce the computational load of the clustering algorithm.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R319;TP311.13
【相似文献】
相关期刊论文 前4条
1 季成叶;7—12岁儿童营养状况的线性判别分析[J];中国优生优育;1992年02期
2 王金甲;胡备;;脑机接口的广义核线性判别分析方法研究[J];中国生物医学工程学报;2012年01期
3 司宏宗;刘勋;王涛;格鹏飞;Park Albert;;小学生近视的基因表达式编程与线性判别分析[J];国际眼科杂志;2009年01期
4 康丽芳;梁桂兆;舒茂;杨善彬;李志良;;氨基酸0D-3D信息得分矢量用于人免疫缺陷病毒蛋白酶裂解位点预测及特异性分析[J];中国科学(B辑:化学);2008年07期
相关会议论文 前1条
1 欧阳梅兰;张志敏;陈晨;刘鑫波;梁逸曾;;稀疏线性判别分析法在代谢组学数据研究中的应用[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
相关博士学位论文 前5条
1 任忠国;基于γ特征谱的对象相似性识别技术研究[D];兰州大学;2015年
2 江修保;子空间学习若干问题研究及其应用[D];华中科技大学;2016年
3 原凯;基于投影积分的有源配电系统动态仿真方法研究[D];天津大学;2016年
4 林宇生;鉴别特征抽取方法及其在人脸识别中的应用研究[D];南京理工大学;2008年
5 王建国;特征抽取方法研究及其在人脸识别中的应用[D];南京理工大学;2008年
相关硕士学位论文 前10条
1 王金贝;基于奇异值分解的不相关线性判别分析的通解与性质[D];郑州大学;2015年
2 林轩;几种分类问题的研究[D];吉林大学;2015年
3 孔昭阳;基于GPU的并行线性判别分析算法研究[D];哈尔滨工业大学;2014年
4 张晶;非欧框架下的线性判别分析[D];辽宁师范大学;2015年
5 乔娜娜;基于生物光子学小麦隐蔽性害虫检测机理及分类研究[D];河南工业大学;2016年
6 杜辉;基于二维图像的人脸识别研究[D];江苏大学;2016年
7 刘超;非迭代三维线性判别分析及其在人脸识别中的应用[D];云南财经大学;2016年
8 霍中花;非重叠监控场景下行人再识别关键技术研究[D];江南大学;2016年
9 苗硕;基于L2,1范数和L1范数的鲁棒判别特征提取算法研究[D];西安电子科技大学;2015年
10 李卫平;判别准则优化的LDA研究[D];浙江大学;2017年
,本文编号:1594956
本文链接:https://www.wllwen.com/yixuelunwen/swyx/1594956.html