基于深度学习的高维稀疏数据分类研究与应用
发布时间:2021-08-10 09:50
互联网大数据中蕴含着海量文本,如何有效地管理和利用这些数据是信息科学的研究热点。与此同时,随着高通量实验技术的不断进步,生物组学数据呈现爆炸性增长,基于组学数据的疾病特征分析成为生物医学研究的热点问题。文本和代谢组学数据虽然来源不同,却都有高维和稀疏的特点。传统机器学习方法在解决高维稀疏矩阵计算问题时,常会因维数灾难得不到令人满意的结果。本文提出了基于深度学习的高维稀疏数据分类方法,重点讨论了深度学习在文本和代谢组学数据分类上的应用。具体研究工作如下:(1)针对于高维稀疏文本数据,提出了一种深度置信网络(deep belief networks,DBN)和Softmax分类器相融合的文本分类方法。在该方法中,DBN用来对高维和稀疏文本数据降维,Softmax实现对降维数据的分类。在预训练过程中,DBN和Softmax分别完成各自的工作;在微调阶段,将二者作为一个整体,引入了L-BFGS(limited memory Broyden Fletcher Goldfarb Shanno)算法调整系统模型参数。在Reuters-21578和20-Newsgroup数据集上的实验表明,针对不同规...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:博士
【部分图文】:
小规模数据集实验误差率比较图
小规模数据集实验均方误差变化比较
大规模数据集实验误差率比较图
【参考文献】:
期刊论文
[1]丹参多酚酸盐改善扩张性心肌病心肌功能的作用机制[J]. 王曦烨,单晓彤,王伊林,李丹,赵明,许良. 高等学校化学学报. 2016(05)
[2]Biomarkers for pancreatic cancer:Recent achievements in proteomics and genomics through classical and multivariate statistical methods[J]. Emilio Marengo,Elisa Robotti. World Journal of Gastroenterology. 2014(37)
[3]白细胞介素37在类风湿关节炎发病机制中的作用[J]. 陈欢雪,王晓非. 中国医科大学学报. 2014(03)
[4]K-最近邻分类技术的改进算法[J]. 王晓晔,王正欧. 电子与信息学报. 2005(03)
[5]一种实用高效的文本分类算法[J]. 王建会,王洪伟,申展,胡运发. 计算机研究与发展. 2005(01)
[6]概念推理网及其在文本分类中的应用[J]. 李晓黎,刘继敏,史忠植. 计算机研究与发展. 2000(09)
博士论文
[1]文本分类及其特征降维研究[D]. 廖一星.浙江大学 2012
本文编号:3333839
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:博士
【部分图文】:
小规模数据集实验误差率比较图
小规模数据集实验均方误差变化比较
大规模数据集实验误差率比较图
【参考文献】:
期刊论文
[1]丹参多酚酸盐改善扩张性心肌病心肌功能的作用机制[J]. 王曦烨,单晓彤,王伊林,李丹,赵明,许良. 高等学校化学学报. 2016(05)
[2]Biomarkers for pancreatic cancer:Recent achievements in proteomics and genomics through classical and multivariate statistical methods[J]. Emilio Marengo,Elisa Robotti. World Journal of Gastroenterology. 2014(37)
[3]白细胞介素37在类风湿关节炎发病机制中的作用[J]. 陈欢雪,王晓非. 中国医科大学学报. 2014(03)
[4]K-最近邻分类技术的改进算法[J]. 王晓晔,王正欧. 电子与信息学报. 2005(03)
[5]一种实用高效的文本分类算法[J]. 王建会,王洪伟,申展,胡运发. 计算机研究与发展. 2005(01)
[6]概念推理网及其在文本分类中的应用[J]. 李晓黎,刘继敏,史忠植. 计算机研究与发展. 2000(09)
博士论文
[1]文本分类及其特征降维研究[D]. 廖一星.浙江大学 2012
本文编号:3333839
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3333839.html